targetai представила эффективный движок для синтеза речи ИИ-агентами

Российская компания targetai, специализирующаяся на разработке ИИ-решений для клиентского сервиса, объявила о запуске нового продукта — targetspeak — передовой синтез речи для голосовых агентов. Особенность разработки заключается в способности генерировать натуральный человеческий голос, функционирующий на локальной модели, нативно обученной русскому языку и соответствующей всем требованиям обработки персональных данных и безопасности. Об этом CNews сообщили представители targetai.

До создания собственной технологии targetai протестировал и использовал несколько сторонних решений — в том числе «Яндекс SpeechKit», Salute Speech и 11Labs. Однако многочисленных клиентов компании не устраивало качество получаемого синтеза речи.

«Начиная работу над собственной технологией синтеза речи мы стремились к одному — чтобы голос агента звучал максимально естественно и по?человечески. Для нас это приоритет номер один, наряду с высоким фонетическим качеством, быстродействием и поддержкой работы в облаке или в контуре клиента. Проанализировав запросы клиентов мы смогли четко сформулировать требования к качеству и задать стандарт, на который сейчас ориентируемся при разработке собственного движка», — сказал Андрей Зименков, генеральный директор targetai.

Поставив целью добиться в своем движке максимально человекоподобного звучания, которое полностью погружает пользователя в естественный диалог, специалисты targetai сформировали строгую иерархию критериев.

Приоритет 1. Человекоподобность (включая отсутствие «металлического» звучания), фонетическое качество, поддержка режима работы онлайн.

Приоритет 2. Корректность работы с ударениями, простота добавления нового голоса, клонирование голоса.

По выделенным ключевым критериям были проведены многочисленные тесты по шести разным сценариям. Результаты targetspeak превзошли конкурентов. Ключевой плюс новой разработки — прямая интеграция с локальной LLM-моделью: в отличие от зарубежных решений, нет внешних «стопперов» вроде прокси-серверов, влияющих на скорость выдачи реплик.

Как сделать умный телевизор полезным: 10 лучших приложений для Android TV

В условиях активно развивающегося российского рынка ИИ и голосовых агентов, где пользователи все больше ценят естественность общения и быстрый отклик, targetspeak задает новый стандарт. Отсутствие «роботизированного» акцента, ошибок в произношении и интонационных дефектов делает коммуникацию с ИИ-агентом максимально комфортной и эффективной, что критически важно для повышения лояльности клиентов и оптимизации бизнес-процессов.

«Мы видим огромный потенциал targetspeak для трансформации телефонной коммуникации в России - сейчас роботов распознают легко, и с ними зачастую даже не хочется вести диалог. Для успешного закрытия обращений, важно, чтобы агент воспринимался как полноценный сотрудник, который может помочь, обладает необходимым контекстом и звучит натурально. Промежуточные результаты по нашему продукту уже есть - например, по ряду проектов мы зафиксировали рост в 5% по доле успешно завершенных обращений агентов - т.е. без привлечения оператора. Это важный показатель, который говорит о том, что агенту доверяют, а значит растет и CSI— одна из ключевых метрик в клиентском сервисе. По сути, наш продукт - это ответ на запрос бизнеса дать решение для снижения операционных затрат в коммуникациях без потери качества и человечности», – сказал Андрей Зименков.

Речевой движок targetspeak встроен в базовую архитектуру решения targetai и выделяется среди существующих на данный момент на рынке алгоритмов синтеза голоса благодаря сочетанию качества, гибкости и доступности. Решение основано на локальной модели, что обеспечивает высокую степень конфиденциальности данных и простоту развертывания — как в формате SaaS (программное обеспечение как услуга), так и в формате On?Premise (локальная инфраструктура).

«Продукт targetspeak легко интегрируется как с собственной телефонией targetai, так и с любыми внешними платформами. При этом targetspeak предлагает конкурентное ценовое преимущество и ускоренное время выдачи голосовых реплик (любое использование прокси-сервера замедляет выдачу почти на секунду, что очень много по меркам общения в режиме онлайн), опирается на собственный подход к разработке синтеза речи, фокусирующийся на измеримых показателях качества и естественности звучания», — сказал Дмитрий Зубрецкий, технический директор targetai.

E-mail / ФИО:
Пароль:
	Запомнить Забыли пароль?