Компания BSS в 10 раз сократила требования к объему аудиоматериалов для создания нового голоса бота

Компания BSS создала новый мужской голос для интеллектуального помощника, используя аудиоматериалы общей длительностью...

Компания BSS создала новый мужской голос для интеллектуального помощника, используя аудиоматериалы общей длительностью два часа. Ранее необходимое количество аудио составляло не менее 15–20 часов. Об этом CNews сообщили представители BSS.

Голосовой робот BSS успешно консультирует клиентов максимально естественным голосом с человеческими интонациями. Новый мужской голос создан на основе голоса профессионального диктора, озвучившего необходимые для ведения диалогов с клиентами фразы. Озвучивание переменных данных (ФИО, улица, дата, номер и т.д.) производится на основе синтеза голоса этого диктора. Такой гибридный подход позволяет существенно сократить время на обучение модели, при этом обеспечить естественность, плавность и незаметность всех переходов и вставок.

В процессе создания нового голоса команда BSS отобрала целевую лексику, которую использует робот при общении с абонентами в реальных проектах. Это помогло отобрать необходимые фразы и, тем самым, сократить количество используемых для обучения модели аудиоматериалов. Более того, команда подобрала специальный фонетический корпус, в котором обеспечено максимальное разнообразие трезвучий (включая редкие), что обеспечивает естественное и приятное звучание голоса. Собранные фразы были озвучены диктором.

Для обучения модели, отвечающей за синтез голоса, понадобились два часа аудиозаписей вместо 15-20 часов, как было ранее. Синтезированный голос получился естественным, поскольку модель улавливала и учитывала интонации диктора. Такой способ обучения модели позволяет минимизировать разницу между ранее записанным голосом и синтезированным.  

«Мы смогли сократить длительность требуемых материалов с 15-20 часов до двух часов, что позволяет нам выполнять проекты в более короткие сроки. Модель синтеза речи реализовали на новой архитектуре Conformer — это более современная архитектура нейронной сети, которая лучше справляется с синтезом длинных фраз. Если раньше мы сталкивались с «зажевыванием» в конце предложений, то теперь эта проблема минимизирована и длинные фразы звучат корректно. Естественность и качество нового голоса, скорость его создания – важные преимущества для любого проекта по внедрению и развитию виртуального ассистента», — сказал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.