BSS повысила качество распознавания речи за счет улучшения диаризации

BSS повысила качество распознавания речи за счет улучшения диаризации. Улучшение технологии определения спикеров...

2024-02-29 14:37:50, Мск

BSS повысила качество распознавания речи за счет улучшения диаризации. Улучшение технологии определения спикеров в монозаписях позволяет получать более качественную транскрибацию разговоров для последующего анализа.

В ходе анализа аудиозаписей могут возникать проблемы с путаницей источника речи – кто и что говорит. Это влияет на результаты речевой аналитики и в целом на эффективность работы виртуальных помощников.

Диаризация позволяет разделить аудиопотоки при общении и определить, кто именно говорит в конкретный момент диалога. Применяется для анализа монозаписей и записей с аудиобейджей, а также для улучшения качества распознавания записи с направленных стереомикрофонов при проникновении посторонних звуков.

Сейчас разработчики BSS сконцентрировались на трех основных направлениях по улучшению диаризации, которые позволят устранить недочеты при распознавании речи и повысить эффективность речевой аналитики.

Во-первых, добавили классификатор каналов. Диалоги с клиентами обычно начинают операторы. Поэтому первый канал, как правило, присваивается оператору, что раньше приводило к путаницам, так как не всегда разговор начинал оператор. Теперь записи речи клиента и оператора определяются двумя моделями. Первая разделяет реплики говорящих по биометрическим признакам (голосу). Вторая – по характерной лексике понимает кто из говорящих оператор, а кто клиент. В результате принадлежность канала определяется корректно.

Во-вторых, аудиозаписи проходят через верификацию каналов. Например, курьер в течение дня развозит заказы, и все это время ведется аудиозапись. Для анализа важны только те фрагменты, где курьер разговаривает с клиентами. Именно эти части записи с помощью технологии верификации каналов вычленяются из всего аудиопотока для диаризации. Это позволяет существенно снизить нагрузку на ИТ-инфраструктуру и сократить время обработки и анализа аудио.

В-третьих, существенно улучшено качество работы технологии по исключению дублирования реплик. Обычно консультации в банках записываются с помощью двух направленных микрофонов: один записывает клиента, другой – консультанта. Но нередко речь клиента записывается микрофоном консультанта и наоборот. Это приводит к дублированию информации в текстовой расшифровке и усложняет анализ диалога с помощью речевой аналитики. Добиться исключения дублей реплик в аудиофайле удалось за счет соединения обеих звуковых дорожек в одну стереозапись. Только после этого проводится транскрибация аудиофайла. Этот инструмент уже показал свою эффективность в нескольких банках.

«Диаризация повышает качество текстов при транскрибации и значительно улучшает качество речи при использовании с системой распознавания. Этой технологией пользуются многие разработчики, но мы смогли ее существенно улучшить и продолжаем постоянно развивать. Она широко востребована, так как делает речевые технологии более доступными. Многие компании записывают разговоры с клиентами на устаревшем оборудовании в формате моно. Диаризация позволяет таким заказчикам внедряет ту же речевую аналитику без необходимости замены дорогостоящего оборудования», – сказал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.

Распечатать

BSS повысила качество распознавания речи за счет улучшения диаризации

Получены данные для моделирования более безопасных и «чистых» ядерных реакторов

Microsoft сгоняет пользователей с Windows 10 на Windows 11, угрожая, что скоро обновление станет платным

Платформа для автоматизированного анализа «Стингрей» помогает усилить защищенность приложений Сбербанка

70 российских компаний протестировали САПР «Гамма» в 2024 г.

Подтверждена совместимость гиперконвергентной платформы на базе продуктов «Р-Виртуализация» и «Р-Хранилище» с серверами OpenYard