Новая ИТ-система от отечественных университетов
Специалисты Института искусственного интеллекта AIRI и Московского технического университета связи и информатики (МТУСИ) разработали ИТ-систему, которая с помощью ИИ определяет признаки генерации синтетического голоса, которую используют телефонные мошенники. Об этом в середине сентября 2024 г. сообщило издание ТАСС в пресс-службе AIRI.
С начала этого года мошенники генерируют чужие голоса, используя технологии преобразования текста в речь и обработки голоса. Разработчики из России предложили решение для анализа аудиоряда, производительность которого вдвое превосходит модель, созданную ранее учеными Южной Кореи и Франции. Отечественная разработка может использоваться для борьбы с телефонным мошенничеством или повышения безопасности систем, использующих голосовую аутентификацию, считают ученые. Российская ИИ-модель вошла в десятку лучших решений международного соревнования.
«Современные технологии и ИТ-инструменты позволяют создавать синтетические голоса, которые уже сейчас очень трудно отличить от настоящих. Преимущество таких ИИ-моделей в их способности учитывать, контекст и знания о голосовых данных. Технология позволяет более эффективно различать подлинный голос и его подделку. Данные сети не только распознают подделки с высокой точностью, но и способны адаптироваться к новым типам киберугроз. Внедрение подобных передовых методов существенно повышает уровень безопасности и защищенности от ИТ-атак, основанных на подмене голоса», - сообщил руководитель научной группы «Доверенные и безопасные интеллектуальные системы» AIRI Олег Рогов.
Как считает руководитель научно-исследовательского отдела «Интеллектуальные решения» МТУСИ Грач Мкртчян, интеграция ИТ-системы может осуществляться различными способами: от внедрения отдельного программного решения до встраивания в существующие системы безопасности. Потребность в подобных технологиях высока, учитывая растущую угрозу ИТ-атак с использованием синтетических голосов на нашу страну.
Технологии генерации голоса
Прежде чем вникать в тонкости создания голоса с помощью ИИ, необходимо понять научную основу синтеза вокала и ключевые компоненты, которые делают его возможным. ИИ-генерация голоса произвела революцию в том, как пользователи взаимодействуют с технологиями. От виртуальных помощников до аудиокниг - голоса, генерируемые ИИ, стали неотъемлемой частью повседневной жизни людей.
По своей сути вокальный синтез - это искусственное воспроизведение человеческой речи. Он включает в себя анализ лингвистических паттернов, фонетики и эмоциональных нюансов для создания реалистичных голосов. Имитируя сложность человеческой речи, голосовые ИИ-генераторы могут создавать голоса, практически неотличимые от настоящих.
Процесс синтеза голоса начинается с технологии преобразования текста в речь (TTS). Эта технология преобразует письменный текст в устную речь, используя комбинацию лингвистического анализа и моделирования голоса. Разбив входной текст на лингвистические единицы, такие как слова, предложения и абзацы, система TTS может сгенерировать базовое голосовое представление. Но чтобы сгенерированный голос звучал по-настоящему по-человечески, голосовые ИИ-генераторы также используют технологию преобразования речи в текст (STT). Эта технология анализирует произношение, интонацию и ритм человеческой речи, а затем применяет эти шаблоны к генерируемому голосу. Благодаря учету этих акустических особенностей генератор ИИ-голоса может создавать точные и естественно звучащие голоса.
Ключевые компоненты при разработке
Для того чтобы добиться высокого качества синтеза вокала, ИИ-генераторы голоса опираются на три ключевых компонента.
Анализ текста - этот компонент разбивает входной текст на лингвистические единицы, такие как слова, предложения и абзацы. Он анализирует структуру и смысл текста, чтобы обеспечить точное голосовое представление.
Акустическая модель - акустическая модель анализирует произношение, интонацию и ритм человеческой речи. Изучая огромное количество речевых данных, ИИ-модель учится генерировать точные голосовые репрезентации. Она учитывает такие факторы, как акцент, высота тона и ударения, чтобы создать реалистичные голоса.
Модель просодии - модель просодии добавляет эмоциональные и контекстуальные вариации в генерируемый голос. Она учитывает такие факторы, как настроение диктора, смысл текста и общий контекст, чтобы голос звучал более реалистично и выразительно. Настраивая высоту тона, длительность и характер ударений, модель просодии придает человеческий оттенок голосу, сгенерированному ИИ.
Эти три компонента работают вместе, создавая голоса, генерируемые ИИ, которые не только точны, но и очень реалистичны и естественно звучат. Достижения в области ИИ-генерации голоса открывают целый мир возможностей: от повышения доступности для людей с нарушениями речи до создания увлекательных и интерактивных виртуальных впечатлений.