Xiaomi открыла доступ к ИИ-модели клонирования голоса, поддерживающей более 600 языков
Компания Xiaomi представила OmniVoice — ИИ-модель для клонирования голоса, способную работать с 646 языками, включая редкие, для которых практически отсутствуют обучающие данные. Разработка доступна в открытом исходном коде.
OmniVoice использует архитектуру, схожую с крупными языковыми моделями, как у ChatGPT, чтобы корректно произносить сложные и малоупотребительные слова. Для обучения модели разработчики собрали 50 открытых голосовых датасетов, общим объёмом 580 тысяч часов аудиозаписей на 646 языках.
Модель позволяет клонировать голос на основе любого аудиофрагмента: достаточно записать речь человека, чтобы затем сгенерировать его голос на другом языке. Помимо этого, OmniVoice поддерживает следующие функции:
— описание желаемого голоса текстом (например, «мужчина, средних лет, низкий голос»);
— добавление паразитических звуков, таких как смех, вздохи или шёпот;
— коррекция неправильного произношения;
— подавление шумов в аудиозаписи.
Исходный код, обучающие данные и предобученные веса модели опубликованы на GitHub и Hugging Face. На этих платформах также доступна демо-версия, не требующая локальной установки.
Источник mp.weixin.qq.com


