Компьютеры наконец услышат людей

21.10.2013, ПН, 08:43, Мск

Разработан новый алгоритм идентификации личности и распознавания речи, который может совершить революцию в способах управления компьютером. Впервые машины смогут узнавать людей, говорящих на любом языке, а в перспективе и понимать их.

Исследователи из Массачусетского технологического института нашли новый способ анализировать различия между голосами разных людей, что позволяет надежно идентифицировать людей по голосу, отсеивать несущественную для распознавания смысла сказанного информацию. Новый алгоритм не требует значительных вычислительных ресурсов и может работать без дополнительного обучения компьютера.

В настоящее время все мало-мальски надежные системы идентификации и распознавания речи требуют обучения. Проще говоря, сначала человек произносит слова, дает возможность машине узнать особенности произношения конкретного человека, после чего возможно распознавание его речи. Точность идентификации по речи и распознавания при этом зависит от того, сколько времени и сил потратил человек на обучение своего электронного помощника. Понятно, что данная методика очень трудоемка, к тому же она почти бесполезна во многих очень перспективных сферах применения, например обеспечении доступа по голосовому паролю и переводе беседы двух людей.

Для решения этой проблемы нужен алгоритм, который мог бы отсеивать индивидуальные особенности речи людей. Однако, для создания звукового портрета одного оратора, современные компьютеры анализируют более 2000 различных звуков, многие из которых могут соответствовать искомым согласным и гласным звукам, а многие нет. Для описания каждого из этих звуков, компьютеру может понадобиться около 60 переменных, таких, например, как сила акустического сигнала в различных частотных диапазонах. В результате, за каждую секунду речи система должна обрабатывать 120 000 значений, что требует больших вычислительных возможностей, недоступных мобильным устройствам. Поэтому и требуется индивидуальное обучение компьютера распознаванию речи.

Исследователи из MIT продемонстрировали новый алгоритм, сокращающий число переменных, и позволяющий распознавать речь без необходимости обучения. Суть технологии заключается в особом методе распознавания индивидуальных особенностей речи, названном i-vector. Новая технология дает такое же качество анализа голоса, как и системы, требующие обучения.

Чтобы приблизительно понять, как работает i-vector, представьте график, например показывающий зависимость потраченных на работу часов от полученной заработной платы. Обычный график – это диагональная линия в двумерном пространстве. А теперь представьте, что график повернули вокруг своей оси таким образом, что все линии стали параллельны линии взгляда. Таким образом, все линии графика слились в одну, линия Y стала не нужна, и все изменения в графике описываются одной линией X.

Схожим образом i-vector обнаруживает новые оси для описания информации, которая характеризует звуки речи в 120000-мерном пространстве. Сначала алгоритм находит ось, которая описывает большую часть акустической информации, затем следующую ось, содержащую наибольшее количество информации и так далее. В результате количество информации, добавляемой с каждой новой осью, постепенно уменьшается.

В ходе экспериментов, ученые MIT установили, что новому алгоритму достаточно всего 100-мерной акустической картинки, чтобы описать все возможные комбинации звуков человеческой речи. Более того, в определенных случаях с помощью i-vector можно уменьшить количество этих измерений до 3-х.

Для каждой секунды речи, i-vector создает одну виртуальную точку в трехмерном пространстве, а затем определяет границы кластеров точек, которые характеризуют особенности речи. Следующий шаг заключается в определении границ кластеров точек (эти кластеры соответствуют речи определенного оратора). Затем алгоритм выявляет кластеры, которые близки друг другу и сливает их в один, постепенно остаются лишь очень непохожие кластеры, которые наверняка являются речью разных людей.

Технология i-vector позволяет идентифицировать говорящего за время менее 30 секунд. Понятно, что новую технологию прежде всего будут применять спецслужбы: для обнаружения скрывающихся людей или автоматического просеивания сетей в поисках конкретных собеседников и конкретных тем. Новый алгоритм найдет широкое применение и в повседневной жизни, например компьютеры смогут опознать хозяина по голосу, а значит отпадет проблема забытого пароля. Также система анализа особенностей речи может помочь в разработке новых технологий распознавания речи и автоматического перевода звуковых сигналов речи в электронные: команды или буквы на мониторе.