Команда выпускницы ИТМО Юлии Хлюпиной разработала виртуального тренера, который дает персональные уроки публичных выступлений. В основе разработки — анализирующие речь и мимику нейросети. Проект получил грант в один млн руб. от Сбербанка и предложение на 12 млн руб. от инвесторов. Также ИИ-тренер уже готовится к тестированию сервиса на сотрудниках корпорации. Об этом CNews сообщили представители ИТМО.
Speech Up — это виртуальный помощник для тренировки навыка публичных выступлений. В его основе — разработанные командой стартапа нейросети, которые умеют анализировать речь, мимику, эмоции, манеру держаться, вычленять слова-паразиты и даже находить когнитивные искажения в суждениях (например, предубеждения или стереотипы).
Как рассказывает Юлия Хлюпина, участница команды стартапа, идея создать приложение пришла из личного опыта. Так как учеба и научная работа — это в том числе выступления на конференциях, семинарах и защитах проектов — ей часто нужно было преодолевать страх выступать перед публикой. Общение же с коллегами подтвердило, что почти каждый сталкивается с трудностями в самопрезентации.
Приложение работает так: пользователь записывает на веб-камеру свою речь (или загружает уже готовое видео). Затем искусственный интеллект исследует качество выступления и выдает оценку по пяти критериям: связность речи, ее ясность, динамизм, убедительность и соблюдение коммуникативных норм (то есть наличие слов-паразитов или агрессивность подачи). Причем система рассматривает не только отдельные параметры, но и всю совокупность факторов одновременно.
Далее человек получает подробную интерактивную аналитику и рекомендации, над чем именно следует поработать, — все они основаны на методиках психологов и экспертов по публичным выступлениям. При регулярных занятиях формируется статистика, по которой можно отследить прогресс.
«Для определения громкости или темпа речи не нужны нейросети. Но вот распознать такие сложные характеристики вроде уверенности, убедительности, конгруэнтности (согласованность эмоций, выражаемых человеком с помощью мимики и речи, с текстом выступления) оказалось подвластно только искусственному интеллекту. Для всех этих интегральных параметров мы использовали нейросетевые архитектуры, которые работают с мультимодальными данными из нескольких источников: видеоряда, звуковой дорожки и текстовой расшифровки», — сказала Юлия Хлюпина.
Для создания нейросетей был собран датасет из более чем 64 часов видеозаписей интервью и 2,5 тыс. текстов. А к работе над его разметкой была привлечена большая команда лингвистов и психологов.
Стартап Юлии — это результат ее обучения в магистратуре Факультета цифровых трансформаций ИТМО. Этот же проект она защитила по программе «Стартап как диплом». Летом прошлого года команда проекта стала участником полугодовой программы SberStudent. А уже осенью была готова рабочая версия — первые пилоты прошли среди сотрудников нескольких компаний, а также участников акселераторов НТИ, Высшей школы экономики.