Ученые из института AIRI, Иннополиса, МТУСИ, НИУ ВШЭ и МГУ представили открытый датасет, способы решения и оценки качества предсказаний модели для Speech-to-LaTeX – перевода устных формул в письменную математическую запись. Об этом CNews сообщил представитель института AIRI.
Решение позволяет человеку произнести формулу или целое предложение с математическими выражениями, а на выходе получить структурированный текст в формате LaTeX. Это стандарт, который широко используется в научных статьях, учебных материалах и цифровых редакторах, таких как Overleaf.
Распознавать математическую речь гораздо сложнее, чем обычную, поскольку формулы часто содержат сложные вложенные конструкции, неоднозначные фразы и зависят от контекста. Одна и та же устная формулировка может означать несколько различных математических записей.
Ключевой проблемой в этой области долгое время было отсутствие качественных открытых данных для обучения ИИ-моделей. Когда исследователи начали работу, готовых крупных датасетов с аудиозаписями математической речи, особенно записанной людьми, практически не существовало. Были текстовые наборы с формулами и их описанием, но не хватало именно живого аудио, на котором можно полноценно обучать и проверять такие системы. Поэтому исследователи создали собственный открытый датасет. В него вошло более 66 тыс. человеческих аудиозаписей и 571 тыс. синтетических, а также около 12 тыс. уникальных математических предложений и 10,7 тыс. отдельных уравнений на русском и английском языках.
Для сбора данных использовалась платформа разметки: людей просили озвучивать формулы, а синтетические аудиозаписи помогли существенно расширить выборку. Такое сочетание живой и сгенерированной речи сделало модели более устойчивыми к разным голосам, акцентам и особенностям произношения.
Кроме того, в ходе исследования ученые сравнили два подхода к решению задачи распознавания устной математической речи. Первый подход – ASR post-correction, когда сначала аудио переводится в обычный текст с помощью системы распознавания речи, а затем большая языковая модель исправляет результат и преобразует его в корректную запись LaTeX. Второй – end-to-end Audio-LLM, когда модель дообучается так, чтобы работать напрямую с аудио и сразу выдавать готовую формулу. Лучшие результаты показал именно второй вариант, но он требует значительно больше вычислительных ресурсов и более крупных моделей. Поэтому с практической точки зрения исследователи считают разумным компромиссом первый подход – ASR post-correction с языковыми моделями размером около 0,5–1,5 млрд параметров.
«Наш датасет может быть полезен исследовательскому и профессиональному сообществу далеко не только для задачи Speech-to-LaTeX. Благодаря своему составу и качеству разметки он может использоваться в самых разных задачах, включая автоматическое распознавание речи, определение языка, голосовую биометрию, защиту от подделки голоса и другие направления, где важно анализировать аудиосигнал и речевые особенности», — отметил Дмитрий Корж, научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» института AIRI.


