Культовый медиаплеер VLC оснастят искусственным интеллектом
Популярный медиаплеер VLC получит поддержку функцию автоматического создания субтитров к видеороликам и перевода их на различные языки в режиме реального времени, пишет The Verge.
Новый инструмент основан на открытых технологиях искусственного интеллекта, для своей работы не требует оформления подписки на сторонние облачные сервисы и наличия у пользователя активного интернет-подключения как такового. Функция станет неотъемлемой частью VLC и будет встроена непосредственно в исполняемые файлы программы.
Новые возможности плеера продемонстрировал Жан-Батист Кемпф (Jean-Baptiste Kempf), президент VideoLAN, компании – разработчика VLC, на Международной выставке потребительской электроники (CES) 2025 в Лас-Вегасе (Невада, США).
По словам Кемпфа, разработчики планируют обеспечить поддержку инструментом более чем 100 языков народов мира. Когда именно новая возможность станет доступна широкому кругу пользователей, представитель VideoLAN не уточнил.
Неизвестная модель
Какие конкретно модели задействованы в работе новой функции, источник не уточняет. Однако ранее специалисты VideoLAN работали над созданием инструмента для автоматического создания субтитров в виде подключаемого модуля (плагина), использующего модель Whisper.
Whisper представляет собой акустическую модель слабо-контролируемого глубокого обучения, построенную на базе архитектуры типа «трансформер» с применением кодирующего и декодирующих компонентов.
Whisper годится для решения задач распознавания речи и транскрибации аудио, а также перевода распознанных фрагментов на другие языки.
Модель Whisper была создана ИИ-стартапом OpenAI, не в последнюю очередь известным благодаря большой его языковой модели GPT, на базе которой, в частности, построен популярный чат-бот ChatGPT.
В сентябре 2022 г. исходный код Whisper был опубликован на GitHub на условиях свободной лицензии MIT.
Согласно документации к проекту, модель доступна в шести вариантах поставки, которые отличаются размером. Число параметров варьируется от 39 млн до 1,55 млрд, количество потребляемой видеопамяти – в диапазоне 1-10 ГБ. От количества параметров зависит качество итогового результата, а также объем используемых вычислительных ресурсов.
Инференс модели может осуществляться как с использованием центрального процессора (CPU), так и графического ускорителя (GPU).
Краткая история VLC
VLC – это один из самых первых медиапроигрывателей для персональных компьютеров. Впервые он был представлен в 1996 г. в качестве проекта студентов парижского университета Ecole Centrale Paris. Сейчас разработку приложения ведет команда VLC Team. Название плеера изначально расшифровывалось как VideoLAN Client.
VLC разрабатывается и распространяется бесплатно, под свободной лицензией LGPL. В рамках инициативы FOSSA Еврокомиссия финансировала поиск уязвимостей в плеере. Так, в 2019 г. еврочиновники были готовы потратить суммарно до 58 тыс. евро за выявление ошибок в VLC.
До версии 1.0.0 плеер обновился лишь спустя 13 лет с момента первого анонса – в июле 2009 г., а версия 2.0.0 увидела свет еще через три года, зимой 2012 г. В 2021 г. с выходом версии 4.0 VLC получил обновленный, более современный, интерфейс, а также обзавелся поддержкой видеокодеков AV2 и AV1.
На сегодняшний день проигрыватель существует в версиях под Windows, Android, iOS, ОС семейства Linux, macOS, Tizen, Chrome OS и ряд других менее распространенных платформ – всего их поддерживается более десятка. Приложение распространяется на бесплатной основе и поддерживает большинство популярных форматов видео и аудио, а также умеет воспроизводить потоковое интернет-радио. Интерфейс переведен более чем на 70 языков мира, включая русский.
Похожие функции в браузере «Яндекса»
Функцией автоматической генерации субтитров в видео на русском языке с помощью нейросетей с сентября 2023 г. располагает отечественный «Яндекс браузер». Однако этот инструмент предназначен для работы в режиме онлайн.
Летом 2022 г. в браузере «Яндекса» для настольных компьютеров появилась функция синхронного перевода прямых эфиров. Годом ранее российская компания анонсировала включение технологии машинного перевода в фирменный браузер.