«Яндексу» не хватает текстов на редких языках, чтобы обучать нейросети

Разработчики моделей машинного обучения (LLM) сталкиваются с проблемой во время работы. Это ухудшает качество работы искусственного интеллекта (ИИ), но русские и английские модели на 19 апреля 2024 г. это не затронет.

Мало данных

Нейросети «Яндекса» испытывают нехватку текстов на экзотических языках, что ухудшает качество работы ИИ, пишут «Ведомости» со ссылкой на директора по развитию технологий ИИ «Яндекса» Александра Крайнова.

По словам Крайнова для того, чтобы обучить языковую модель, нужно найти много хороших текстов. Он уточняет, что такого объема на 2024 г. нет физически. На английском языке их достаточно, даже избыточно. На русском компания собирает все, что может получить. Однако если говорить об узбекском, таджикском или казахском языках, то «их не просто недостаточно - их нет».

Наличие такой проблемы подтверждает менеджер ИИ-продуктов Just AI Алексей Борщов. Он акцентирует внимание на том, что есть сложности с диалектами, редкими языками и языками с ограниченным объемом текстовых данных. Крайнов допускает, что уровень и качество работы языковых моделей могут стать ниже, если не будет хватать обучающих данных.

Яндекс

Нейросетям «Яндекс» не хватает текстов на экзотических языках

Как сообщают «Ведомости», проблему с нехваткой текстов отчасти может решить перевод. Например, у «Яндекс» есть Optical Character Recognition (OCR-сервис) распознавания текста. Также можно оцифровывать тексты, которых еще нет в интернете, и сотрудничать с языковыми сообществами и носителями редких языков. В конце 2023 г. сообщалось, что в России резко возрос интерес к нейросетям - за год мобильный трафик сервисов по работе с ИИ вырос втрое, а их аудитория увеличилась в 3,5 раза.

Обучение

На апрель 2024 г. не составляет особенных проблем использовать готовую нейросеть для обучения ее на основе своих данных. В зависимости от типа модели, структуры и прочего можно получить различные прогнозные данные. Тут на первый план выходят задача обучения и тестирования модели. Самыми используемыми являются метод обратного распространения ошибки и применение генетического алгоритма, это объясняется их простотой и распространенностью.

Сейчас проводится активная работа над разработкой гибридных методов, однако зачастую они слишком узкоспециализированные, что мешает их распространению. Алгоритм обратного распространения ошибки является наиболее распространенным алгоритмом обучения нейросетевой модели. Его смысл заключается в попытке минимизации функции потерь, которая вводится для оценки того, насколько точны результаты прогноза нейронной сети. Используя градиент, алгоритм корректирует веса связей в слоях.

Принцип работы

Нейронные сети являются средством машинного обучения, при котором компьютер учится выполнять некоторую задачу, анализируя обучающие примеры. Обычно примеры заранее маркируются вручную. Например, система распознавания объектов может получать тысячи помеченных изображений автомобилей, домов, кофейных чашек и т.д. и находить на изображениях визуальные закономерности, которые последовательно коррелируют с конкретными метками.

Нейросеть, смоделированная по образцу человеческого мозга, состоит из тысяч или даже миллионов простых вычислительных узлов, тесно связанных между собой. Большинство нейронных сетей на апрель 2024 г. организованы в виде слоев узлов, и они работают по принципу прямой связи, то есть данные проходят через них только в одном направлении. Отдельный узел может быть подключен к нескольким узлам нижнего уровня, от которых он получает данные, и нескольким узлам верхнего уровня, которым он отправляет данные.

Каждому из своих входящих соединений узел присваивает номер, известный как «вес». Когда сеть активна, узел получает другой элемент данных - другое число - по каждому из своих соединений и умножает его на соответствующий вес. Затем он складывает полученные продукты вместе, получая одно число. Если это число ниже порогового значения, узел не передает данные на следующий уровень. Если число превышает пороговое значение, узел срабатывает, что в современных нейронных сетях обычно означает отправку числа - суммы взвешенных входных данных - по всем исходящим соединениям.

Когда нейросеть обучается, всем ее весам и порогам изначально присваиваются случайные значения. Обучающие данные подаются на нижний уровень — входной слой — и проходят через последующие уровни, умножаясь и складываясь сложными способами, пока, наконец, не достигают радикально преобразованного выходного слоя. Во время обучения веса и пороговые значения постоянно корректируются до тех пор, пока обучающие данные с одинаковыми метками не будут постоянно давать одинаковые результаты.

Становление

В 1980 г. исследователи разработали алгоритмы изменения весов и порогов нейронных сетей, которые были достаточно эффективны для сетей с более чем одним слоем, устраняя многие ограничения, выявленные математиками Массачусетского технологического института Марвином Мински (Marvin Minsky) и Сеймуром Папертом (Seymour Papert). Эта область пережила ренессанс.

Но с интеллектуальной точки зрения в нейросетях есть что-то неудовлетворительное. Достаточное обучение может изменить настройки сети до такой степени, что она сможет эффективно классифицировать данные, но что означают эти настройки? На какие особенности изображения смотрит распознаватель объектов и как он объединяет их в отличительные визуальные признаки автомобилей, домов и кофейных чашек? Анализ веса отдельных связей не даст ответа на этот вопрос.

В последние годы ученые-компьютерщики начали придумывать изобретательные методы вывода аналитических стратегий, применяемых нейросетями. Но в 1990 г. стратегии сетей были неразборчивы. Итак, на рубеже веков нейронные сети были вытеснены машинами опорных векторов - альтернативным подходом к машинному обучению, основанным на очень чистой математике.

Недавнее возрождение нейронных сетей — революция глубокого обучения — произошло благодаря индустрии компьютерных игр. Сложные изображения и быстрый темп современных видеоигр требуют аппаратного обеспечения, способного справиться с этой задачей, и результатом стал графический процессор (GPU), который объединяет тысячи относительно простых вычислительных ядер на одном кристалле. Исследователям не потребовалось много времени, чтобы понять, что архитектура графического процессора очень похожа на архитектуру нейронной сети.

Современные графические процессоры позволили однослойным сетям 1960-1970 гг. и двух-трехуровневым сетям 1980-1990 гг. превратиться в современные 10-, 15- и даже 50-слойные сети. Вот что означает слово «глубина» в «глубоком обучении» — глубина слоев сети. И на апрель 2024 г. глубокое обучение отвечает за наиболее эффективные системы практически во всех областях исследований ИИ.

E-mail / ФИО:
Пароль:
	Запомнить Забыли пароль?