Выбирай : Покупай : Используй
0

Обучить за 72 часа: в НИТУ МИСИС ускорили настройку системы распознавания текста

Ученые НИТУ МИСИС разработали новый способ ускоренной оптимизации систем оптического распознавания текста....

Ученые НИТУ МИСИС разработали новый способ ускоренной оптимизации систем оптического распознавания текста. Благодаря сочетанию методов машинного обучения и современных генеративных моделей искусственного интеллекта исследователям удалось значительно повысить точность распознавания текста на русском языке и сократить время подготовки таких систем с нескольких недель до 72 часов. Об этом CNews сообщили представители МИСИС.

Сегодня многие компании оцифровывают документы — от счетов и договоров до архивов. Чтобы компьютер «прочитал» изображение или скан документа, используется технология оптического распознавания текста (OCR — optical character recognition). Но такие системы нередко ошибаются, особенно когда речь идет о реальных документах: с печатями, подписями, размытыми участками или нестандартными шрифтами. Чтобы OCR работало точнее, его нужно обучать, а этот процесс обычно занимает несколько недель.

Исследователи НИТУ МИСИС представили новый подход к обучению систем OCR, основанный на объединении инструментов машинного обучения и современных генеративных моделей искусственного интеллекта. Они создали замкнутый цикл взаимодействия OCR-движков и языковых моделей, благодаря которому система сама анализирует результаты распознавания и корректирует ошибки. Такой подход значительно ускоряет обучение: процесс, который в классических схемах занимает до двух месяцев, в ходе эксперимента был сокращён до 72 часов непрерывной работы.

«Одним из ключевых результатов стало повышение качества распознавания — оно превысило 90% для русского языка, что соответствует современным требованиям к автоматизации документооборота. Кроме того, затраты на обучение моделей удалось снизить почти на треть, а использование генеративных нейросетей сократило необходимый объём тестовой выборки», — сказал один из авторов разработки, магистрант Института компьютерных наук НИТУ МИСИС Кирилл Пронин.

Разработчики подробно изучили поведение систем на «идеальных» документах и «реальных» сканах с неровными подписями и печатями. Полученные данные позволили определить наиболее эффективные сочетания технологий.

«Мы предложили подход, где языковая модель, понимающая контекст и смысл, помогает создавать более сложные и «хитрые» обучающие данные — например, имитирующие плохое качество печати, нестандартные шрифты или сложную верстку. Это позволяет научить систему распознавать текст в реальных, «неидеальных» условиях, существенно повышая ее точность и надежность», — сказал к.т.н. Александр Сулейкин, доцент кафедры бизнес-информатики и систем управления производством НИТУ МИСИС.

Дальнейшее развитие методов обучения на базе нейронных сетей ускорит появление более точных и доступных OCR-решений для бизнеса и научных задач.

Комментарии