Когда OCR уже не справляется: как ИИ «Элар» работает с патентными документами

Корпорация «Элар» представила результаты применения технологий искусственного интеллекта для автоматизированной обработки патентных документов — одного из наиболее сложных и требовательных классов документов с точки зрения распознавания, анализа и извлечения данных. Об этом CNews сообщили представители «Элар».

Патентная документация отличается высокой плотностью информации, сложной структурой, большим количеством таблиц, формул и графических элементов, а также строгими требованиями к точности извлечения реквизитов и контекстных связей. Именно поэтому такие документы традиционно считаются пограничным случаем для автоматизации и требуют зрелых ИИ-подходов.

Патенты: высокая плотность данных и цена ошибки

В отличие от типовых деловых или архивных документов, патенты сочетают многоуровневую структуру, разнообразие форматов представления данных и тесную взаимосвязь текста, таблиц и графики. Ошибки в извлечении ключевых сведений могут приводить не просто к потере информации, но и к искажению юридически значимого смысла документа.

Для работы с такими массивами системе недостаточно простого распознавания текста — требуется понимание структуры документа, логики его построения и смысловых связей между отдельными блоками.

Структура важнее текста: что делает ИИ

Платформа искусственного интеллекта «Элар», включающая использование больших языковых моделей (LLM), постоянно обучается. Компания, как крупнейший в стране исполнитель проектов по оцифровке и обработке научно-технических и исторических архивов имеет в своем распоряжении уникальный датасет, включающий, практически, все существующие образцы и варианты документов. Таким образом, система регулярно повышает уровень качества обработки сложных неструктурированных текстов и символов: формул, таблиц, рукописного текста и других специфических значений. В частности, для обработки патентных документов проведено отдельное обучение ИИ-модели, которая показала высокую эффективность обработки.

Подход ориентирован на интеллектуальное распознавание и структурирование патентных документов без сложной предварительной настройки под каждый отдельный массив. Система автоматически определяет тип и структуру оригинала, выявляет ключевые реквизиты, корректно обрабатывает таблицы, формулы и графические элементы, а также сохраняет логические связи между частями документа.

До 99%: машинная точность с человеческим результатом

Лучшие роутеры с Wi-Fi 6: хиты продаж

По результатам внутреннего тестирования точность извлечения информации по ключевым полям патентных документов достигает 97%, а по отдельным категориям доходит до 99%.

Такие показатели сопоставимы с результатами ручной обработки и подтверждают, что применяемые ИИ-модели вышли на уровень практического промышленного использования в задачах повышенной сложности, где традиционные OCR-подходы и шаблонные методы демонстрируют ограниченную эффективность.

Патенты как проверка зрелости ИИ-подхода

Полученные результаты показывают не только прогресс самих ИИ-технологий, но и практическую применимость этого подхода в прикладных задачах. В первую очередь речь идёт об оптимизации затрат и повышении эффективности услуг по обработке накопленных бумажных архивов, где критичны скорость, масштаб и стабильное качество.

Кроме того, такие ИИ-механизмы могут использоваться при внедрении решений по вводу и распознаванию документов — как на этапе массовой оцифровки, так и в действующих документооборотных процессах. Таким образом, кейс с патентами демонстрирует переход от точечных экспериментов к промышленному использованию ИИ в задачах, ранее считавшихся труднодоступными для глубокой автоматизации, и задаёт основу для расширения этого подхода на другие сложные классы документов.

E-mail / ФИО:
Пароль:
	Запомнить Забыли пароль?