Корпорация «Элар» представила результаты применения технологий искусственного интеллекта для автоматизированной обработки патентных документов — одного из наиболее сложных и требовательных классов документов с точки зрения распознавания, анализа и извлечения данных. Об этом CNews сообщили представители «Элар».
Патентная документация отличается высокой плотностью информации, сложной структурой, большим количеством таблиц, формул и графических элементов, а также строгими требованиями к точности извлечения реквизитов и контекстных связей. Именно поэтому такие документы традиционно считаются пограничным случаем для автоматизации и требуют зрелых ИИ-подходов.
Патенты: высокая плотность данных и цена ошибки
В отличие от типовых деловых или архивных документов, патенты сочетают многоуровневую структуру, разнообразие форматов представления данных и тесную взаимосвязь текста, таблиц и графики. Ошибки в извлечении ключевых сведений могут приводить не просто к потере информации, но и к искажению юридически значимого смысла документа.
Для работы с такими массивами системе недостаточно простого распознавания текста — требуется понимание структуры документа, логики его построения и смысловых связей между отдельными блоками.
Структура важнее текста: что делает ИИ
Платформа искусственного интеллекта «Элар», включающая использование больших языковых моделей (LLM), постоянно обучается. Компания, как крупнейший в стране исполнитель проектов по оцифровке и обработке научно-технических и исторических архивов имеет в своем распоряжении уникальный датасет, включающий, практически, все существующие образцы и варианты документов. Таким образом, система регулярно повышает уровень качества обработки сложных неструктурированных текстов и символов: формул, таблиц, рукописного текста и других специфических значений. В частности, для обработки патентных документов проведено отдельное обучение ИИ-модели, которая показала высокую эффективность обработки.
Подход ориентирован на интеллектуальное распознавание и структурирование патентных документов без сложной предварительной настройки под каждый отдельный массив. Система автоматически определяет тип и структуру оригинала, выявляет ключевые реквизиты, корректно обрабатывает таблицы, формулы и графические элементы, а также сохраняет логические связи между частями документа.
До 99%: машинная точность с человеческим результатом
По результатам внутреннего тестирования точность извлечения информации по ключевым полям патентных документов достигает 97%, а по отдельным категориям доходит до 99%.
Такие показатели сопоставимы с результатами ручной обработки и подтверждают, что применяемые ИИ-модели вышли на уровень практического промышленного использования в задачах повышенной сложности, где традиционные OCR-подходы и шаблонные методы демонстрируют ограниченную эффективность.
Патенты как проверка зрелости ИИ-подхода
Полученные результаты показывают не только прогресс самих ИИ-технологий, но и практическую применимость этого подхода в прикладных задачах. В первую очередь речь идёт об оптимизации затрат и повышении эффективности услуг по обработке накопленных бумажных архивов, где критичны скорость, масштаб и стабильное качество.
Кроме того, такие ИИ-механизмы могут использоваться при внедрении решений по вводу и распознаванию документов — как на этапе массовой оцифровки, так и в действующих документооборотных процессах. Таким образом, кейс с патентами демонстрирует переход от точечных экспериментов к промышленному использованию ИИ в задачах, ранее считавшихся труднодоступными для глубокой автоматизации, и задаёт основу для расширения этого подхода на другие сложные классы документов.


