В МТУСИ предложили новый метод анализа юридических текстов с помощью дерева решений и технологии TF-IDF. Об этом CNews сообщили представители МТУСИ.
В свете быстрого прогресса информационных технологий и неуклонного увеличения объемов текстовых данных, задача эффективной обработки и анализа текстов становится крайне актуальной, особенно в области юриспруденции.
Сфера права сталкивается с необходимостью мгновенного и точного анализа множества правовых документов, судебных решений и законодательных актов. Традиционные методы анализа часто оказывались недостаточно эффективными, что в свою очередь подчеркивает потребность в современных технологических решениях.
В частности, метод TF-IDF, используемый в качестве основы для построения дерева решений, представляет собой эффективный инструмент для выделения ключевых слов и понятий, что может быть ценно при обработке юридических текстов.
Дерево решений – метод машинного обучения, представляющий собой древовидную структуру, где каждый узел представляет собой вопрос или тест на определенное свойство данных, каждая ветвь соответствует возможному ответу на этот вопрос, а каждый лист дерева представляет собой прогноз или решение. Построение дерева решений на основе алгоритма TF-IDF позволяет учитывать важность слов, выделяя ключевые термины и фильтруя часто встречающиеся слова. Этот подход обеспечивает легкость работы с текстовыми данными, интерпретируемость результатов и минимальные требования к предварительной обработке, что делает его удобным для задач категоризации и тематического анализа.
В МТУСИ над разработкой новой методики применения дерева решений, основанного на методе TF-IDF для анализа естественного языка при решении задач в области гражданского права, работали: Скородумова Елена Александровна, доцент кафедры ТВиПМ, к.ф.-м.н., доцент, и Захарьева Диана, студентка МТУСИ.
В ходе исследования был собран массив данных с веб-ресурса sudact.ru, который затем подвергался детальному анализу с акцентом на выявление релевантных глав и статей гражданского кодекса.
«В рамках данного сбора информации было извлечено 12 дел в области гражданского права, которые впоследствии подверглись детальному изучению и анализу. Извлеченные обвинительные решения по делам были обработаны с целью выделения содержащихся в них мотивировочной части иска и дальнейшем внесении в разработанную программу для проведения дальнейшего исследования. В конечном итоге программа сформировала перечень глав и статей гражданского и семейного кодексов, и для каждого из них было приведено численное значение, отражающее степень соответствия между мотивировочной частью иска и содержанием определенной главы и статьи. Процедура сопоставления и оценки подобия проводилась для каждой главы и статьи отдельно», — сказала Елена Александровна.
Исследователи отмечают, что перед анализом соответствия статей важно выявить соответствующие главы, основываясь на их расположении в списке, отсортированном по убыванию метрики релевантности.
«Дерево решений формировалось в несколько этапов. Сначала проводился расчет значений TF-IDF для кодексов, затем для разделов этих кодексов. Последующие этапы включают расчет TF-IDF для подразделов и, наконец, для глав. Полученные значения TF-IDF на каждом уровне иерархии перемножались между собой. Затем полученный список проходил процесс упорядочивания, при котором элементы расположились в порядке убывания значений. Это позволило выделить те главы, которые наиболее точно соответствуют иску», — сказала Захарьева Диана.
При построении дерева решений на основе алгоритма TF-IDF для поиска релевантных глав выявлены факторы, влияющие на качество модели: низкая эффективность при работе с большими объёмами текста и отсутствие учёта контекста. При анализе схожести статей и иска было обнаружено, что релевантные статьи расположены в первой половине отсортированного по убыванию метрики списка.
Установлено, что использование дерева решений, основанного на алгоритме TF-IDF, позволяет эффективно отфильтровать наиболее несоответствующие статьи и главы. Иными словами, этот метод способен провести отсев примерно половины глав, а в пределах каждой релевантной главы также отбросить около половины статей, исходя из степени их соответствия.
Исследователи уверены, что у нового метода есть потенциал для дальнейшего развития. Они планируют проведение дополнительных исследований и адаптацию методологии для расширения применения в различных контекстах, что откроет новые горизонты для эффективного анализа текста в области права.