Российская команда дообучила модель Gemma-2-9B-IT методом Simple Preference Optimization на датасете из 19,804 тыс. пар текстов, собранном из COLING-2025 и AINL-eval. В датасет вошли генерации восьми моделей разного масштаба — от 3 до 235 млрд параметров, включая Llama, Qwen, GigaChat и T-pro. Результат: медианная вероятность ИИ-авторства снизилась с 0.93 до 0.47. Об этом CNews сообщили представители ReText.AI.
Команда ReText.AI опубликовала детальное исследование эффективности своей модели «очеловечивания» ИИ-текста. В основе решения лежит дообучение модели Gemma-2-9B-IT (с использованием unsloth) методом SimPO (Simple Preference Optimization) — подходом, оптимизирующим качество генерации без необходимости вручную размечать предпочтения.
Исходные данные взяты из двух академических источников: датасет COLING-2025 (воркшоп по детекции машинного текста, сабтаск B), который включает русскоязычные и англоязычные тексты, а также AINL-eval с научными публикациями.
Для каждого исходного человеческого текста были сгенерированы «машинные» варианты с помощью восьми моделей разного масштаба. В их число вошли Llama-3.2 (3B параметров), Qwen3-8B (8B), GigaChat-2-Max, GLM-4.6, Llama-3.3-70B (70B), GPT-oss-120B (120B), Qwen3-235B-A22B (235B) и T-pro-it-1.0. Таким образом, датасет охватил модели от компактных до самых крупных открытых аналогов GPT.
Итоговый датасет составил 19,804 тыс. пары текстов, автоматически распределенных по 20 тематическим кластерам — от кулинарных рецептов до ИT-разработки и правовых документов.
Ключевая метрика — humanizer_score. Она рассчитывается как разница между вероятностью ИИ-авторства до обработки и после обработки, умноженная на коэффициент уверенности детектора. Проще говоря, метрика показывает, насколько сильно модель «очеловечивания» снижает подозрения детектора.
До обработки медианная вероятность того, что детектор сочтет текст ИИ-сгенерированным, составляла 0.93. После обработки этот показатель упал до 0.47. Лучший результат по средней дельте показали рецепты — прирост «очеловеченности» составил 0.518.
Еще один важный показатель — Hard Flip Rate, то есть доля текстов, которые после обработки детектор перестал считать ИИ-генерацией и «перевернул» свой вердикт. В категории рецептов этот показатель достиг 66.7%. Всего из 20 тематических категорий в 14 доля таких «перевернутых» решений превысила 50%.
Топ-5 категорий по Hard Flip Rate: Рецепты и кулинария — 66.7%; Правовые системы — 64.2%; Бизнес и анализ рынка — 61.0%; Научные исследования — 60.8%; Управление персоналом — 59.9%.
Наиболее сложными категориями оказались повседневные тексты (41.0%), многоязычные тексты (43.6%) и цифровые технологии (44.0%). Разработчики связывают это с тем, что обучающий датасет был преимущественно русско- и англоязычным, а также с высокой вариативностью стиля в этих доменах.
Общие выводы исследования. Для более чем 90% текстов «очеловечивание» снижает вероятность обнаружения ИИ. Метод SimPO показал высокую эффективность даже на компактной модели в 9 млрд параметров — для ее запуска не требуется огромных вычислительных мощностей. Структурированные домены — право, бизнес, наука — обрабатываются лучше всего, тогда как основной вызов остается за многоязычными текстами.


