Метод улучшения результатов работы нейросетей
Разработан новый способ повысить объективность больших языковых моделей (LLM), склонных соглашаться с ошибочными рассуждениями или некорректными формулировками пользователя, сообщили CNews представители «Т-Технологий».
ИИ-модели все чаще используются в задачах, где от них требуется не подстраиваться под ожидания пользователя, чтобы повысить надежность рассуждений.
«Открытие поможет сделать более эффективным использование моделей в разработке программного обеспечения, образовательных технологий, аналитики, автоматической проверки решений и др. Метод также может применяться при создании помощников для программистов, систем оценки учебных решений, инструментов корпоративной проверки и везде, где модель должна возражать пользователю, если его решение некорректно», — отметили исследователи.
По словам Станислава Моисеева, руководителя центра исследований и разработок «Т-Технологий», разработанный практический способ снижения эффекта соглашательства важен для всей индустрии, «потому что затрагивает вопрос надежности больших языковых моделей, в том числе самых популярных».
Соглашаться с пользователем не всегда полезно
Ценность ИИ не в том, чтобы соглашаться, а в том, чтобы помогать находить корректный ответ, сказал Моисеев. Например, если водитель считает, что нужный поворот направо, хороший навигатор не должен соглашаться с ним просто потому, что так сказал человек.
Исследователи R&D-центра «Т-Технологий» представили систему оценки и набор тестов, который доказал склонность соглашаться у современных протестированных моделей, включая Qwen3-235B-A22B, GPT-OSS-120B и GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5-20250929 и Gemini-3-Pro-Preview.
Выяснилось, что дополнительное обучение на предпочтениях пользователей не всегда полезно, хоть и позволяет модели лучше подстраиваться под ожидаемый формат ответа.
Предлагаемый способ снижения эффекта соглашательства не требует полного переобучения модели. Для этого были сгенерированы пары примеров — с проявлением склонности соглашаться и без. А затем использованы steering vectors, чтобы сразу во время вывода скорректировать внутренние представления модели, пояснили разработчики.
Чего можно ждать от нейросетей
Чат-боты с искусственным интеллектом настолько склонны льстить, что одобряют даже деструктивное или опасное поведение своих пользователей, выяснили ученые из Стэнфордского университета, как писал CNews в марте 2026 г. Подхалимство настолько глубоко укоренилось в чат-ботах, что технологическим компаниям (Anthropic, Google, Meta*, OpenAI) придется переобучить свои системы искусственного интеллекта, пришли к выводу ученые.
Другое исследование выяснило, что развитые ИИ-модели не расположены к сотрудничеству и могут негативно влиять на групповое поведение, продвигая решения, направленные на извлечение личной выгоды, а не на взаимодействие.
*Meta признана в России экстремистской организацией и запрещена на территории страны.



