Главная Новости Российские разработчики нашли способ отучить GPT и DeepSeek от соглашательства

Российские разработчики нашли способ отучить GPT и DeepSeek от соглашательства

Метод улучшения результатов работы нейросетей

Разработан новый способ повысить объективность больших языковых моделей (LLM), склонных соглашаться с ошибочными рассуждениями или некорректными формулировками пользователя, сообщили CNews представители «Т-Технологий».

ИИ-модели все чаще используются в задачах, где от них требуется не подстраиваться под ожидания пользователя, чтобы повысить надежность рассуждений.

«Открытие поможет сделать более эффективным использование моделей в разработке программного обеспечения, образовательных технологий, аналитики, автоматической проверки решений и др. Метод также может применяться при создании помощников для программистов, систем оценки учебных решений, инструментов корпоративной проверки и везде, где модель должна возражать пользователю, если его решение некорректно», — отметили исследователи.

freepik

ИИ-модели снижают качество результатов своей работы из-за склонности соглашаться с пользователем там, где не нужно

По словам Станислава Моисеева, руководителя центра исследований и разработок «Т-Технологий», разработанный практический способ снижения эффекта соглашательства важен для всей индустрии, «потому что затрагивает вопрос надежности больших языковых моделей, в том числе самых популярных».

Соглашаться с пользователем не всегда полезно

Ценность ИИ не в том, чтобы соглашаться, а в том, чтобы помогать находить корректный ответ, сказал Моисеев. Например, если водитель считает, что нужный поворот направо, хороший навигатор не должен соглашаться с ним просто потому, что так сказал человек.

Исследователи R&D-центра «Т-Технологий» представили систему оценки и набор тестов, который доказал склонность соглашаться у современных протестированных моделей, включая Qwen3-235B-A22B, GPT-OSS-120B и GPT-5.2 (High), DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5-20250929 и Gemini-3-Pro-Preview.

Выяснилось, что дополнительное обучение на предпочтениях пользователей не всегда полезно, хоть и позволяет модели лучше подстраиваться под ожидаемый формат ответа.

Предлагаемый способ снижения эффекта соглашательства не требует полного переобучения модели. Для этого были сгенерированы пары примеров — с проявлением склонности соглашаться и без. А затем использованы steering vectors, чтобы сразу во время вывода скорректировать внутренние представления модели, пояснили разработчики.

Чего можно ждать от нейросетей

Чат-боты с искусственным интеллектом настолько склонны льстить, что одобряют даже деструктивное или опасное поведение своих пользователей, выяснили ученые из Стэнфордского университета*, как писал CNews в марте 2026 г. Подхалимство настолько глубоко укоренилось в чат-ботах, что технологическим компаниям (Anthropic, Google, Meta*, OpenAI) придется переобучить свои системы искусственного интеллекта, пришли к выводу ученые.

Недорогой интернет для дачи в 2025 году: сравниваем тарифы операторов

Другое исследование выяснило, что развитые ИИ-модели не расположены к сотрудничеству и могут негативно влиять на групповое поведение, продвигая решения, направленные на извлечение личной выгоды, а не на взаимодействие.

*Meta признана в России экстремистской организацией и запрещена на территории страны.

* Leland Stanford Junior University (Stanford University, «Университет им. Леланда Стэнфорда-младшего», «Стэнфордский университет»), США входит в реестр иностранных и международных организаций, деятельность которых признана нежелательной на территории Российской Федерации

* Американская транснациональная холдинговая компания Meta Platforms Inc. по реализации продуктов социальных сетей Facebook и Instagram входит в перечень организаций, признанных в соответствии с законодательством Российской Федерации экстремистскими

E-mail / ФИО:
Пароль:
	Запомнить Забыли пароль?