Вреда больше, чем пользы
Чат-боты с искусственным интеллектом настолько склонны льстить, что одобряют даже деструктивное поведение своих пользователей, выяснили ученые из Стэнфордского университета, пишет Sciencealert.
Эта их черта причиняет вред, несмотря на то, что может стимулировать вовлеченность, говорится в отчете исследователей.
Были протестировали 11 ведущих систем искусственного интеллекта и проанализировано поведение ИИ-помощников, созданных такими компаниями, как, например, Anthropic, Google, Meta*, OpenAI.
Подхалимство глубоко укоренилось в чат-ботах и технологическим компаниям, возможно, придется переобучить свои системы искусственного интеллекта, чтобы скорректировать предпочтительные типы ответов, сказала автор работы Майра Ченг (Myra Cheng), аспирантка Стэнфордского университета в области компьютерных наук.
Эксперименты с льстивыми ботами
Ченг, по ее словам, видела, как все больше и больше людей используют ИИ для получения советов по отношениям и «иногда вводятся в заблуждение тем, что он склонен принимать вашу сторону, независимо от обстоятельств». Это побудило ее детально изучить этот вопрос.
В одном из экспериментов сравнивались ответы ИИ с ответами людей на популярном форуме советов Reddit. Выяснилось, что в среднем чат-боты на 49% чаще поощряли действия пользователя, в том числе, касающиеся обмана, социально безответственного или незаконного поведения.
В других экспериментах проводилось наблюдение за тем, как около 2,4 тыс. человек общались с чат-ботом на основе искусственного интеллекта, обсуждая свой опыт решения межличностных проблем.
«Люди, которые взаимодействовали с этим чрезмерно одобряющим ИИ, уходили от него еще более убежденными в своей правоте и менее склонными к восстановлению отношений. Это означает, что они не извинялись, не предпринимали шагов для улучшения ситуации и не меняли своего поведения», — рассказала соавтор исследования Сину Ли (Cinoo Lee).
Вряд ли кто-то хочет получать фактически неточную информацию, но лесть чат-бота помогает людям почувствовать себя лучше после совершения неправильных поступков.
По мнению Ли, такое поведение ИИ может иметь «еще более важное значение для детей и подростков», которые только развивают эмоциональные навыки терпимости к конфликтам, учета других точек зрения и признания своей неправоты.
ИИ не стесняется лгать
Ченг полагает, что решению проблемы могло бы способствовать обучение ИИ- моделей чаще задавать пользователям вопросы. Это подтверждает Институт безопасности ИИ Великобритании, в одной из статей которого говориться, что если чат-бот преобразует утверждение пользователя в вопрос, он с меньшей вероятностью будет льстить в своем ответе.
Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.
В ходе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.
*Meta признана в России экстремистской организацией и запрещена на территории страны. Принадлежащие ей социальные сети заблокированы в России.



