Говорить уверенно, но не верно
Исследователи из университета Пердью в мае 2024 г. представили результаты свой работы, согласно которым ChatGPT отвечает неправильно более чем на половину вопросов, связанных с программированием. При этом чат-бот отвечал так уверенно, что убедил более трети участников.
16 октября 2023 г. руководство справочного сервиса для ИТ-специалистов и разработчиков Stack Overflow объявило об увольнении более 100 сотрудников компании, что составляет 28% от текущей штатной численности. Под информации СМИ, эксперты считают, что причиной увольнений в Stack Overflow стали различные ИИ-сервисы, чат-боты которых появились во всех уголках технологической индустрии, включая программирование. Это создает явные проблемы для персонального справочного ИТ-форума по программированию, поскольку многие ИТ-разработчики теперь перешли на системы помощи ИИ в кодировании, а сами инструменты, которые это делают, интегрированы в программные продукты, которые программисты используют в повседневной деятельности.
В 2024 г. команда аналитиков проанализировала ответы ChatGPT на 517 вопросов Stack Overflow, чтобы оценить правильность, последовательность, полноту и лаконичность ответов ChatGPT. Американские ученые также провели лингвистический и сентиментальный анализ ответов и опросили дюжину участников-добровольцев на предмет результатов, полученных с помощью ИИ-модели.
Согласно данным, 52% ответов ChatGPT неверны, а 77% - многословны. Тем не менее, ответы ChatGPT предпочитаются в 39,34% случаев благодаря их полноте и хорошо сформулированному стилю изложения. Среди множества предпочтительных ответов ChatGPT для ИТ-специалистов около 77% оказались неверными. Компания-разработчик OpenAI на официальном сайте признает, что ее программное обеспечение (ПО) может давать неточную информацию о людях, местах или фактах. В ходе исследования 60% респондентов сочли написанные человеком ответы более правильными, краткими и полезными.
Со слов исследователей, только когда ошибка в ответе ChatGPT очевидна, пользователи могут определить ее. Однако, когда ошибка не поддается проверке или требует внешнего IDE или документации, пользователи часто не могут определить неправильность или недооценивают степень ошибки в ответе. Даже когда ответ содержит явную ошибку, двое из 12 участников все равно отметили этот ответ как положительный. Ученые объясняют это приятным, авторитетным стилем самого ChatGPT.
В статье идет пояснение о том, что вежливый язык чат-бота, артикулированные ответы в стиле учебника, полнота и аффилированность ответов заставляют совершенно неправильные ответы казаться правильными.
К примеру, если пользователи считают коров и запускают в загон сначала две коровы, а через некоторые время еще две. Сколько их будет? Правильно, математика учит, что четыре. Но ChatGPT может прибегнуть от обратного и выдать в ответе – пять! Чат-бот может и разъяснить свой ответ тем, что когда пользователь запускал дополнительных двух коров в загон, у одной из тех, что уже была в загоне, родился теленок! Тогда получается пять, верно? Тоже верно...
Студенты на Stack Overflow сообщали даже об ошибках в несложных задачах по построению графика функции. К примеру, разработать программу для построения графика функции у = 2*sinx*e^4/5. Считать из файла х функции. График функции построить в интервале от -50 до 50. Результатом работы программы будут считаться два массива, которые содержат значения промежуточные значения x и y для интервала [-50; 50]. Пользователи не обращали внимания на то, что ChatGPT путал числовые значения при рисовании систем координат или запись данных из файла в вектор брались из несуществующих данных. Студенты не разбирались в полученных результатах или не понимали о чем речь вовсе, за что и получали соответствующие оценки от преподавателей.
Иллюзия правды
Один из авторов работы Самия Кабир (Samia Kabir) рассказала The Register о том, что случаи, когда участники предпочитали неправильные и многословные ответы ChatGPT ответам Stack Overflow, объяснялись несколькими причинами, о которых сообщали сами участники.
Одной из главных причин является то, насколько подробными являются ответы ChatGPT. Во многих случаях участники не обращали внимания на длину, если получали полезную информацию из подробных и развернутых ответов. Другими двумя причинами стали позитивные настроения и вежливость ответов от чат-бота.
Участники не обращали внимания на некорректность, когда считали ответ ChatGPT содержательным. То, как чат-бот уверенно передает проницательную информацию (даже если она неверна), завоевывает доверие пользователей, что заставляет их предпочесть неверный ответ. По словам Кабира, исследование пользователей призвано дополнить углубленный ручной и крупномасштабный лингвистический анализ ответов ChatGPT.
Исследователи также приглашают других аналитиков воспроизвести результаты данного проекта. На май 2024 г. набор данных находится в открытом доступе, чтобы способствовать будущим проектам. Авторы отмечают, что ответы ChatGPT содержат больше «драйвовых атрибутов» - формулировок, свидетельствующих о достижениях и успехах, но не так часто описывают риски.
Среди прочих результатов авторы обнаружили, что ChatGPT чаще допускает концептуальные ошибки, чем фактические. Многие ответы оказываются неверными из-за неспособности чат-бота понять основной контекст заданного вопроса.
Лингвистический анализ ответов
Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота более формальны, выражают больше аналитического мышления, демонстрируют больше усилий для достижения целей и проявляют меньше негативных эмоций. А анализ настроений показал, что ответы ChatGPT выражают более позитивные настроения, чем ответы Stack Overflow.
Исходя из выводов и наблюдений исследователей из университета Пердью, сделанных в ходе этой работы, ученые предполагают, что Stack Overflow должен внедрить эффективные методы выявления токсичности и негативных настроений в комментариях и ответах, чтобы улучшить настроение и вежливость.
Посещаемость Stack Overflow с ИИ-ответами
Согласно апрельскому отчету SimilarWeb, трафик падает на шесть процентов каждый месяц с января 2022 г., а в марте он снизился на 13,9%, что говорит о том, что использование ChatGPT может способствовать снижению. Члены сообщества Stack Exchange, сети сайтов вопросов и ответов, в которую входит Stack Overflow, пришли к аналогичному выводу, основываясь на снижении активности новых вопросов, новых ответов, размещаемых на сайте, и новых регистраций пользователей.
В декабре 2022 г. Stack Overflow временно запретил пользователям делиться ответами от чат-бота ChatGPT, так как часть из них была неправильная, а модераторы не могли оперативно это проверить.
Ежегодный опрос разработчиков Stack Overflow, в котором участвуют 90 тыс. программистов, недавно показал, что 77% разработчиков положительно относятся к инструментам ИИ, но только 42% доверяют точности этих инструментов. OverflowAI разрабатывался с учетом интересов сообщества и с упором на точность данных и контента, генерируемого ИИ.
На 2024 г. с помощью OverflowAI пользователям предлагается возможность проверять, атрибутировать и подтверждать точность и достоверность данных в сообществе Stack Overflow и его более чем 65 млн вопросов и ответов.