Больше половины ответов ChatGPT на вопросы по программированию неверны. Зато чат-бот говорит уверенно и без стеснения

Ажиотаж вокруг искусственного интеллекта (ИИ) не обошел и программистов - многие из них предпочитают обращаться за советом к ChatGPT, а не к специализированным ресурсам. Это явление неудивительно, поскольку способность ИИ предоставлять мгновенные ответы стала привлекательным фактором для ИТ-специалистов, ищущих быстрые решения или разъяснения. Однако оказалось, что полагаться на новую технологию в 2024 г. еще рано - она часто «косячит».

2024-05-28 09:52:21, Мск

Говорить уверенно, но не верно

Исследователи из университета Пердью в мае 2024 г. представили результаты свой работы, согласно которым ChatGPT отвечает неправильно более чем на половину вопросов, связанных с программированием. При этом чат-бот отвечал так уверенно, что убедил более трети участников.

16 октября 2023 г. руководство справочного сервиса для ИТ-специалистов и разработчиков Stack Overflow объявило об увольнении более 100 сотрудников компании, что составляет 28% от текущей штатной численности. Под информации СМИ, эксперты считают, что причиной увольнений в Stack Overflow стали различные ИИ-сервисы, чат-боты которых появились во всех уголках технологической индустрии, включая программирование. Это создает явные проблемы для персонального справочного ИТ-форума по программированию, поскольку многие ИТ-разработчики теперь перешли на системы помощи ИИ в кодировании, а сами инструменты, которые это делают, интегрированы в программные продукты, которые программисты используют в повседневной деятельности.

Unsplash - Solen Feyissa

52% ответов ChatGPT на вопросы по программированию неверны

В 2024 г. команда аналитиков проанализировала ответы ChatGPT на 517 вопросов Stack Overflow, чтобы оценить правильность, последовательность, полноту и лаконичность ответов ChatGPT. Американские ученые также провели лингвистический и сентиментальный анализ ответов и опросили дюжину участников-добровольцев на предмет результатов, полученных с помощью ИИ-модели.

Согласно данным, 52% ответов ChatGPT неверны, а 77% - многословны. Тем не менее, ответы ChatGPT предпочитаются в 39,34% случаев благодаря их полноте и хорошо сформулированному стилю изложения. Среди множества предпочтительных ответов ChatGPT для ИТ-специалистов около 77% оказались неверными. Компания-разработчик OpenAI на официальном сайте признает, что ее программное обеспечение (ПО) может давать неточную информацию о людях, местах или фактах. В ходе исследования 60% респондентов сочли написанные человеком ответы более правильными, краткими и полезными.

Со слов исследователей, только когда ошибка в ответе ChatGPT очевидна, пользователи могут определить ее. Однако, когда ошибка не поддается проверке или требует внешнего IDE или документации, пользователи часто не могут определить неправильность или недооценивают степень ошибки в ответе. Даже когда ответ содержит явную ошибку, двое из 12 участников все равно отметили этот ответ как положительный. Ученые объясняют это приятным, авторитетным стилем самого ChatGPT.

В статье идет пояснение о том, что вежливый язык чат-бота, артикулированные ответы в стиле учебника, полнота и аффилированность ответов заставляют совершенно неправильные ответы казаться правильными.

К примеру, если пользователи считают коров и запускают в загон сначала две коровы, а через некоторые время еще две. Сколько их будет? Правильно, математика учит, что четыре. Но ChatGPT может прибегнуть от обратного и выдать в ответе – пять! Чат-бот может и разъяснить свой ответ тем, что когда пользователь запускал дополнительных двух коров в загон, у одной из тех, что уже была в загоне, родился теленок! Тогда получается пять, верно? Тоже верно...

Студенты на Stack Overflow сообщали даже об ошибках в несложных задачах по построению графика функции. К примеру, разработать программу для построения графика функции у = 2*sinx*e^4/5. Считать из файла х функции. График функции построить в интервале от -50 до 50. Результатом работы программы будут считаться два массива, которые содержат значения промежуточные значения x и y для интервала [-50; 50]. Пользователи не обращали внимания на то, что ChatGPT путал числовые значения при рисовании систем координат или запись данных из файла в вектор брались из несуществующих данных. Студенты не разбирались в полученных результатах или не понимали о чем речь вовсе, за что и получали соответствующие оценки от преподавателей.

Иллюзия правды

Один из авторов работы Самия Кабир (Samia Kabir) рассказала The Register о том, что случаи, когда участники предпочитали неправильные и многословные ответы ChatGPT ответам Stack Overflow, объяснялись несколькими причинами, о которых сообщали сами участники.

Одной из главных причин является то, насколько подробными являются ответы ChatGPT. Во многих случаях участники не обращали внимания на длину, если получали полезную информацию из подробных и развернутых ответов. Другими двумя причинами стали позитивные настроения и вежливость ответов от чат-бота.

Участники не обращали внимания на некорректность, когда считали ответ ChatGPT содержательным. То, как чат-бот уверенно передает проницательную информацию (даже если она неверна), завоевывает доверие пользователей, что заставляет их предпочесть неверный ответ. По словам Кабира, исследование пользователей призвано дополнить углубленный ручной и крупномасштабный лингвистический анализ ответов ChatGPT.

Исследователи также приглашают других аналитиков воспроизвести результаты данного проекта. На май 2024 г. набор данных находится в открытом доступе, чтобы способствовать будущим проектам. Авторы отмечают, что ответы ChatGPT содержат больше «драйвовых атрибутов» - формулировок, свидетельствующих о достижениях и успехах, но не так часто описывают риски.

Среди прочих результатов авторы обнаружили, что ChatGPT чаще допускает концептуальные ошибки, чем фактические. Многие ответы оказываются неверными из-за неспособности чат-бота понять основной контекст заданного вопроса.

Лингвистический анализ ответов

Лингвистический анализ ответов ChatGPT и Stack Overflow показал, что ответы бота более формальны, выражают больше аналитического мышления, демонстрируют больше усилий для достижения целей и проявляют меньше негативных эмоций. А анализ настроений показал, что ответы ChatGPT выражают более позитивные настроения, чем ответы Stack Overflow.

Исходя из выводов и наблюдений исследователей из университета Пердью, сделанных в ходе этой работы, ученые предполагают, что Stack Overflow должен внедрить эффективные методы выявления токсичности и негативных настроений в комментариях и ответах, чтобы улучшить настроение и вежливость.

Посещаемость Stack Overflow с ИИ-ответами

Согласно апрельскому отчету SimilarWeb, трафик падает на шесть процентов каждый месяц с января 2022 г., а в марте он снизился на 13,9%, что говорит о том, что использование ChatGPT может способствовать снижению. Члены сообщества Stack Exchange, сети сайтов вопросов и ответов, в которую входит Stack Overflow, пришли к аналогичному выводу, основываясь на снижении активности новых вопросов, новых ответов, размещаемых на сайте, и новых регистраций пользователей.

В декабре 2022 г. Stack Overflow временно запретил пользователям делиться ответами от чат-бота ChatGPT, так как часть из них была неправильная, а модераторы не могли оперативно это проверить.

Ежегодный опрос разработчиков Stack Overflow, в котором участвуют 90 тыс. программистов, недавно показал, что 77% разработчиков положительно относятся к инструментам ИИ, но только 42% доверяют точности этих инструментов. OverflowAI разрабатывался с учетом интересов сообщества и с упором на точность данных и контента, генерируемого ИИ.

На 2024 г. с помощью OverflowAI пользователям предлагается возможность проверять, атрибутировать и подтверждать точность и достоверность данных в сообществе Stack Overflow и его более чем 65 млн вопросов и ответов.

Распечатать

Больше половины ответов ChatGPT на вопросы по программированию неверны. Зато чат-бот говорит уверенно и без стеснения

Говорить уверенно, но не верно

Иллюзия правды

Лингвистический анализ ответов

Посещаемость Stack Overflow с ИИ-ответами

Знаменитый сайт для программистов на грани закрытия после почти 20 лет процветания. Его стремительно убивают нейросети

«Комплекс геодезических расчетов» для отечественных ОС обеспечивает формирование кадастровых документов

Знания кончились. Искусственный интеллект выучил все, что известно человечеству

В США нашелся миллиардер, желающий купить TikTok. Иначе его запретят

В России создается государственная система борьбы с ИТ-преступностью