Имитация мышления
Проведенные экспертами корпорации Apple исследования наглядно продемонстрировали, что практически все LLM, в том числе ChatGPT, вопреки распространенному мнению, не способны думать и рассуждать так, как это происходит у человека. Об этом в середине октября 2024 г. пишет издание TechСrunch.
Несмотря на тот факт, что чат-боты с легкостью решают различные математические задачи, исследователи Apple обнаружили, что LLM легко сбиваются с толку, если добавлять в простые задачи лишние или несуществующие данные. Результаты этого исследования ставят под сомнение способности современного искусственного интеллекта логически размышлять и обнажают его уязвимости при взаимодействии с изменёнными условиями.
В материале под названием «Понимание ограничений математического мышления в LLM», в котором корпорация Apple приводит результаты своего исследования, говорится о том, что ИИ способен правильно решать задачи с базовыми числами, но при добавлении даже самых незначительных деталей LLM будут выдавать неправильные ответы. Например, если перед любой LLM поставить задачу: «Мэттью Перри (Matthew Perry) собрал 44 киви в субботу, а после этого он собрал 58 киви в воскресенье. В понедельник Перри собрал вдвое больше киви, чем в субботу. Сколько киви собрал Мэттью Перри?» — искусственный интеллект быстро решит ее, подсчитав 44 + 58 + (44?2) = 190. Но если в условие добавить небольшую и совсем ничего не меняющую деталь. Например, «но пять из этих киви были немного меньше среднего размера». Вместо того чтобы проигнорировать незначащие данные, как это сделал бы человек, ИИ ошибочно начнет вычитать. По крайней мере модель ChatGPT от OpenAI, а также Llama3-8b от Meta* (компания признана экстремистской организацией на территории России) отняли пять киви от общего результата.
Один из авторов исследования Мехрдад Фараджтабар (Mehrdad Farajtabar) рассказал о том, что такие ошибки наглядно показывают неспособность ИИ к подлинному логическому мышлению. Это говорит о том, что ИИ-модели стараются следовать уже имеющимся у них шаблонам и логическим связям, которые записаны в их данных, вместо того чтобы проводить анализ новых условий задачи и адаптировать свои выводы. Фараджтабар уточнил, что исследователи не обнаружили свидетельств, говорящих о формальной способности рассуждать у языковых моделей.
Эксперты из корпорации Apple при этом отмечают, что в ряде подобных ситуаций можно улучшить результаты ответов ИИ за счет реализации методов оптимизации запросов, но для решения реально сложных задач понадобится вносить слишком много контекстных данных для устранения ошибок. Производительность всех моделей снижается, даже когда в вопросе изменяются только численные значения в бенчмарке GSM-Symbolic, отметили исследователи. Более того, хрупкость математических рассуждений моделей демонстрирует то, что их производительность значительно ухудшается по мере, например, увеличения количества грамматических основ в вопросе. Поведение ИИ-моделей исследователи Apple объясняют, скорее, сложным сопоставлением паттернов, которое настолько уязвимо, что на результат может повлиять банальная замена имен.
ИИ в бизнесе
ИИ действительно выходит из исследовательских лабораторий в сферу бизнеса, промышленности и профессиональных приложений. Но ему еще далеко до тех высот, которые некоторые делают по данной технологии. И его интеграция в повседневную деятельность крупной компании требует больше тонкостей, чем мечты о роботах-адвокатах или врачах. Осознать уникальные проблемы внедрения ИИ в крупной организации - вот ключ к пониманию реального потенциала этой новой технологии.
Большая часть путаницы, связанной с использованием ИИ, проистекает из наших собственных, в значительной степени неосознанных представлений об интеллекте. В значительной степени эти убеждения отражают представления об интеллектуальной мощи общего назначения, аналогичные таким понятиям, как сила или скорость. Однако современные ИИ-технологии уделяют гораздо больше внимания конкретным знаниям, которые требуются для выполнения той или иной задачи, а не вычислительной мощности, которую она требует. Так, ИИ-программа для игры в шахматы, скорее всего, будет опираться на большое количество детальных знаний о конкретных ходах и ситуациях, чем на чрезвычайно быстрый процессор, вооруженный лишь правилами игры.
Как программист может получить и закодировать эти знания? Для очень простых задач, таких как игра в Tic Tac Toe, один из способов - перечислить все ситуации и соответствующие им лучшие ходы, чтобы машина могла решать, что делать на каждом шаге, просто найдя соответствующий ход в списке. В качестве альтернативы, поскольку количество возможностей очень мало, программное обеспечение (ПО) может генерировать все возможные легальные ходы на каждом шаге и выбирать лучший из них. Но для более сложных задач, таких как игра в шахматы, ни один из этих подходов не подходит. В таких случаях ИИ-система должна представлять знания как некий компромисс между конкретными ответами для каждой ситуации, которых всегда слишком много, и общими принципами, применение которых к любой конкретной ситуации может быть очень неясным.
Основная коммерческая привлекательность этих ИТ-систем, основанных на знаниях, заключается в том, что их можно использовать для программирования поведения, которое очень сложно записать в виде обычной программы. В частности, технология, основанная на правилах, кажется хорошо подходящей для описания многих рутинных диагностических решений, принимаемых профессионалами, такими как врачи или инженеры. Эти решения слишком сложны, чтобы их можно было исчерпывающе описать с помощью таблиц или заученных процедур, но, похоже, они принимаются не на основе какого-либо анализа из первых принципов, а путем применения большой коллекции правил, которые хорошо описываются правилами «ситуация-действие».
Компьютерные технологии требуют точности и детализации. Точное, подробное описание знаний, необходимых для выполнения важной задачи, может быть очень ценным само по себе. Зачастую только люди, которые фактически выполняют задачу, знают, что именно требуется для ее выполнения, и они редко исследуют или формулируют то, что знают. В результате систематическое описание знаний, которое требуется ИИ-технологии, иногда обнаруживает тревожные пробелы и несоответствия.
Системы геологического анализа компании Schlumberger, основанные на ИИ, показывают, как эта технология может повысить эффективность принятия решений профессионалами. Начиная с 1980 гг., компания начала разрабатывать ИИ-системы для определения вероятной стоимости нефтяных скважин на основе измерений, проведенных во время бурения. Эти анализы выполняет группа геологов-нефтяников, и от их решений зависят большие суммы денег. Таких людей редко бывает достаточно, а обучение или набор новых стоит очень дорого. По всем этим причинам компания хотела использовать ИИ для автоматизации этой задачи. Однако, несмотря на значительные инвестиции, по-настоящему экспертная работа оказалась труднодостижимой целью. Schlumberger создала ИТ-системы, обладающие компетенцией младших геологов, но до сих пор не создала систему, которой можно было бы доверить самостоятельное принятие столь важных решений.
*Meta (компания признана экстремистской организацией на территории России).