Тест для проверки искусственного интеллекта на способность подражать человеку был создан Аланом Тьюрингом в далеком 1950-м году. И хотя ИИ все еще не удалось пройти тестирование, альтернативные варианты проверки уже придуманы.
Смысл теста Тьюринга в том, что человек общается с одним компьютером и одним другим человеком и по ответам должен понять, кто из собеседников – компьютерная программа. При этом задача компьютера – максимально достоверно имитировать человеческое поведение, общение и что самое важное – мышление.
Несмотря на то, что тесту уже больше семидесяти лет, даже современный искусственный интеллект пока не смог пройти тест Тьюринга. По прогнозам специалистов это может произойти в 2029 году.
Однако у теста Тьюринга имеются проблемы, которые лишают его универсальности. Он не учитывает ряд важных факторов, таких как уровень интеллекта нейросети и знания человека, участвующего в тестировании.
Но самое главное – тест предполагает только текстовое взаимодействие и не рассматривает другие варианты, с помощью которых ИИ имитирует человеческое поведение (голосовые и визуальные дипфейки).
Все это заставляет ученых разрабатывать альтернативные варианты тестирования нейросетей.
1. Тест Маркуса
Этот тест предлагает оценивать конгнитивные способности модели ИИ на основе просмотра видео и телешоу без субтитров и текста.
Для того чтобы нейросеть прошла тест Маркуса, она должна понимать сарказм, юмор, иронию и сюжетную линию и уметь пояснять их.
На данный момент даже самые совершенные языковые модели вроде CPT-4 способны только описать картинку, но не воспринимать изображение, как это делает человек.
Любопытно, что максимальные показатели в этом тесте у систем беспилотных автомобилей, которые обучаются ориентированию на местности.
2. Визуальный тест Тьюринга
В этом варианте вместо текста используются изображения. На вид это похоже на CAPTCHA, но только все фото в нем по сути верные. При их оценке ИИ нужно суметь обработать все картинки так, как это сделал бы человек.
Пока что нейросети не могут различить достоверное изображение и то, на котором есть аномалии (например, лишние пальцы на руках людей).
3. Лавлейс 2.0
Задолго до появления теста Тьюринга Ада Лавлейс предположила, что компьютер не может создавать оригинальные идеи, выходящие за рамки того, на что он запрограммирован. И хотя в современных моделях ИИ используется сложное обучение, они все еще не могут пройти тест Лайвлейс 2.0 и доказать, что их идеи оригинальны.
4. Обратный тест Тьюринга
В обратном тесте Тьюринга человек должен заставить нейросеть поверить, что она общается с другой нейросетью. Для этого требуется две модели ИИ (например, Chat GPT и Bard) и реальный человек.
Проблема этого тестирования в его низкой надежности – достаточно вспомнить, что ИИ не всегда способен различить контент, созданный другой системой ИИ и человеком. То есть нейросеть может сделать случайный выбор и угадать результаты теста, а не пройти его, как это сделал бы человек.
5. Структурная классификация искусственного интеллекта
Это более сложная система классификации, учитывающая при оценке ИИ не только текстовое взаимодействие. В рамках этого теста к нейросетям применяются восемь критериев, которые используются для оценки человеческого интеллекта:
- умение поддерживать музыкальный ритм;
- логико-математический интеллект;
- визуальная идентификация;
- эмоциональный интеллект;
- самооценка;
- способность к рефлексии;
- способность к экзистенциальному мышлению;
- движение тела.
Разумеется, на данном этапе ИИ не соответствует всем этим параметрам и велики шансы, что он никогда не сможет пройти этот тест.