YandexGPT 2 набрала на ЕГЭ балл, необходимый для поступления в вуз
Языковая модель YandexGPT 2 решила несколько вариантов ЕГЭ по литературе. Нейросеть приблизились к среднему баллу (64 по итогам 2022 г.) по этому предмету среди российских школьников, которые выбирают литературу и специально готовятся к экзамену. Она также преодолела минимальный порог, необходимый для поступления в вуз, — 40 баллов. Её усреднённая оценка составила 55 баллов. Это первый случай в России, когда генеративная нейросеть сдала единый госэкзамен, выполнив все его задания, включая творческое.
Пройти ЕГЭ по литературе — сложная задача для нейросети. Он проверяет знания сразу с нескольких сторон: в нём есть задания для оценки эрудиции, стиля письма и творческих способностей. YandexGPT 2 решила обе части экзамена. В первой она анализировала произведение и отвечала на вопросы о нём, во второй — писала сочинение на заданную тему.
Алексей Гусаков, технический директор «Поиска» «Яндекса», сказал: «Стандартным тестом для оценки эрудиции языковых моделей в мире считается MMLU: он включает вопросы разной степени сложности из 57 областей знания. Так можно объективно сравнить несколько нейросетей, но нельзя оценить качество их ответов на открытые или творческие вопросы. Именно поэтому мы предложили YandexGPT 2 сдать ЕГЭ по литературе. Его задания тесно связаны с текстом, языком и пониманием культурного контекста».
Специалисты «Яндекса» получили варианты ЕГЭ по литературе, которые использовались при проведении тренировочных экзаменов в 2021–2023 гг., от Московского центра непрерывного математического образования и убедились, что применявшаяся для обучения YandexGPT база данных не содержит ответов на них. Нейросеть решала задания практически так же, как это делал бы любой школьник: генерировала ответы на открытые вопросы и выбирала один или несколько вариантов из предложенных, если они были. После этого решения языковой модели внесли в бланки и отправили на проверку официальным экспертам ЕГЭ по литературе.
«Школьники тщательно готовятся к ЕГЭ заранее и глубоко погружаются в специфику экзамена. Нейросеть не делала этого, её подход похож на ситуацию, когда взрослый человек решает задания, опираясь только на накопленные знания. Результаты YandexGPT 2 показывают её эрудицию и способность анализировать информацию», — отметил Иван Ященко, директор Московского центра непрерывного математического образования.