ArXiv введёт годичный запрет на публикации для авторов, полностью полагающихся на ИИ
Научный репозиторий arXiv ужесточает контроль за использованием больших языковых моделей (LLM) в научных публикациях. Авторам, чьи работы содержат неопровержимые доказательства того, что они не проверяли результаты, сгенерированные ИИ, будет запрещено публиковаться на платформе в течение одного года.
ArXiv — широко используемый открытый репозиторий препринтов — играет ключевую роль в распространении исследований в таких областях, как информатика и математика, несмотря на то что публикуемые материалы не проходят рецензирование. Платформа также служит источником данных о тенденциях в научной деятельности. Ранее arXiv уже принимал меры против роста числа низкокачественных, сгенерированных ИИ работ, введя, например, требование для новых авторов получать одобрение от признанного исследователя. Кроме того, после более чем 20 лет размещения при Корнелльском университете организация переходит в статус независимой некоммерческой структуры, что должно помочь привлечь дополнительное финансирование для решения проблем, связанных с «ИИ-мусором».
В четверг Томас Диттерих, председатель секции информатики arXiv, объявил о новом правиле: «Если в работе содержатся неопровержимые доказательства того, что авторы не проверяли результаты генерации LLM, это означает, что мы не можем доверять чему-либо в этой работе». Такими доказательствами могут быть, в частности, «галлюцинированные ссылки» или комментарии, оставленные самой моделью или её пользователем. В случае обнаружения подобных признаков авторам будет грозить «годичный запрет на публикации в arXiv с последующим требованием, чтобы их дальнейшие материалы сначала были приняты авторитетным рецензируемым изданием».
Это правило не запрещает использование LLM как таковое, а подчёркивает, что авторы несут «полную ответственность» за содержание своих работ, «независимо от способа их создания». Таким образом, если исследователи копируют из LLM «неуместные формулировки, плагиат, предвзятый контент, ошибки, неточности, неверные ссылки или вводящую в заблуждение информацию», они всё равно остаются ответственными за это.
Как сообщил Диттерих изданию 404 Media, правило будет применяться по принципу «одного нарушения», однако модераторы должны сначала отметить проблему, а председатели секций — подтвердить наличие доказательств до наложения санкций. Авторы также получат возможность обжаловать решение.
Недавние рецензируемые исследования показывают рост числа поддельных цитирований в биомедицинских публикациях, вероятно, из-за использования LLM. Впрочем, учёные — не единственные, кто попадается на использовании вымышленных ссылок, сгенерированных ИИ.
Аналитическая справка:
Термин «AI slop», использованный в оригинале, переведён как «ИИ-мусор» — устоявшегося русскоязычного эквивалента нет, но в профессиональной среде под этим подразумевают низкокачественный, массово генерируемый ИИ контент без проверки и редактирования.
Фраза «hallucinated references» корректно передана как «галлюцинированные ссылки» — общепринятый термин в контексте ИИ, означающий вымышленные, но правдоподобно сформулированные цитаты или источники.
Название «arXiv» сохранено в оригинальном написании, как принято в русскоязычной научной среде; произношение «archive» указано в оригинале для пояснения, но в русском тексте не требуется.


