Выбирай : Покупай : Используй

Вход для партнеров

Вход для продавцов

0

Популярные процессоры AMD «зависают» от долгой работы. Производитель не намерен устранять проблему

Серверные процессоры AMD Epyc семейства Rome могут зависать через 1044 дня непрерывной работы. Устранять проблему производитель не намерен. Оператором компьютеров на основе этих чипов рекомендовано чаще перезагружаться.

Аппаратный баг в процессорах AMD

В серверных процессорах AMD Epyc обнаружена ошибка, приводящая к их зависанию спустя 1044 дня (2 года 10 месяцев) непрерывной работы. Документ с описанием проблемы опубликован на официальном сайте AMD.

Ошибка затрагивает второе поколение чипов AMD Epyc (7002) под кодовым названием Rome, построенных на базе микроархитектуры Zen 2 и представленные на рынке с 2018 г.

Согласно обнародованным чипмейкером данным, проблема связана с невозможностью выхода ядер процессора из состояния сна CC6 – энергосберегающего режима работы (чип может переходить в него при простое), в результате которого CPU перестает реагировать на команды. При этом продолжительность непрерывной работы процессора, необходимая для срабатывания бага, может варьироваться в зависимости от ряда факторов, в частности, от значения частоты эталонного тактового сигнала (REFCLK), однако методику расчета времени отказа процессора AMD не приводит.

AMD Epyc 7002 могут зависать при аптайме более 1044 дней

Как отмечает Tom’s Hardware, предположение о том, с чем конкретно может быть связан баг, выдвинутое пользователем площадки Reddit под псевдонимом acid_migrain, выглядит правдоподобным. По его словам, зависание ядра происходит в момент достижения содержимого регистра TSC (Time Stamp Counter) значения 0x380000000000000 (число в шестнадцатеричной записи).

Регистр TSC выполняет функцию счетчика тактов с момента последнего сброса процессора архитектур x86 и x86_64 и не способен хранить числа, больше приведенного acid_migrain, и просто зависает, что и приводит к отказу всего процессора до последующего обнуления счетчика. При частоте в 2,8 ГГц для достижения этого значения потребуется 1042 дня и 12 часов.

Устранять баг в AMD не планируют. Пользователям процессоров компания рекомендует либо перезагружать серверы на основе Epyc 7002 не реже чем раз в 1044 дня, либо отключить СC6.

Появление ошибок неизбежно

Как отмечает Tom’s Hardware возникновение ошибок в таком сложном электронном устройстве как компьютерный процессор неизбежно. Их количество может насчитывать сотни и даже тысячи. Производители стремятся устранить выявленные баги с выпуском очередной ревизии CPU. Тем не менее некоторые из них остаются в устройствах навсегда.

Так, процессоры Intel восьмого поколения, выпущенные на рынок в 2017 г., по-прежнему насчитывают более 150 ошибок. Совокупное количество багов в чипах Epyc семейства Rome неизвестно, однако, судя по опубликованным AMD документам, неисправленными пока остаются 39 багов.

Intel несколько раз откладывала вывод на рынок своих процессоров Xeon Scalable четвертого поколения (Sapphire Rapids). Как ранее сообщил CNews, по некоторым данным, задержки с запуском нового продукта связаны с колоссальным количеством аппаратных ошибок – более 500 – в мощных серверных процессорах Intel.

Шанс столкнуться с проблемой невелик

Проблема зависания AMD Epyc 7002 оставалась вне поля зрения специалистов AMD, поскольку эксплуатация серверов без перезагрузки в течение столь продолжительного срока является редкостью – техническое обслуживание машин и установка обновлений безопасности осуществляются куда чаще, нежели раз в три года. Поэтому и шансы столкнуться с подобной проблемой были невелики.

Впрочем, недооценивать серьезность проблемы, вероятно, также не следует – операционные системы на основе Linux, к примеру, располагают инструментами, которые позволяют устанавливать обновления ядра системы без перезагрузки. Таким образом, некоторые из владельцев серверов на основе процессоров Epyc 7002 в теории способны испытать на себе последствия ошибки инженеров AMD.