Выбирай : Покупай : Используй

Вход для партнеров

Вход для продавцов

0

Обзор российского 4-ядерного процессора Эльбрус-4С. Часть 2: архитектура

В этой статье мы продолжаем рассмотрение уникальной архитектуры отечественных микропроцессоров «Эльбрус», продолжая тему, начатую в первой части. Речь пойдёт о том, чем эта архитектура отличается от подходов, принятых у доминирующих на рынке процессоров известных производителей, её преимуществах и недостатках.
Содержание:
Обзор российского 4-ядерного процессора Эльбрус-4С. Часть 2: архитектура
Версия для печати
Обзор российского 4-ядерного процессора Эльбрус-4С. Часть 1: История создания Читать
Обзор российского 4-ядерного процессора Эльбрус-4С. Часть 3: Тесты, сравнение с Intel Читать

RISC, CISC, и всякое такое

Все выпускаемые сегодня процессоры делятся на два больших класса: процессоры с сокращённым набором команд, или RISC (Reduced Instruction Set Computing), и процессоры с полным набором команд, или CISC (Complete Instruction Set Computing). Набор команд первых из них отличается аскетичностью, сами команды однотипны и выполняются за небольшое фиксированное время, что позволяет эффективнее наращивать тактовую частоту. Зато в CISC-системе команды более универсальны, что несколько упрощает написание программного кода.

С точки зрения программиста, все x86-совместимые процессоры являются CISC-процессорами, но на самом деле, их современные модели спроектированы на основе RISC-ядра. Выполнение CISC-команд эмулируется аппаратурой процессора путём их преобразования «на лету» в команды RISC-ядра с помощью специального блока декодирования инструкций и микропрограммы-транслятора.. Такой подход позволяет повысить эффективность работы при сохранении совместимости, а также позволяет исправлять некоторые ошибки проектирования уже после выпуска чипа в серийное производство. Это достигается путём изменения кода микропрограммы-транслятора, обычно выполняемого средствами BIOS той системной платы, куда установлен процессор (именно об этом идёт речь, когда производители выпускают модификации BIOS, «совместимые с процессором таким-то»: то есть, в него внесена модифицированная версия микропрограммы для этой модели процессора, исправляющая некоторые ошибки, тогда как сам процессор будет прекрасно работать и на «несовместимом» BIOS’е).

Когда программист или компилятор создаёт программу в виде последовательности ассемблерных инструкций, то подразумевается, что они будут исполняться последовательно, одна за другой, и исполнение каждой инструкции полностью завершается перед запуском на исполнение следующей инструкции. Так устроены системы команд всех RISC и CISC процессоров. Первые модели процессоров были способны выполнять не больше одной инструкции за один такт, и это ограничение не создавало неудобств. Но со временем технология позволила делать всё более сложные чипы, и тогда для увеличения производительности стали «учить» процессор выполнять по нескольку инструкций за такт. Это свойство называется суперскалярностью. Но есть проблема: нельзя просто так запускать параллельно несколько операций, потому что среди них могут быть зависимости. Например, одна инструкция читает число из памяти в регистр, а следующая – инкрементирует полученное значение  в регистре. Их можно запускать только последовательно, но в самих инструкциях нет информации об их взаимозависимости. Поэтому нужна специальная и сложная аппаратура, детектирующая зависимости и гарантирующая корректность исполнения инструкций «вне очереди».    Все современные x86-совместимые микропроцессоры – суперскалярные. Например, самые современные чипы на архитектуре Haswell выполняют до восьми операций за такт. Но объём аппаратуры анализа зависимостей для такого числа операций весьма велик, и поэтому чипы получаются сложными и «горячими».

Заметим, что речь идёт именно о микрооперациях RISC-ядра, а вовсе не об инструкциях x86, да ещё и на их вид наложены некоторые ограничения (например, арифметических операций и операций с памятью может быть не более половины от этого числа).

Процессоры архитектуры «Эльбрус» построена по принципу VLIW, или очень широкого командного слова (Very Large Instruction Word). Этот подход можно считать разновидностью RISC – коротких команд с фиксированным временем выполнения, с тем отличием, что каждая команда содержит не одну, а много элементарных операций (вплоть до 23-х). Загрузить такой широкий конвейер на 100% непросто, поэтому разработчики переложили выделение зависимостей и оптимизацию порядка выполнения команд на плечи компилятора. И в самом деле: компилятор, запускающийся на этапе перевода программы, написанной на языке высокого уровня (или ассемблере), в машинные коды, обладает гораздо большими ресурсами, а также большим доступным временем (в разумных пределах, конечно), поэтому эффективность его работы может быть выше, чем у аппаратного блока анализа зависимостей. Используя алгоритмы, имеющие много независимых операций (и поэтому хорошо поддающиеся оптимизации), программист может получить производительность, заметно превосходящую предел возможностей процессора AMD/Intel, работающего на той же частоте. Кристалл процессора в результате получается проще и надёжнее, и потребляет меньшую мощность.

x86-совместимость «в нагрузку»

Объём написанного на сегодня кода в среде x86 столь велик, что игнорировать его не может себе позволить ни один, даже самый крупный, производитель процессоров. Компания Intel однажды смогла «провернуть» такой фокус, отказавшись от аппаратной поддержки процессоров 8080 и перейдя на новую на тот момент архитектуру 386, но суммарный объём существующего кода был тогда на несколько порядков меньше. Повторить этот смертельный трюк вряд ли удастся кому-либо в обозримом будущем, удел смельчака – узкоспециализированная ниша, занять которую он обречён в этом случае (ARM-процессоры, доминирующие на смартфонах, лучшее тому подтверждение).

Основной средой выполнения прикладных программ на системе «Эльбрус» служит ОС «Эльбрус» (кто бы мог подумать!), являющаяся доработанной разновидностью ОС Linux с ядром 2.6.33, скомпилированной целиком из общедоступных исходников. Заметим, что хотя это ядро является достаточно старым, оно поддерживает работу подавляющего большинства современных библиотек, и несмотря на это, идёт полным ходом адаптация для ОС нового ядра 3.10.

Чтобы обеспечить работу существующих приложений на процессоре «Эльбрус», применяется механизм двоичной трансляции (другое его название – «битовый компилятор»). Он существует в двух вариантах: уровня системы и уровня приложений. Первый из них начинает работу сразу после включения питания, с загрузкой в память компактного транслятора, хранящегося в микросхеме флеш-памяти, расположенной на системной плате. При этом для всех загружаемых позже программ, включая ОС, процессор становится неотличим от любого x86-совместимого процессора, позволяя запускать хоть Windows, хоть Mac OS, хоть Linux, или любую другую операционную систему, например, такую экзотическую, как Колибри ОС, или IBM OS/2.

Такая совместимость достигается ценой некоторого снижения производительности, которая в режиме двоичной трансляции уменьшается примерно на 30% (справедливости ради заметим, что в текущей версии транслятора для процессора "Эльбрус-2С+" «гостевой» ОС доступно всего лишь одно ядро, но в новой версии, для "Эльбрус-4С", этот недостаток исправлен). Разумеется, все специфические особенности процессора, о которых мы ещё расскажем, будут при этом недоступны.

Существует и другая разновидность битового транслятора — уровня приложений. При этом процессор стартует в нативном режиме, и на нём запускается ОС «Эльбрус» (или другая ОС, скомпилированная в кодах Эльбрус), а после её загрузки запускается специальное приложение-эмулятор, позволяющее, одновременно с нативными, запускать и x86-совместимые приложения (наподобие среды Wine в Linux). «Родные» приложения работают при этом в комфортной для себя среде, имея доступ ко всем возможностям и 100% вычислительной мощности ЦП, а «гостевые» обладают полной иллюзией запуска в среде x86, за исключением доступности системного вызова ptrace.

Процессор «Эльбрус-2С+» поддерживает битовую трансляцию только 32-разрядных кодов x86 и выполняет их на одном ядре, в то время как «Эльбрус-4С» может транслировать и 64-битные команды и поддерживает трансляцию многопоточных приложений (т.е. использующих несколько ядер процессора после трансляции).

Чем ещё интересен «Эльбрус»

Внутри процессор «Эльбрус» устроен следующим образом. Имеется 6 каналов исполнения операций, работающих параллельно, при этом до четырёх каналов могут быть использованы для чтения из памяти и до двух – для записи в память. Во всех шести каналах можно исполнять целочисленные арифметико-логические операции, в четырёх – операции с плавающей запятой. Каждый такт процессор может запустить по одной операции в каждый канал. У Эльбруса универсальный регистровый файл из 256 84-разрядных регистров; при этом есть отдельный регистровый файл для предикатов (однобитных значений) на 32 регистра. Имеется аппаратная поддержка циклов, в том числе с конвейеризацией, что повышает эффективность использования ресурсов процессора. Интересной особенностью Эльбруса является программируемое асинхронное устройство предварительной подкачки данных. У него есть встроенный буфер объемом 4 кБ для сокрытия задержек от доступа к памяти, и оно не задействует каналы исполнения операций, что позволяет освободить их для вычислний.  Поддержка спекулятивных и условных (предикатированных) вычислений позволяет уменьшить число переходов и параллельно исполнять несколько ветвей программы. Широкая команда может при максимальном заполнении задавать в одном такте до 23-х операций (и более 33-х операций при упаковке операндов в векторные команды).

Чтобы более эффективно использовать возможности аппаратуры процессора, в компилятор введена поддержка Intrinsic-функций (это специальные аппаратно-зависимые функции, заменяющие отдельные ассемблерные инструкции и позволяющие избавиться от inline-ассемблера, т.к. его использование часто нежелательно или невозможно).


6 российских сервисов-планировщиков на замену Notion: выбор ZOOM

Также «Эльбрус» имеет несколько уникальных особенностей, выгодно отличающих его от зарубежных аналогов. Одна из них — специальное оборудование для работы в составе многопроцессорных систем. Это контроллер межъядерных взаимодействий и контроллер запросов MAU, передающий запросы от каждого из ядер в системный коммутатор, и контроллер когерентных сообщений, анализирующий запросы от коммутатора и передающий их нужным ядрам. В свою очередь, системный коммутатор осуществляет обслуживание абонентов согласно политике приоритетов, обеспечивая максимально возможную загрузку межпроцессорных линков, и независимость пакетных потоков между различными парами абонентов и независимость потоков командных пакетов различного типа друг от друга. Каждый кристалл имеет три канала межпроцессорного обмена, а также возможность работать в многопроцессорной системе с общей памятью – до четырёх процессоров «Эльбрус-4С» в одной системе без дополнительных схем, и до шестнадцати – с помощью выделенного чипа-коммутатора.

Обслуживание внешних интерфейсов организовано «классическим» способом – с помощью Контроллера Периферийных Интерфейсов (КПИ), играющего роль «южного моста». Он соединяется с процессором по выделенной шине с пропускной способностью 2 Гбит/с в каждую сторону и предоставляет как привычные всем PC-интерфейсы, так и специализированные интерфейсы для промышленного применения.

Технические характеристики КПИ 

Год начала производства 2010
Техпроцесс, нм 130
Тактовая частота, МГц 250
Пропускная способность шины связи с процессором, Гбайт/с 2
Подсистема управления прерываниями 2 PIC + 1 IO_PIC
Таймеры системный, сторожевой
Число транзисторов, млн 30
Площадь кристалла, ммІ 112
Корпус HFCBGA-1156
Потребляемая мощность, Вт 6
Диапазон рабочих температур, °С –60…+85
Наработка на отказ, ч > 100000
Интерфейсы
PCI-Express (версии 1.0a) 8 линий
PCI (версии 2.3) 32/64 бита, частота 33/66 МГц
Ethernet (1 Гбит/с) 1 порт
SATA 2.0 4 порта
IDE (PATA-100) 2 порта по 2 устройства
USB 2.0 2 порта
AC-97 2-канальное стерео
RS-232/485 2 порта
IEEE-1284 (с поддержкой DMA) 1 порт
Программируемые универсальные входы-выходы GPIO 16 сигналов
IІC 4 канала
SPI 4 устройства

Источник: ZOOM.CNews

 

Безопасность превыше всего

Но самой важной особенностью процессора «Эльбрус» является обеспечение безопасности. Мы не будем вдаваться в подробности «бэкдоров» систем на основе Intel, благо что на эту тему есть что почитать на просторах Сети. В частности, не секрет, что некоторые системы могут оснащаться супервизором на основе BIOS, позволяющим осуществлять удалённые контроль и управление компьютером через сеть, а также перехват произвольных данных. Причём не только работа, но и само наличие такого супервизора не поддаются определению практически никакими современными средствами, так как его функционирование осуществляется на уровне микрокодов RISC-ядра (см. выше о том, как устроен современный микропроцессор).

Если ПК приобретается для домашнего применения, подобными проблемами можно не «заморачиваться» – вас, как того самого «неуловимого Джо», защищает факт несущественности ваших данных, которые просто никому не нужны. Но даже в этом случае будет обидно, если кто-то за океаном нажмёт некую «красную кнопку», после чего ваш ПК превратится в бесполезную груду железа. Да и возможное эмбарго на поставку даже таких, «дырявых» кристаллов со стороны стран Европы и США может существенно усложнить жизнь отечественным сборщикам ПК, а значит, и нам с вами. Учитывая текущее обострение внешнеполитической ситуации, подобный сценарий не представляется таким уж невероятным. А вот если вы собираете сеть для управления атомной электростанцией, или хотя бы металлургическим заводом, то даже самую малую возможность подобного развития событий желательно исключить в принципе. Конструируя парк ПК на основе «Эльбрус», заказчик получает всю техническую документацию, по которой можно проконтролировать отсутствие нежелательных модулей, и исходные тексты всего программного обеспечения, начиная от ОС, драйверов, и до приложений прикладного уровня.

Помимо этого, существуют отдельные аппаратные средства управлением безопасностью. Всем уже набили оскомину сообщения о брешах в системе Windows и прикладных программах (последние, впрочем, не сильно афишируются). Наиболее частая причина – ошибки переполнения буфера, позволяющие злоумышленнику запустить на атакуемой системе произвольный код. Причина кроется в общей памяти, позволяющей хранить и данные, и код. Конечно, попытки решить проблему предпринимаются, например, такие, как широко разрекламированный Execute Disable Bit в процессорах Intel (или его аналог – No eXecute Bit в процессорах AMD), но даже эта защита обходится «на раз-два» (кому интересно – вновь обращаемся к Интернету). А неразделяемый стек – вообще ахиллесова пята всех AMD/Intel систем.

Вариант, предложенный МЦСТ, – защищённый режим исполнения программ. Работа в нём происходит только с инициализированными данными, все обращения в память проверяются на принадлежность к допустимому диапазону адресов, обеспечивается межмодульная защита. Для поддержки такого режима имеется компилятор C/C++ и библиотека runtime (libc). В этом режиме обнаруживается более 98% ошибок времени выполнения, которые не удаётся диагностировать другими способами. Это позволяет не только создавать устойчивый ко взлому код, но и заметно облегчает написание любых программ, поскольку многие ошибки программирования, которые в ином случае остались бы незамеченными и привели бы к нестабильной работе программы, здесь обнаруживают себя на уровне аппаратуры и вызывают прерывание.

Некоторым недостатком защищённого режима является снижение производительности примерно на 20%, что в отдельных случаях может быть нежелательно. Есть и другая проблема: практически весь существующий в среде open source код написан так, что использует приёмы программирования, не регламентированные стандартом языка Си. Поэтому запустить ядро ОС или приложения типа LibreOffice полностью в защищённом режиме пока что невозможно –  и из-за стиля программирования, и из-за наличия в коде скрытых ошибок, которые придётся исправлять. Но можно запускать в защищённом режиме отдельные небольшие программы, наиболее критичные с точки зрения информационной безопасности, и они будут работать со стопроцентной надёжностью.

Даже в обычном, «незащищённом» режиме работы «Эльбруса», надёжность системы ко взлому значительно повышается, поскольку стек связующей информации (цепочка адресов возврата при процедурных вызовах) отделен в нём от стека пользовательских данных и недоступен из программного кода. Это заметно затрудняет такой популярный вид атаки, как подмена адреса возврата.

Окончание следует

Подробное описание возможностей процессора «Эльбрус» можно продолжать долго, но, к сожалению, оно значительно превосходит ограниченные рамки обзорной статьи. В последней, заключительной части, мы опишем существующие в настоящий момент практические примеры реализации систем на его основе, перспективы серийного производства, а также результаты тестирования производительности. Следите за новостями!

Версия для печати