ACE от AMD и Intel: новый единый стандарт матричных AI-вычислений для x86-процессоров

ACE — совместная инициатива AMD и Intel по стандартизации матричных вычислений на x86

В начале 2025 года AMD и Intel создали инициативу x86 Ecosystem Advisory Group (EAG) с целью укрепить позиции классической архитектуры x86 перед лицом усиливающейся конкуренции со стороны ARM и RISC-V. Первым практическим результатом этой совместной работы стала публикация финальной спецификации ACE (AI Compute Extensions) — нового стандарта матричного ускорения, ориентированного на все классы x86-процессоров: от мобильных чипов в ноутбуках до мощных серверных решений для центров обработки данных.

По данным разработчиков, вычислительная плотность ACE в 16 раз превышает показатели AVX10, а среди коммерческих процессорных архитектур этот стандарт первым реализовал поддержку форматов данных OCP MX с аппаратным блочным масштабированием.

Почему потребовался новый стандарт

Матричное умножение — фундаментальная операция в обучении и инференсе нейронных сетей, больших языковых моделей и других задач современного ИИ. Традиционные SIMD-расширения, в том числе AVX10, исторически ориентированы на векторную обработку: они способны выполнять матричные операции, однако их архитектура не оптимизирована для двумерного умножения с накоплением.

Ключевые ограничения AVX при работе с матрицами:

Одномерная (векторная) модель данных не соответствует двумерной природе матричных операций
Ограниченное число одновременных умножений за такт (64 умножения для 512-битных векторов)
Отсутствие нативной поддержки современных форматов малой точности (FP8, MX FP4 и т.д.)

ACE проектировался именно для устранения этих узких мест.

Техническая архитектура ACE: Tile-регистры и outer-product операции

Вместо привычной линейной модели регистров ACE вводит восемь двумерных Tile-регистров размером 16×16 с 32-битной точностью. Ключевая операция — outer-product (внешнее произведение).

Как это работает на аппаратном уровне:

Одна outer-product операция потребляет два 512-битных AVX-регистра, каждый из которых представляет матрицу 16×4 с 8-битными элементами.
На каждом из 256 пересечений сетки 16×16 аппаратура вычисляет внутреннее произведение между векторами размером 1×4 и 4×1.
Результаты всех 256 произведений одновременно накапливаются в Tile-регистре.
Итоговое количество умножений за такт — 1024, что в 16 раз больше, чем при стандартном AVX-подходе (64 умножения за такт на 512-битных векторах).

Важная деталь: ACE не заменяет, а дополняет существующую векторную архитектуру AVX10. Он повторно использует те же физические регистры, что и AVX10, обеспечивая обратную совместимость. Процессор с поддержкой ACE v1 обязан поддерживать определённый базовый набор инструкций AVX10.2.

Поддерживаемые форматы данных

Спецификация ACE охватывает 11 форматов данных, удовлетворяя требованиям как классических вычислительных задач, так и современных ИИ-нагрузок:

Стандартные форматы:

INT8, INT32
FP32 (одинарная точность)
FP16, BF16 (половинная точность)
FP8 по стандарту OCP OFP8

Масштабируемые форматы OCP MX (впервые в коммерческих CPU):

MX FP8
MX FP6
MX FP4
MX INT8

Форматы серии MX (Microscaling) используют встроенное блочное масштабирование: группам элементов назначается общий масштабный коэффициент, что позволяет значительно сократить объём передаваемых данных при минимальной потере точности. Именно эти форматы активно применяются в современных GPU при квантовании и инференсе LLM-моделей. Появление аналогичной поддержки в CPU означает, что x86-процессоры смогут выполнять инференс квантованных моделей без выгрузки данных на ускоритель.

Интеграция с программным стеком

Сами по себе аппаратные расширения бесполезны без поддержки со стороны инструментов разработки. AMD и Intel заявили об активной работе над добавлением поддержки ACE в ключевые библиотеки и фреймворки:

NumPy и SciPy — базовые научные вычисления на Python
PyTorch — ведущий фреймворк для обучения и инференса нейронных сетей
TensorFlow — широко применяемый в промышленном ML

Интеграция на уровне этих инструментов означает, что разработчики смогут использовать преимущества ACE без переписывания кода — достаточно будет обновить библиотеки.

Значение для рынка серверного оборудования

ACE — это стратегически важный шаг для экосистемы x86, особенно в контексте серверного сегмента, где всё более значимую роль играют ИИ-нагрузки. В отличие от хаотичной истории с AVX-512 (где разные производители реализовывали различные подмножества и отключали поддержку в зависимости от поколения), ACE изначально разрабатывается как единая, согласованная спецификация обоих ведущих x86-производителей.

Что это означает на практике:

Разработчики ПО смогут ориентироваться на единый программный интерфейс вместо написания кода под конкретного вендора
Серверное оборудование на базе ACE-процессоров будет совместимо с единым стеком ИИ-инструментов
x86-серверы смогут конкурентно выполнять инференс квантованных моделей без обязательного наличия дополнительных AI-ускорителей

Процессоры с поддержкой ACE ещё не анонсированы, а массовое появление технологии на рынке прогнозируется не ранее 2027 года. Тем не менее публикация финальной спецификации — важный сигнал для рынка: x86-платформа движется к унифицированной экосистеме ИИ-ускорения, способной на равных конкурировать с ARM-решениями, у которых аналогичные матричные расширения (например, SME/SME2) уже реализованы.

Итог

Спецификация ACE представляет собой качественный сдвиг в подходе AMD и Intel к ИИ-вычислениям на x86. Совместный стандарт, в 16 раз более эффективный, чем AVX10, с поддержкой современных форматов малой точности и интеграцией в ведущие AI-фреймворки — это фундамент для следующего поколения серверных процессоров. В СервакМастер мы следим за развитием серверных технологий и готовы помочь вам подобрать актуальное оборудование под ваши задачи. Свяжитесь с нами для консультации.