ACE — совместная инициатива AMD и Intel по стандартизации матричных вычислений на x86
В начале 2025 года AMD и Intel создали инициативу x86 Ecosystem Advisory Group (EAG) с целью укрепить позиции классической архитектуры x86 перед лицом усиливающейся конкуренции со стороны ARM и RISC-V. Первым практическим результатом этой совместной работы стала публикация финальной спецификации ACE (AI Compute Extensions) — нового стандарта матричного ускорения, ориентированного на все классы x86-процессоров: от мобильных чипов в ноутбуках до мощных серверных решений для центров обработки данных.
По данным разработчиков, вычислительная плотность ACE в 16 раз превышает показатели AVX10, а среди коммерческих процессорных архитектур этот стандарт первым реализовал поддержку форматов данных OCP MX с аппаратным блочным масштабированием.
Почему потребовался новый стандарт
Матричное умножение — фундаментальная операция в обучении и инференсе нейронных сетей, больших языковых моделей и других задач современного ИИ. Традиционные SIMD-расширения, в том числе AVX10, исторически ориентированы на векторную обработку: они способны выполнять матричные операции, однако их архитектура не оптимизирована для двумерного умножения с накоплением.
Ключевые ограничения AVX при работе с матрицами:
- Одномерная (векторная) модель данных не соответствует двумерной природе матричных операций
- Ограниченное число одновременных умножений за такт (64 умножения для 512-битных векторов)
- Отсутствие нативной поддержки современных форматов малой точности (FP8, MX FP4 и т.д.)
ACE проектировался именно для устранения этих узких мест.
Техническая архитектура ACE: Tile-регистры и outer-product операции
Вместо привычной линейной модели регистров ACE вводит восемь двумерных Tile-регистров размером 16×16 с 32-битной точностью. Ключевая операция — outer-product (внешнее произведение).
Как это работает на аппаратном уровне:
- Одна outer-product операция потребляет два 512-битных AVX-регистра, каждый из которых представляет матрицу 16×4 с 8-битными элементами.
- На каждом из 256 пересечений сетки 16×16 аппаратура вычисляет внутреннее произведение между векторами размером 1×4 и 4×1.
- Результаты всех 256 произведений одновременно накапливаются в Tile-регистре.
- Итоговое количество умножений за такт — 1024, что в 16 раз больше, чем при стандартном AVX-подходе (64 умножения за такт на 512-битных векторах).
Важная деталь: ACE не заменяет, а дополняет существующую векторную архитектуру AVX10. Он повторно использует те же физические регистры, что и AVX10, обеспечивая обратную совместимость. Процессор с поддержкой ACE v1 обязан поддерживать определённый базовый набор инструкций AVX10.2.
Поддерживаемые форматы данных
Спецификация ACE охватывает 11 форматов данных, удовлетворяя требованиям как классических вычислительных задач, так и современных ИИ-нагрузок:
Стандартные форматы:
- INT8, INT32
- FP32 (одинарная точность)
- FP16, BF16 (половинная точность)
- FP8 по стандарту OCP OFP8
Масштабируемые форматы OCP MX (впервые в коммерческих CPU):
- MX FP8
- MX FP6
- MX FP4
- MX INT8
Форматы серии MX (Microscaling) используют встроенное блочное масштабирование: группам элементов назначается общий масштабный коэффициент, что позволяет значительно сократить объём передаваемых данных при минимальной потере точности. Именно эти форматы активно применяются в современных GPU при квантовании и инференсе LLM-моделей. Появление аналогичной поддержки в CPU означает, что x86-процессоры смогут выполнять инференс квантованных моделей без выгрузки данных на ускоритель.
Интеграция с программным стеком
Сами по себе аппаратные расширения бесполезны без поддержки со стороны инструментов разработки. AMD и Intel заявили об активной работе над добавлением поддержки ACE в ключевые библиотеки и фреймворки:
- NumPy и SciPy — базовые научные вычисления на Python
- PyTorch — ведущий фреймворк для обучения и инференса нейронных сетей
- TensorFlow — широко применяемый в промышленном ML
Интеграция на уровне этих инструментов означает, что разработчики смогут использовать преимущества ACE без переписывания кода — достаточно будет обновить библиотеки.
Значение для рынка серверного оборудования
ACE — это стратегически важный шаг для экосистемы x86, особенно в контексте серверного сегмента, где всё более значимую роль играют ИИ-нагрузки. В отличие от хаотичной истории с AVX-512 (где разные производители реализовывали различные подмножества и отключали поддержку в зависимости от поколения), ACE изначально разрабатывается как единая, согласованная спецификация обоих ведущих x86-производителей.
Что это означает на практике:
- Разработчики ПО смогут ориентироваться на единый программный интерфейс вместо написания кода под конкретного вендора
- Серверное оборудование на базе ACE-процессоров будет совместимо с единым стеком ИИ-инструментов
- x86-серверы смогут конкурентно выполнять инференс квантованных моделей без обязательного наличия дополнительных AI-ускорителей
Процессоры с поддержкой ACE ещё не анонсированы, а массовое появление технологии на рынке прогнозируется не ранее 2027 года. Тем не менее публикация финальной спецификации — важный сигнал для рынка: x86-платформа движется к унифицированной экосистеме ИИ-ускорения, способной на равных конкурировать с ARM-решениями, у которых аналогичные матричные расширения (например, SME/SME2) уже реализованы.
Итог
Спецификация ACE представляет собой качественный сдвиг в подходе AMD и Intel к ИИ-вычислениям на x86. Совместный стандарт, в 16 раз более эффективный, чем AVX10, с поддержкой современных форматов малой точности и интеграцией в ведущие AI-фреймворки — это фундамент для следующего поколения серверных процессоров. В СервакМастер мы следим за развитием серверных технологий и готовы помочь вам подобрать актуальное оборудование под ваши задачи. Свяжитесь с нами для консультации.
