AMD Instinct MI325X обгоняет NVIDIA H200 в MLPerf Training 5.0: разбор результатов

AMD Instinct MI325X против NVIDIA H200: итоги MLPerf Training 5.0

4 июня 2025 года были опубликованы результаты бенчмарка MLPerf Training 5.0 — одного из наиболее авторитетных отраслевых тестирований в сфере ускорителей для машинного обучения. Впервые AMD выступила в этом соревновании достаточно уверенно, чтобы говорить о реальном сокращении разрыва с NVIDIA. В данной статье команда СервакМастер подробно разбирает, что показали ускорители серии Instinct, какую роль сыграл программный стек ROCm и как выглядят итоги в сравнении с решениями конкурентов.

Зачем AMD нужен MLPerf Training 5.0

Рынок самостоятельного обучения ИИ-моделей стремительно растёт. Всё больше крупных компаний предпочитают не использовать готовые предобученные LLM, а дообучать собственные модели под конкретные задачи. Особую популярность приобрела методика LoRA (Low-Rank Adaptation) — подход к тонкой настройке нейросетей, при котором основная часть весов модели замораживается и квантуется, а в процессе обучения обновляется лишь небольшой набор дополнительных параметров.

Это существенно снижает требования к памяти GPU и вычислительным ресурсам, делая тонкую настройку крупных моделей доступной даже на менее мощных кластерах. Именно поэтому производители ИИ-ускорителей заинтересованы в демонстрации максимальной эффективности в LoRA-сценариях.

AMD для решения этих задач предлагает:

ИИ-ускорители Instinct MI300X и Instinct MI325X
Программный стек ROCm с поддержкой Flash Attention и Transformer Engine

Участие в MLPerf Training 5.0 позволило AMD зафиксировать и публично подтвердить конкурентоспособность своих решений в задаче тонкой настройки Llama* 2-70B-LoRA.

Результаты AMD Instinct в тестах MLPerf 5.0

MI325X против H200: +8% в пользу AMD

Главный итог тестирования — ускорители AMD Instinct MI325X опередили NVIDIA H200 по скорости обучения модели Llama* 2-70B-LoRA примерно на 8%. Это значимый результат: ещё несколько лет назад AMD серьёзно отставала от NVIDIA по обоим направлениям — как в инференсе, так и в обучении. Сейчас разрыв стремительно сокращается.

Важная оговорка: MI325X сравнивается с H200, то есть с поколением Hopper, а не с новейшими ускорителями Blackwell (GB200). Тем не менее это честный показатель прогресса, который сделала AMD за последние два года.

MI300X против H100: +4% производительности

Менее флагманский Instinct MI300X тоже выглядит убедительно на фоне NVIDIA H100 — прирост составляет около 4% при схожих совокупных затратах на платформу. Прирост небольшой, однако в условиях дефицита H100 и более доступной цены на решения AMD это делает MI300X привлекательной альтернативой для задач обучения моделей среднего масштаба.

Партнёры AMD в тестировании: OEM-результаты

Помимо референсных конфигураций, в MLPerf Training 5.0 приняли участие системы на базе Instinct от крупнейших OEM-производителей. Все они решали одну задачу — тонкую настройку Llama* 2-70B-LoRA — в различных инфраструктурных окружениях.

Supermicro — лучший результат для MI325X

Supermicro представила GPU-систему на базе Instinct MI325X с жидкостным охлаждением, зафиксировав время обучения 21,75 минуты — лучший показатель среди всех платформ на MI325X. Жидкостное охлаждение позволило поддерживать оптимальный тепловой режим и обеспечивать стабильную производительность при длительных нагрузках.

MangoBoost — масштабирование на MI300X

MangoBoost продемонстрировала гибкость ускорителей Instinct MI300X в многоузловых конфигурациях:

8 GPU MI300X — 29,6 минуты
16 GPU MI300X — 16,32 минуты
32 GPU MI300X — 10,92 минуты

Линейное масштабирование с увеличением числа ускорителей подтверждает зрелость аппаратной и программной части платформы AMD для кластерного обучения.

Dell — стабильный средний результат

Dell с платформой на базе 8 GPU Instinct MI300X завершила обучение за 28,99 минуты — результат, близкий к средним показателям по группе.

Oracle — самый медленный среди OEM

Oracle показала наименее быстрый результат в группе MI300X, завершив обучение за 30,42 минуты на конфигурации из 8 GPU. Вероятно, сказываются особенности облачной инфраструктуры и сетевого стека.

Gigabyte — MI325X в восьмиускорительной конфигурации

Gigabyte использовала платформу на базе 8 GPU MI325X и показала результат 22,1 минуты — чуть хуже, чем у Supermicro с жидкостным охлаждением, но значительно лучше всех MI300X-платформ.

QCT — близко к Gigabyte

QCT с аналогичной конфигурацией MI325X (8 GPU) завершила обучение за 22,43 минуты, подтвердив стабильность результатов этого ускорителя в стандартных серверных сборках.

Разрыв между MI300X и MI325X

Сравнение результатов двух поколений ускорителей AMD даёт чёткую картину: Instinct MI325X быстрее MI300X примерно на 30% в задачах обучения LLM. Это объясняется увеличенным объёмом памяти HBM3E, расширенной пропускной способностью и улучшенной поддержкой смешанной точности в MI325X.

Для заказчиков, которые планируют развернуть ИИ-кластер на базе AMD, это принципиальный выбор: MI325X оправдан при регулярном обучении крупных моделей, тогда как MI300X остаётся экономически эффективным выбором для инференса и дообучения небольших моделей.

Роль программного стека ROCm v6.5

AMD особо подчёркивает, что высокие результаты в MLPerf Training 5.0 достигнуты совместными усилиями аппаратного и программного обеспечения. В тестировании использовался ROCm v6.5 — версия, которая на момент публикации результатов ещё не была доступна широкой аудитории.

Ключевые программные компоненты, обеспечившие рост производительности:

Flash Attention — существенно снижает потребление памяти при работе с длинными контекстами
Transformer Engine — оптимизирует вычисления в смешанной точности (FP8/BF16)
Оптимизация на уровне оптимизатора — тонкая настройка алгоритмов обновления весов
Оптимизированный контейнер Docker — воспроизводимое и предсказуемое окружение для обучения

AMD последовательно закрывает программные пробелы, которые долгое время были главным аргументом против перехода с CUDA на ROCm. Сегодня для задач тонкой настройки LLM экосистема ROCm уже не уступает CUDA по удобству и производительности.

Сравнение с результатами NVIDIA

Честный взгляд на MLPerf Training 5.0 не должен обходить стороной результаты NVIDIA. Компания представила ускорители GB200 на архитектуре Blackwell — и их показатели значительно опережают MI325X.

8 GPU GB200 (кластер NVL72): обучение Llama* 2-70B-LoRA завершено за 10,34 минуты
Это более чем в 2 раза быстрее, чем лучший результат на MI325X (21,75 мин у Supermicro)
При обучении Stable Diffusion v2 кластер GB200 справился за 12,86 минуты
Кластер из 512 чипов GB200 (NVL72) обучил Llama* 3.1 405B за 121,09 минуты

Таким образом, AMD на сегодняшний день опережает H200 (архитектура Hopper), но по-прежнему существенно отстаёт от актуального флагмана Blackwell. Это отставание на одно поколение — вполне ожидаемая ситуация с учётом темпов разработки обеих компаний.

Что ждать дальше от AMD

На конференции Advance AI 2025 AMD анонсировала выход следующего поколения ускорителей — Instinct MI350X и Instinct MI355X. Если прогресс между MI300X и MI325X составил около 30%, то переход на MI350X/MI355X может существенно сократить разрыв с GB200. Плюс к этому, NVIDIA уже работает над архитектурой Rubin, что означает: гонка только ускоряется.

Для покупателей серверного оборудования вывод прост: ускорители AMD Instinct уже сегодня являются обоснованным выбором для задач обучения и тонкой настройки LLM, особенно если приоритет — стоимость вычислений, а не максимальная пиковая скорость. Если вас интересуют серверы на базе AMD Instinct MI300X или MI325X, специалисты СервакМастер помогут подобрать оптимальную конфигурацию — свяжитесь с нами через форму на сайте.

Выводы

AMD убедительно дебютировала в MLPerf Training 5.0, показав результаты лучше NVIDIA H200 на Instinct MI325X. Компания планомерно реализует стратегию AMD 2.0, закрывая программные пробелы ROCm и выпуская более производительные поколения ускорителей. Однако NVIDIA с Blackwell по-прежнему лидирует с двукратным преимуществом, и сохранение этих позиций — серьёзный вызов для AMD на ближайшие год-два.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена