AMD Instinct MI325X против NVIDIA H200: итоги MLPerf Training 5.0
4 июня 2025 года были опубликованы результаты бенчмарка MLPerf Training 5.0 — одного из наиболее авторитетных отраслевых тестирований в сфере ускорителей для машинного обучения. Впервые AMD выступила в этом соревновании достаточно уверенно, чтобы говорить о реальном сокращении разрыва с NVIDIA. В данной статье команда СервакМастер подробно разбирает, что показали ускорители серии Instinct, какую роль сыграл программный стек ROCm и как выглядят итоги в сравнении с решениями конкурентов.
Зачем AMD нужен MLPerf Training 5.0
Рынок самостоятельного обучения ИИ-моделей стремительно растёт. Всё больше крупных компаний предпочитают не использовать готовые предобученные LLM, а дообучать собственные модели под конкретные задачи. Особую популярность приобрела методика LoRA (Low-Rank Adaptation) — подход к тонкой настройке нейросетей, при котором основная часть весов модели замораживается и квантуется, а в процессе обучения обновляется лишь небольшой набор дополнительных параметров.
Это существенно снижает требования к памяти GPU и вычислительным ресурсам, делая тонкую настройку крупных моделей доступной даже на менее мощных кластерах. Именно поэтому производители ИИ-ускорителей заинтересованы в демонстрации максимальной эффективности в LoRA-сценариях.
AMD для решения этих задач предлагает:
- ИИ-ускорители Instinct MI300X и Instinct MI325X
- Программный стек ROCm с поддержкой Flash Attention и Transformer Engine
Участие в MLPerf Training 5.0 позволило AMD зафиксировать и публично подтвердить конкурентоспособность своих решений в задаче тонкой настройки Llama* 2-70B-LoRA.
Результаты AMD Instinct в тестах MLPerf 5.0
MI325X против H200: +8% в пользу AMD
Главный итог тестирования — ускорители AMD Instinct MI325X опередили NVIDIA H200 по скорости обучения модели Llama* 2-70B-LoRA примерно на 8%. Это значимый результат: ещё несколько лет назад AMD серьёзно отставала от NVIDIA по обоим направлениям — как в инференсе, так и в обучении. Сейчас разрыв стремительно сокращается.
Важная оговорка: MI325X сравнивается с H200, то есть с поколением Hopper, а не с новейшими ускорителями Blackwell (GB200). Тем не менее это честный показатель прогресса, который сделала AMD за последние два года.
MI300X против H100: +4% производительности
Менее флагманский Instinct MI300X тоже выглядит убедительно на фоне NVIDIA H100 — прирост составляет около 4% при схожих совокупных затратах на платформу. Прирост небольшой, однако в условиях дефицита H100 и более доступной цены на решения AMD это делает MI300X привлекательной альтернативой для задач обучения моделей среднего масштаба.
Партнёры AMD в тестировании: OEM-результаты
Помимо референсных конфигураций, в MLPerf Training 5.0 приняли участие системы на базе Instinct от крупнейших OEM-производителей. Все они решали одну задачу — тонкую настройку Llama* 2-70B-LoRA — в различных инфраструктурных окружениях.
Supermicro — лучший результат для MI325X
Supermicro представила GPU-систему на базе Instinct MI325X с жидкостным охлаждением, зафиксировав время обучения 21,75 минуты — лучший показатель среди всех платформ на MI325X. Жидкостное охлаждение позволило поддерживать оптимальный тепловой режим и обеспечивать стабильную производительность при длительных нагрузках.
MangoBoost — масштабирование на MI300X
MangoBoost продемонстрировала гибкость ускорителей Instinct MI300X в многоузловых конфигурациях:
- 8 GPU MI300X — 29,6 минуты
- 16 GPU MI300X — 16,32 минуты
- 32 GPU MI300X — 10,92 минуты
Линейное масштабирование с увеличением числа ускорителей подтверждает зрелость аппаратной и программной части платформы AMD для кластерного обучения.
Dell — стабильный средний результат
Dell с платформой на базе 8 GPU Instinct MI300X завершила обучение за 28,99 минуты — результат, близкий к средним показателям по группе.
Oracle — самый медленный среди OEM
Oracle показала наименее быстрый результат в группе MI300X, завершив обучение за 30,42 минуты на конфигурации из 8 GPU. Вероятно, сказываются особенности облачной инфраструктуры и сетевого стека.
Gigabyte — MI325X в восьмиускорительной конфигурации
Gigabyte использовала платформу на базе 8 GPU MI325X и показала результат 22,1 минуты — чуть хуже, чем у Supermicro с жидкостным охлаждением, но значительно лучше всех MI300X-платформ.
QCT — близко к Gigabyte
QCT с аналогичной конфигурацией MI325X (8 GPU) завершила обучение за 22,43 минуты, подтвердив стабильность результатов этого ускорителя в стандартных серверных сборках.
Разрыв между MI300X и MI325X
Сравнение результатов двух поколений ускорителей AMD даёт чёткую картину: Instinct MI325X быстрее MI300X примерно на 30% в задачах обучения LLM. Это объясняется увеличенным объёмом памяти HBM3E, расширенной пропускной способностью и улучшенной поддержкой смешанной точности в MI325X.
Для заказчиков, которые планируют развернуть ИИ-кластер на базе AMD, это принципиальный выбор: MI325X оправдан при регулярном обучении крупных моделей, тогда как MI300X остаётся экономически эффективным выбором для инференса и дообучения небольших моделей.
Роль программного стека ROCm v6.5
AMD особо подчёркивает, что высокие результаты в MLPerf Training 5.0 достигнуты совместными усилиями аппаратного и программного обеспечения. В тестировании использовался ROCm v6.5 — версия, которая на момент публикации результатов ещё не была доступна широкой аудитории.
Ключевые программные компоненты, обеспечившие рост производительности:
- Flash Attention — существенно снижает потребление памяти при работе с длинными контекстами
- Transformer Engine — оптимизирует вычисления в смешанной точности (FP8/BF16)
- Оптимизация на уровне оптимизатора — тонкая настройка алгоритмов обновления весов
- Оптимизированный контейнер Docker — воспроизводимое и предсказуемое окружение для обучения
AMD последовательно закрывает программные пробелы, которые долгое время были главным аргументом против перехода с CUDA на ROCm. Сегодня для задач тонкой настройки LLM экосистема ROCm уже не уступает CUDA по удобству и производительности.
Сравнение с результатами NVIDIA
Честный взгляд на MLPerf Training 5.0 не должен обходить стороной результаты NVIDIA. Компания представила ускорители GB200 на архитектуре Blackwell — и их показатели значительно опережают MI325X.
- 8 GPU GB200 (кластер NVL72): обучение Llama* 2-70B-LoRA завершено за 10,34 минуты
- Это более чем в 2 раза быстрее, чем лучший результат на MI325X (21,75 мин у Supermicro)
- При обучении Stable Diffusion v2 кластер GB200 справился за 12,86 минуты
- Кластер из 512 чипов GB200 (NVL72) обучил Llama* 3.1 405B за 121,09 минуты
Таким образом, AMD на сегодняшний день опережает H200 (архитектура Hopper), но по-прежнему существенно отстаёт от актуального флагмана Blackwell. Это отставание на одно поколение — вполне ожидаемая ситуация с учётом темпов разработки обеих компаний.
Что ждать дальше от AMD
На конференции Advance AI 2025 AMD анонсировала выход следующего поколения ускорителей — Instinct MI350X и Instinct MI355X. Если прогресс между MI300X и MI325X составил около 30%, то переход на MI350X/MI355X может существенно сократить разрыв с GB200. Плюс к этому, NVIDIA уже работает над архитектурой Rubin, что означает: гонка только ускоряется.
Для покупателей серверного оборудования вывод прост: ускорители AMD Instinct уже сегодня являются обоснованным выбором для задач обучения и тонкой настройки LLM, особенно если приоритет — стоимость вычислений, а не максимальная пиковая скорость. Если вас интересуют серверы на базе AMD Instinct MI300X или MI325X, специалисты СервакМастер помогут подобрать оптимальную конфигурацию — свяжитесь с нами через форму на сайте.
Выводы
AMD убедительно дебютировала в MLPerf Training 5.0, показав результаты лучше NVIDIA H200 на Instinct MI325X. Компания планомерно реализует стратегию AMD 2.0, закрывая программные пробелы ROCm и выпуская более производительные поколения ускорителей. Однако NVIDIA с Blackwell по-прежнему лидирует с двукратным преимуществом, и сохранение этих позиций — серьёзный вызов для AMD на ближайшие год-два.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
