Nvidia HGX, DGX и MGX: подробный разбор платформ для ИИ и HPC от СервакМастер

Введение

Nvidia давно вышла за рамки игровой индустрии и стала ключевым игроком в сегменте высокопроизводительных вычислений и разработки искусственного интеллекта. Сегодня продукция компании формирует инфраструктуру крупнейших датацентров, исследовательских лабораторий и облачных платформ по всему миру. Чтобы закрыть потребности разных типов заказчиков, Nvidia выпускает несколько линеек серверных платформ: HGX, DGX и MGX. Каждая из них ориентирована на определённый круг задач и предлагает свой уровень гибкости в настройке. В этой статье команда СервакМастер подробно разберёт, что представляет собой каждая из этих платформ, чем они отличаются друг от друга и в каких случаях стоит выбирать ту или иную.

Что такое Nvidia DGX?

Nvidia DGX — это флагманская линейка готовых серверных систем, которые Nvidia проектирует, комплектует и продаёт как законченное решение «из коробки». Инженеры компании самостоятельно подбирают все компоненты: графические ускорители, серверные процессоры, высокоскоростные сетевые адаптеры ConnectX, системы охлаждения и программную среду. В результате покупатель получает сервер, полностью оптимизированный для задач глубокого обучения нейронных сетей, запуска больших языковых моделей, научного моделирования и инференса ИИ.

Ключевое преимущество DGX-систем — отсутствие необходимости в самостоятельной интеграции компонентов. Всё, что нужно для работы, уже настроено производителем: от драйверов и программного стека CUDA до библиотек машинного обучения. Именно поэтому DGX популярен среди исследовательских центров, университетов и крупных технологических компаний, которым важна скорость развёртывания, а не гибкость конфигурирования.

Внутри каждого DGX-сервера установлен GPU-модуль HGX — по сути, это «сердце» всей системы. Таким образом, DGX является надстройкой над HGX-платформой, дополненной тщательно подобранными периферийными компонентами.

Стоимость платформ DGX

На рынке сегодня представлено несколько актуальных версий DGX-серверов на базе архитектур Ampere и Hopper. Наиболее востребованной моделью среди корпоративных заказчиков остаётся Nvidia DGX H200, построенный на ускорителях H200 с архитектурой Hopper. Стоимость подобных систем в зависимости от конфигурации, количества GPU и объёма памяти варьируется в диапазоне от $300 000 до $400 000.

Вместе с тем стоит учитывать, что DGX-серверы — это относительно редкий товар на рынке. По оценкам, порядка 90% продаж серверного оборудования Nvidia приходится не на DGX, а на платформу HGX. Это объясняется тем, что HGX-решения предоставляют значительно большую гибкость в выборе комплектующих и лучше подходят для крупных инфраструктурных проектов, где важна возможность масштабирования и кастомизации.

Что такое HGX?

Nvidia HGX — это специализированный аппаратный GPU-модуль, основу которого составляют ускорители в форм-факторе SXM. Nvidia не продаёт HGX конечным пользователям напрямую: модуль передаётся партнёрам-производителям серверного оборудования, которые на его основе создают собственные серверные решения. Такими партнёрами являются Supermicro, Dell, HPE, Lenovo, H3C и другие вендоры.

Принципиальное отличие HGX от DGX состоит в том, что Nvidia в данном случае не диктует выбор CPU, DPU и прочих компонентов — эти решения остаются на усмотрение партнёра. Именно поэтому на базе одного HGX-модуля могут существовать десятки различных серверных конфигураций, оптимизированных под конкретные рабочие нагрузки.

HGX-модуль представляет собой монолитную печатную плату, на которой размещено 8 ускорителей SXM, соединённых между собой через высокоскоростной интерконнект NVLink/NVSwitch. Именно наличие NVSwitch отличает HGX от решений на основе обычных PCIe-ускорителей: пропускная способность между GPU в HGX-конфигурации значительно выше, что критически важно при обучении крупных моделей ИИ.

Серверы на платформе Nvidia HGX

Платформа HGX развивается поколение за поколением вместе с архитектурами GPU. Рассмотрим основные из них.

Поколение Ampere — HGX A100

HGX A100 вышла в июне 2021 года и стала первым широко распространённым решением для коммерческих задач глубокого обучения. Платформа поддерживает форматы вычислений с пониженной точностью, что позволяет существенно ускорить обучение нейронных сетей при разумном расходе памяти. Охлаждение — исключительно воздушное.

Стандартные характеристики HGX A100:

Графические процессоры — до 8 GPU Nvidia A100 80 GB
Суммарный объём памяти — до 640 GB HBM2

Типичный пример серверной платформы на базе HGX A100 — Supermicro GPU SuperServer SYS-420GP-TNAR+. Этот сервер широко применяется в задачах машинного обучения, аналитики больших данных и инференса моделей компьютерного зрения.

Поколение Hopper — HGX H100 и H200

HGX H100 и H200 — наиболее распространённые на сегодняшний день HGX-платформы. Версия H100 вышла в ноябре 2022 года, H200 — в 2023 году. Архитектура Hopper принесла существенный прирост производительности по сравнению с Ampere: поддержку формата вычислений FP8, увеличенную пропускную способность памяти и улучшенный механизм трансформерного движка (Transformer Engine).

В поколении H100 появилась конфигурация «Delta Next» с жидкостным охлаждением вместо воздушного — это решение стало востребованным в высокоплотных датацентрах, где воздушное охлаждение создаёт ограничения по тепловыделению.

Стандартные характеристики HGX H200:

Графические процессоры — до 8 GPU Nvidia H200 141 GB
Суммарный объём памяти — до 1128 GB HBM3E

Примером сервера на платформе HGX H200 служит Dell PowerEdge XE9680 с процессорами Intel Xeon Platinum — эта система широко используется в задачах машинного и глубокого обучения, а также для запуска крупных языковых моделей в промышленной среде.

Поколение Blackwell — HGX B100 и B200

HGX B100 и B200 — следующее поколение HGX-платформ на архитектуре Blackwell. Их выход на рынок запланирован на первый квартал 2025 года. Ускорители B100 и B200 обеспечат принципиально новый уровень производительности для задач ИИ: архитектура Blackwell поддерживает новые форматы вычислений с пониженной точностью — FP4 и FP6, что позволит обрабатывать в разы больше параметров модели при той же потребляемой мощности.

Ожидаемые характеристики HGX B200:

Графические процессоры — до 8 GPU Nvidia B200 180 GB
Суммарный объём памяти — до 1440 GB HBM3E

Supermicro уже анонсировала сервер AS-A126GS-TNBR на основе модуля HGX B200 с процессорами AMD EPYC Turin — одна из первых систем, сочетающих флагманскую платформу Nvidia с новейшим поколением серверных CPU от AMD.

Что такое Nvidia MGX?

Nvidia MGX — это модульная серверная платформа, представленная компанией в 2023 году. Её главное отличие от HGX и DGX заключается в принципиально иной концепции проектирования: если HGX — это конкретный GPU-модуль, а DGX — готовый сервер, то MGX — это стандарт сборки, позволяющий конфигурировать сервер практически с нуля.

В рамках платформы MGX заказчик или производитель сначала выбирает архитектуру шасси, а затем последовательно подбирает CPU, GPU, DPU и прочие компоненты из одобренного Nvidia каталога. При этом поддерживается сочетание GPU разных поколений в рамках одного шасси — функция, недоступная в HGX-конфигурациях.

Важной особенностью MGX является поддержка процессоров Nvidia Grace (CPU на архитектуре ARM), которые не могут использоваться в традиционных HGX-системах. Система GB200 NVL2, анонсированная Nvidia, объединяет в одном узле 2 процессора Grace и 2 GPU Blackwell — именно такие суперчипы станут основой MGX-серверов нового поколения.

Благодаря модульности платформа MGX поддерживает более 100 различных конфигураций, что делает её применимой в самых разнообразных сценариях: разработка ИИ, высокопроизводительные вычисления, развёртывание облачных сервисов, обработка видеопотоков, периферийные вычисления (edge computing) и даже облачный гейминг.

Преимущества платформы MGX

Универсальность — MGX подходит для широкого спектра задач, выходящих за рамки ИИ и HPC: здравоохранение, медиаобработка, телеком, краевые вычисления.
Гибкость конфигурирования — заказчик платит только за те компоненты, которые ему действительно нужны, не переплачивая за избыточную производительность.
Совместимость поколений GPU — возможность интегрировать более современные ускорители без замены всей системы снижает совокупную стоимость владения.
Поддержка Nvidia Grace CPU — открывает сценарии использования, недоступные для HGX-платформ.
Доступность для малого и среднего бизнеса — модульная архитектура позволяет начать с минимальной конфигурации и масштабировать её по мере роста потребностей.

Недостатки платформы MGX

Основной технический недостаток MGX связан с ограниченной поддержкой NVLink. В отличие от HGX, где NVSwitch обеспечивает высокоскоростную связь между всеми 8 ускорителями модуля, в MGX NVLink действует только в пределах суперчипа (например, Grace Blackwell). За пределами суперчипа ускорители соединяются через PCIe, что существенно снижает пропускную способность межпроцессорного обмена данными.

Это делает MGX менее оптимальной для задач, требующих плотного взаимодействия между большим числом GPU, — например, для обучения крупных языковых моделей с триллионами параметров. В подобных сценариях HGX остаётся более предпочтительным выбором благодаря полному NVLink-мешу между всеми ускорителями модуля.

Заключение

Разобравшись в архитектуре каждой из платформ, можно подвести итог. Nvidia DGX — это эталонные, полностью готовые к работе серверные системы с максимальной производительностью «из коробки»; их выбирают там, где важна скорость развёртывания и нет ресурсов на самостоятельную интеграцию. Nvidia HGX — это GPU-модули для партнёрских серверов, которые лежат в основе подавляющего большинства профессиональных ИИ-серверов на рынке; они оптимальны для крупных нагрузок в области обучения нейронных сетей и высокопроизводительных вычислений. Nvidia MGX — это максимально гибкая модульная платформа, открытая для широкого круга применений; она подходит как для небольших компаний с ограниченным бюджетом, так и для организаций, которым нужна конфигурация под нестандартные рабочие нагрузки.

Если вы планируете построить инфраструктуру на базе одной из этих платформ или хотите подобрать оптимальную конфигурацию — свяжитесь с нами. СервакМастер поможет выбрать решение, которое точно соответствует вашим задачам и бюджету.