DGX OS от NVIDIA: архитектура серверной операционной системы для задач ИИ и высокопроизводительных вычислений


Введение

Когда NVIDIA анонсировала компактный ИИ-суперкомпьютер DGX Spark, большинство обсуждений крутилось вокруг производительности GPU, характеристик центрального процессора и скоростных сетевых интерфейсов. Вопрос об операционной системе оставался в тени — а между тем за работу устройств семейства DGX отвечает фирменная ОС самой NVIDIA под названием DGX OS. На первый взгляд может показаться, что это просто Ubuntu с зелёной темой оформления, но при детальном изучении картина оказывается значительно интереснее. В этой статье специалисты СервакМастер разбирают, что представляет собой DGX OS, чем она принципиально отличается от обычных Linux-дистрибутивов и какие продвинутые функции в неё заложены.


Что такое DGX OS и почему это не «просто Ubuntu»

DGX OS — операционная система, лежащая в основе всей линейки вычислительных платформ NVIDIA DGX: DGX A100, H100, H200, B200, B300, DGX Station A100, а также новейших DGX Spark. Формально она базируется на Ubuntu LTS, однако представляет собой значительно большее, чем просто «Ubuntu с драйверами» — это законченная инфраструктурная платформа, где каждая версия ядра, драйвера и библиотеки синхронизирована и сертифицирована NVIDIA для стабильного воспроизводимого выполнения ИИ- и HPC-нагрузок.

Инженеры NVIDIA внесли обширные изменения в ядро Linux, добавив проприетарные патчи для максимально эффективной работы GPU-драйверов, NVLink-интерконнектов и NVSwitch-фабрик. Поверх этого базового слоя предустановлены и плотно интегрированы службы DCGM (Data Center GPU Manager), NVSM (NVIDIA System Management) и Fabric Manager, которые обеспечивают мониторинг, управление и балансировку GPU-ресурсов на уровне датацентра.

DGX OS также играет ключевую роль в экосистеме NVIDIA ARM: она предоставляет стабильную сертифицированную среду для систем на базе процессоров Grace и их комбинаций с GPU поколений Hopper и Blackwell, устраняя типичные проблемы несовместимости ARM-сборок и предлагая полностью интегрированный стек NVIDIA.

Интерфейс DGX OS на DGX Spark. Источник: The Register.

Главная цель DGX OS — создать полностью детерминированную среду, в которой обновления и патчи проходят сертификацию NVIDIA и не нарушают стабильность вычислительного стека. Эта философия делает операционную систему особенно ценной для крупномасштабных кластеров на тысячи GPU, где сбой даже одного узла способен прервать многомесячный процесс обучения ИИ-модели или вывести из строя облачный сервис.

Примечательно, что DGX OS существует давно: её разработали ещё во времена систем DGX-1 и DGX-2, тогда она носила название DGX Base OS. Актуальная версия DGX OS 7 перешла на Ubuntu 24.04 LTS с ядром Linux 6.8 и добавила поддержку ARM-платформ NVIDIA Grace и GPU Blackwell, обеспечив архитектурную унификацию между x86- и ARM-узлами.


DGX OS на платформах HGX и MGX

Официально DGX OS распространяется только вместе с системами линейки NVIDIA DGX и не поддерживается на сторонних OEM-платформах HGX. Несмотря на то что HGX-узлы используют идентичные GPU-модули, NVSwitch-интерконнекты и архитектурно схожие бэкплейны, NVIDIA не поставляет DGX OS как самостоятельный продукт для сторонних интеграторов. Для HGX-серверов производства Supermicro, Dell, HPE и других вендоров применяется стандартная экосистема NVIDIA AI Enterprise и GPU Operator, но не DGX OS — она остаётся частью закрытого DGX-пакета, поставляемого исключительно с фирменным оборудованием NVIDIA.

На платформы NVIDIA MGX (основанные на CPU Grace Hopper GH200 и Grace Blackwell GB200) DGX OS также не распространяется напрямую. MGX позиционируется как модульная OEM-архитектура, и для неё NVIDIA поставляет собственные сборки на базе Ubuntu LTS с интеграцией AI Enterprise, DCGM и NVSM. Хотя DGX OS 7 формально включает ARM-ядро, его использование ограничено только фирменными DGX-системами NVIDIA с процессорами Grace. Для MGX-серверов производители применяют одобренные NVIDIA дистрибутивы, а не тот же образ DGX OS, что в DGX-линейке.


На чём основана DGX OS: Ubuntu LTS плюс ядро с патчами NVIDIA

Как уже было отмечено выше, DGX OS строится на фундаменте Ubuntu LTS, но с каждым выпуском накапливала всё больше модификаций. Хронология изменений выглядит следующим образом:

  • DGX OS 5 — Ubuntu 20.04 LTS, ядро Linux 5.4: добавлена поддержка GPU A100 и NVSwitch 2.
  • DGX OS 6 — Ubuntu 22.04 LTS, ядро Linux 5.15: оптимизация под H100 и NVLink 4.
  • DGX OS 7 — Ubuntu 24.04 LTS, ядро Linux 6.8: поддержка ARM-платформ и архитектуры Blackwell.

Помимо ядра, NVIDIA заменяет ряд ключевых системных пакетов Ubuntu. Фирменный репозиторий dgx-release содержит модифицированные пакеты initramfs, модули для работы с GPU, прошивки NVSwitch и скрипты для автоматического обнаружения топологии NVLink. Версии glibc и systemd следуют базовому LTS-выпуску Ubuntu, но включают патчи для совместимости с GPU-драйверами и MIG-партиционированием. Система также задействует Ubuntu Pro ESM (Extended Security Maintenance) и применяет механизм kernel pinning: обновление ядра возможно только через пакеты, прошедшие тестирование NVIDIA, что полностью исключает несовместимости между драйверами и модулями ядра.

Объём изменений в DGX OS настолько велик, что узнать в ней стандартный Ubuntu становится всё труднее. Перефразируя парадокс корабля Тесея: если заменить в системе ядро, пакеты, репозитории, инструменты управления и весь GPU-стек — остаётся ли это Ubuntu или перед нами совершенно другая операционная система?


GPU-стек в DGX OS: CUDA, NCCL, TensorRT и DCGM из коробки

DGX OS поставляется с полным предварительно настроенным GPU-стеком. В его состав входят:

  • Драйверы серий R535, R570 и R580.
  • CUDA версий 12 и 13.
  • cuDNN 9, TensorRT 10, NCCL 2.28, NVSHMEM.
  • Fabric Manager и прошивки NVSwitch, управляемые службами NVSM.
  • Поддержка GPUDirect Storage, MPS (Multi-Process Service) и MIG (Multi-Instance GPU) на уровне ядра.

Благодаря MIG и MPS система балансирует нагрузку между несколькими ИИ-моделями без потери производительности.

Все компоненты стека строго синхронизированы, а обновления поставляются единым пакетом через официальные репозитории NVIDIA. Это избавляет разработчиков от типичных болей Linux-окружений, где версии CUDA, Python и PyTorch могут конфликтовать друг с другом. Компактная рабочая станция DGX Spark с CPU Grace и GPU Blackwell использует тот же DGX OS 7, что и кластерные серверы DGX B200. Код, написанный и отлаженный на Spark, масштабируется на кластер без ошибок и пересборок.


Сетевой стек: InfiniBand, RoCE и MOFED в комплекте

DGX Spark и другие системы DGX можно объединять в кластеры — и в этом тоже есть заслуга фирменной операционной системы NVIDIA. DGX OS изначально рассчитана на работу с высокопроизводительными сетевыми адаптерами NVIDIA ConnectX, поэтому в поставку входит стек DOCA OFED 2.9 (или Mellanox OFED 23.x). Это обеспечивает:

  • Работу InfiniBand и RoCE.
  • GPUDirect RDMA для прямого обмена данными между GPU-узлами.
  • Режим RoCE, включённый по умолчанию для Ethernet.
  • Подписанные модули ядра для совместимости с Secure Boot.
  • Тонкую настройку задержек: ECN-параметры, IRQ-affinity и IOMMU pass-through.

DGX OS строго контролирует совместимость между версиями ядра, OFED и прошивками сетевых адаптеров, исключая ситуации, когда обновление ядра ломает RDMA-путь.


Контейнеризация и оркестрация: NGC, Docker и Slurm без сложной настройки

DGX OS поставляется с готовой средой контейнеризации. В составе:

  • nvidia-container-toolkit 1.17+, Docker и containerd, преднастроенные для GPU-контейнеров.
  • Поддержка Kubernetes через NVIDIA GPU Operator.
  • Поддержка Slurm через Enroot и Pyxis.

Таким образом, кластером на DGX OS можно управлять как через контейнерный оркестратор, так и через классический планировщик HPC. Интеграция с NVIDIA GPU Cloud (NGC) работает из коробки: достаточно выполнить docker run --gpus all nvcr.io/..., чтобы запустить готовый контейнер с PyTorch, TensorFlow или Megatron-LM. DGX OS служит нижним уровнем для кластерной платформы Base Command и пакета NVIDIA AI Enterprise, расширяющих возможности управления и виртуализации на уровне организации.


Обновления и жизненный цикл DGX OS

Перед каждым выпуском NVIDIA тщательно проверяет все обновления, поэтому релизы DGX OS выходят дважды в год — как правило, в феврале и августе. Поддержка каждой ветки сохраняется до 10 лет. Обновления поступают через официальные репозитории NVIDIA и включают pinning для драйвера, CUDA и ядра. Это делает команду apt upgrade максимально безопасной: пользователь получает только проверенные комбинации пакетов. Попытка установить внешние ядра или подключить сторонние репозитории может нарушить стек MOFED и GPU-драйверов, поэтому NVIDIA настоятельно рекомендует использовать исключительно официальные каналы обновлений.


Доступ, лицензии и поддержка

DGX OS не распространяется отдельно: она входит в комплект оборудования DGX и доступна через портал NVIDIA Enterprise Support или NGC. Установка возможна только на сертифицированные системы с идентифицированным платформенным контроллером. Пакет AI Enterprise используется для виртуализированных и OEM-сценариев, однако сама DGX OS остаётся фундаментом для их развёртывания. Поддержка Secure Boot и соответствие требованиям FIPS и ESM достигаются через Ubuntu Pro, что критически важно при эксплуатации DGX OS в корпоративных и государственных инфраструктурах.


Поддерживаемые платформы: от DGX H100 до Spark на Grace

DGX OS унифицирована для всех актуальных платформ NVIDIA. Она работает на DGX A100, H100, H200, DGX Station A100 и новом DGX Spark на архитектуре Grace / Blackwell. Соответствие платформ минимальным версиям ОС:

Платформа Минимальная версия DGX OS
DGX A100 5.1.3+
DGX H100 6.0.11+
DGX H200 6.3.2+
DGX Station A100 5.2.1+
DGX Spark (Grace / Blackwell) 7.2.3+

Единая ОС для x86 и ARM-архитектур — одна из ключевых особенностей DGX OS, позволяющая разворачивать одни и те же модели и инструменты как на компактных Spark, так и на серверных DGX B200 без каких-либо доработок.


Почему важно использовать DGX OS, а не Ubuntu с драйверами вручную

Опытный системный администратор, DevOps-инженер или ML-специалист теоретически может самостоятельно собрать корректное окружение на чистом Ubuntu, тщательно сверив версии CUDA, драйверов, NCCL и ядра, а также задав соответствующие pinned-пакеты. Однако этот путь крайне трудоёмок: он требует ручной синхронизации зависимостей и регулярных бэкапов, особенно при каждом обновлении компонентов. DGX OS — это не единственно возможное решение для работы с оборудованием DGX, но скорее корпоративный шорткат, который экономит огромное количество времени и снижает риски несовместимости, обеспечивая корректную работу всего стека ПО прямо из коробки.


Выводы

DGX OS — решение, предназначенное для тех, кто строит или эксплуатирует ИИ-инфраструктуру в производственной среде на базе оборудования NVIDIA. Для DevOps-инженеров, ML-специалистов и системных администраторов эта операционная система представляет реальную ценность:

  • Контейнеры NGC готовы к запуску без дополнительной настройки.
  • Интегрированный мониторинг через DCGM и NVSM.
  • Оптимизированный сетевой стек с поддержкой InfiniBand и RoCE.
  • Полное отсутствие проблем совместимости для NVLink, NVSwitch и GPU-драйверов.
  • Перенос рабочих нагрузок между платформами в несколько шагов.

Всё это работает стабильно как в компактных персональных системах DGX Spark, так и в масштабных ИИ-кластерах на тысячи GPU.

Если вас интересует серверное оборудование NVIDIA или вы хотите подобрать оптимальное решение для ИИ-задач — свяжитесь с нами в СервакМастер.


Автор: редакция СервакМастер