DGX OS от NVIDIA: архитектура серверной операционной системы для задач ИИ и высокопроизводительных вычислений
Введение
Когда NVIDIA анонсировала компактный ИИ-суперкомпьютер DGX Spark, большинство обсуждений крутилось вокруг производительности GPU, характеристик центрального процессора и скоростных сетевых интерфейсов. Вопрос об операционной системе оставался в тени — а между тем за работу устройств семейства DGX отвечает фирменная ОС самой NVIDIA под названием DGX OS. На первый взгляд может показаться, что это просто Ubuntu с зелёной темой оформления, но при детальном изучении картина оказывается значительно интереснее. В этой статье специалисты СервакМастер разбирают, что представляет собой DGX OS, чем она принципиально отличается от обычных Linux-дистрибутивов и какие продвинутые функции в неё заложены.
Что такое DGX OS и почему это не «просто Ubuntu»
DGX OS — операционная система, лежащая в основе всей линейки вычислительных платформ NVIDIA DGX: DGX A100, H100, H200, B200, B300, DGX Station A100, а также новейших DGX Spark. Формально она базируется на Ubuntu LTS, однако представляет собой значительно большее, чем просто «Ubuntu с драйверами» — это законченная инфраструктурная платформа, где каждая версия ядра, драйвера и библиотеки синхронизирована и сертифицирована NVIDIA для стабильного воспроизводимого выполнения ИИ- и HPC-нагрузок.
Инженеры NVIDIA внесли обширные изменения в ядро Linux, добавив проприетарные патчи для максимально эффективной работы GPU-драйверов, NVLink-интерконнектов и NVSwitch-фабрик. Поверх этого базового слоя предустановлены и плотно интегрированы службы DCGM (Data Center GPU Manager), NVSM (NVIDIA System Management) и Fabric Manager, которые обеспечивают мониторинг, управление и балансировку GPU-ресурсов на уровне датацентра.
DGX OS также играет ключевую роль в экосистеме NVIDIA ARM: она предоставляет стабильную сертифицированную среду для систем на базе процессоров Grace и их комбинаций с GPU поколений Hopper и Blackwell, устраняя типичные проблемы несовместимости ARM-сборок и предлагая полностью интегрированный стек NVIDIA.

Главная цель DGX OS — создать полностью детерминированную среду, в которой обновления и патчи проходят сертификацию NVIDIA и не нарушают стабильность вычислительного стека. Эта философия делает операционную систему особенно ценной для крупномасштабных кластеров на тысячи GPU, где сбой даже одного узла способен прервать многомесячный процесс обучения ИИ-модели или вывести из строя облачный сервис.
Примечательно, что DGX OS существует давно: её разработали ещё во времена систем DGX-1 и DGX-2, тогда она носила название DGX Base OS. Актуальная версия DGX OS 7 перешла на Ubuntu 24.04 LTS с ядром Linux 6.8 и добавила поддержку ARM-платформ NVIDIA Grace и GPU Blackwell, обеспечив архитектурную унификацию между x86- и ARM-узлами.
DGX OS на платформах HGX и MGX
Официально DGX OS распространяется только вместе с системами линейки NVIDIA DGX и не поддерживается на сторонних OEM-платформах HGX. Несмотря на то что HGX-узлы используют идентичные GPU-модули, NVSwitch-интерконнекты и архитектурно схожие бэкплейны, NVIDIA не поставляет DGX OS как самостоятельный продукт для сторонних интеграторов. Для HGX-серверов производства Supermicro, Dell, HPE и других вендоров применяется стандартная экосистема NVIDIA AI Enterprise и GPU Operator, но не DGX OS — она остаётся частью закрытого DGX-пакета, поставляемого исключительно с фирменным оборудованием NVIDIA.
На платформы NVIDIA MGX (основанные на CPU Grace Hopper GH200 и Grace Blackwell GB200) DGX OS также не распространяется напрямую. MGX позиционируется как модульная OEM-архитектура, и для неё NVIDIA поставляет собственные сборки на базе Ubuntu LTS с интеграцией AI Enterprise, DCGM и NVSM. Хотя DGX OS 7 формально включает ARM-ядро, его использование ограничено только фирменными DGX-системами NVIDIA с процессорами Grace. Для MGX-серверов производители применяют одобренные NVIDIA дистрибутивы, а не тот же образ DGX OS, что в DGX-линейке.
На чём основана DGX OS: Ubuntu LTS плюс ядро с патчами NVIDIA
Как уже было отмечено выше, DGX OS строится на фундаменте Ubuntu LTS, но с каждым выпуском накапливала всё больше модификаций. Хронология изменений выглядит следующим образом:
- DGX OS 5 — Ubuntu 20.04 LTS, ядро Linux 5.4: добавлена поддержка GPU A100 и NVSwitch 2.
- DGX OS 6 — Ubuntu 22.04 LTS, ядро Linux 5.15: оптимизация под H100 и NVLink 4.
- DGX OS 7 — Ubuntu 24.04 LTS, ядро Linux 6.8: поддержка ARM-платформ и архитектуры Blackwell.
Помимо ядра, NVIDIA заменяет ряд ключевых системных пакетов Ubuntu. Фирменный репозиторий dgx-release содержит модифицированные пакеты initramfs, модули для работы с GPU, прошивки NVSwitch и скрипты для автоматического обнаружения топологии NVLink. Версии glibc и systemd следуют базовому LTS-выпуску Ubuntu, но включают патчи для совместимости с GPU-драйверами и MIG-партиционированием. Система также задействует Ubuntu Pro ESM (Extended Security Maintenance) и применяет механизм kernel pinning: обновление ядра возможно только через пакеты, прошедшие тестирование NVIDIA, что полностью исключает несовместимости между драйверами и модулями ядра.
Объём изменений в DGX OS настолько велик, что узнать в ней стандартный Ubuntu становится всё труднее. Перефразируя парадокс корабля Тесея: если заменить в системе ядро, пакеты, репозитории, инструменты управления и весь GPU-стек — остаётся ли это Ubuntu или перед нами совершенно другая операционная система?
GPU-стек в DGX OS: CUDA, NCCL, TensorRT и DCGM из коробки
DGX OS поставляется с полным предварительно настроенным GPU-стеком. В его состав входят:
- Драйверы серий R535, R570 и R580.
- CUDA версий 12 и 13.
- cuDNN 9, TensorRT 10, NCCL 2.28, NVSHMEM.
- Fabric Manager и прошивки NVSwitch, управляемые службами NVSM.
- Поддержка GPUDirect Storage, MPS (Multi-Process Service) и MIG (Multi-Instance GPU) на уровне ядра.
Благодаря MIG и MPS система балансирует нагрузку между несколькими ИИ-моделями без потери производительности.
Все компоненты стека строго синхронизированы, а обновления поставляются единым пакетом через официальные репозитории NVIDIA. Это избавляет разработчиков от типичных болей Linux-окружений, где версии CUDA, Python и PyTorch могут конфликтовать друг с другом. Компактная рабочая станция DGX Spark с CPU Grace и GPU Blackwell использует тот же DGX OS 7, что и кластерные серверы DGX B200. Код, написанный и отлаженный на Spark, масштабируется на кластер без ошибок и пересборок.
Сетевой стек: InfiniBand, RoCE и MOFED в комплекте
DGX Spark и другие системы DGX можно объединять в кластеры — и в этом тоже есть заслуга фирменной операционной системы NVIDIA. DGX OS изначально рассчитана на работу с высокопроизводительными сетевыми адаптерами NVIDIA ConnectX, поэтому в поставку входит стек DOCA OFED 2.9 (или Mellanox OFED 23.x). Это обеспечивает:
- Работу InfiniBand и RoCE.
- GPUDirect RDMA для прямого обмена данными между GPU-узлами.
- Режим RoCE, включённый по умолчанию для Ethernet.
- Подписанные модули ядра для совместимости с Secure Boot.
- Тонкую настройку задержек: ECN-параметры, IRQ-affinity и IOMMU pass-through.
DGX OS строго контролирует совместимость между версиями ядра, OFED и прошивками сетевых адаптеров, исключая ситуации, когда обновление ядра ломает RDMA-путь.
Контейнеризация и оркестрация: NGC, Docker и Slurm без сложной настройки
DGX OS поставляется с готовой средой контейнеризации. В составе:
- nvidia-container-toolkit 1.17+, Docker и containerd, преднастроенные для GPU-контейнеров.
- Поддержка Kubernetes через NVIDIA GPU Operator.
- Поддержка Slurm через Enroot и Pyxis.
Таким образом, кластером на DGX OS можно управлять как через контейнерный оркестратор, так и через классический планировщик HPC. Интеграция с NVIDIA GPU Cloud (NGC) работает из коробки: достаточно выполнить docker run --gpus all nvcr.io/..., чтобы запустить готовый контейнер с PyTorch, TensorFlow или Megatron-LM. DGX OS служит нижним уровнем для кластерной платформы Base Command и пакета NVIDIA AI Enterprise, расширяющих возможности управления и виртуализации на уровне организации.
Обновления и жизненный цикл DGX OS
Перед каждым выпуском NVIDIA тщательно проверяет все обновления, поэтому релизы DGX OS выходят дважды в год — как правило, в феврале и августе. Поддержка каждой ветки сохраняется до 10 лет. Обновления поступают через официальные репозитории NVIDIA и включают pinning для драйвера, CUDA и ядра. Это делает команду apt upgrade максимально безопасной: пользователь получает только проверенные комбинации пакетов. Попытка установить внешние ядра или подключить сторонние репозитории может нарушить стек MOFED и GPU-драйверов, поэтому NVIDIA настоятельно рекомендует использовать исключительно официальные каналы обновлений.
Доступ, лицензии и поддержка
DGX OS не распространяется отдельно: она входит в комплект оборудования DGX и доступна через портал NVIDIA Enterprise Support или NGC. Установка возможна только на сертифицированные системы с идентифицированным платформенным контроллером. Пакет AI Enterprise используется для виртуализированных и OEM-сценариев, однако сама DGX OS остаётся фундаментом для их развёртывания. Поддержка Secure Boot и соответствие требованиям FIPS и ESM достигаются через Ubuntu Pro, что критически важно при эксплуатации DGX OS в корпоративных и государственных инфраструктурах.
Поддерживаемые платформы: от DGX H100 до Spark на Grace
DGX OS унифицирована для всех актуальных платформ NVIDIA. Она работает на DGX A100, H100, H200, DGX Station A100 и новом DGX Spark на архитектуре Grace / Blackwell. Соответствие платформ минимальным версиям ОС:
| Платформа | Минимальная версия DGX OS |
|---|---|
| DGX A100 | 5.1.3+ |
| DGX H100 | 6.0.11+ |
| DGX H200 | 6.3.2+ |
| DGX Station A100 | 5.2.1+ |
| DGX Spark (Grace / Blackwell) | 7.2.3+ |
Единая ОС для x86 и ARM-архитектур — одна из ключевых особенностей DGX OS, позволяющая разворачивать одни и те же модели и инструменты как на компактных Spark, так и на серверных DGX B200 без каких-либо доработок.
Почему важно использовать DGX OS, а не Ubuntu с драйверами вручную
Опытный системный администратор, DevOps-инженер или ML-специалист теоретически может самостоятельно собрать корректное окружение на чистом Ubuntu, тщательно сверив версии CUDA, драйверов, NCCL и ядра, а также задав соответствующие pinned-пакеты. Однако этот путь крайне трудоёмок: он требует ручной синхронизации зависимостей и регулярных бэкапов, особенно при каждом обновлении компонентов. DGX OS — это не единственно возможное решение для работы с оборудованием DGX, но скорее корпоративный шорткат, который экономит огромное количество времени и снижает риски несовместимости, обеспечивая корректную работу всего стека ПО прямо из коробки.
Выводы
DGX OS — решение, предназначенное для тех, кто строит или эксплуатирует ИИ-инфраструктуру в производственной среде на базе оборудования NVIDIA. Для DevOps-инженеров, ML-специалистов и системных администраторов эта операционная система представляет реальную ценность:
- Контейнеры NGC готовы к запуску без дополнительной настройки.
- Интегрированный мониторинг через DCGM и NVSM.
- Оптимизированный сетевой стек с поддержкой InfiniBand и RoCE.
- Полное отсутствие проблем совместимости для NVLink, NVSwitch и GPU-драйверов.
- Перенос рабочих нагрузок между платформами в несколько шагов.
Всё это работает стабильно как в компактных персональных системах DGX Spark, так и в масштабных ИИ-кластерах на тысячи GPU.
Если вас интересует серверное оборудование NVIDIA или вы хотите подобрать оптимальное решение для ИИ-задач — свяжитесь с нами в СервакМастер.
Автор: редакция СервакМастер