GPU серверы NVIDIA HGX — высокопроизводительные платформы для ИИ и HPC

Товаров: 5

GPU серверы NVIDIA HGX: платформа для задач ИИ и высокопроизводительных вычислений

Серия NVIDIA HGX — это профессиональные вычислительные платформы, специально разработанные для самых требовательных задач: обучения и инференса нейросетей, научного моделирования, обработки больших данных и высокопроизводительных вычислений (HPC). В каталоге «СервакМастер» представлен широкий ассортимент серверов на базе NVIDIA HGX с различными конфигурациями GPU, объёмами памяти и форм-факторами.

Что такое платформа NVIDIA HGX

NVIDIA HGX — это эталонная базовая плата (baseboard), на которой размещаются от 4 до 16 ускорителей NVIDIA серии A100 или H100, объединённых высокоскоростной шиной NVLink. Благодаря NVLink третьего поколения GPU внутри одного сервера обмениваются данными со скоростью до 600 ГБ/с, что в десятки раз превышает пропускную способность стандартной шины PCIe. Это делает платформу HGX идеальным выбором для задач, требующих плотного взаимодействия между ускорителями в рамках одного узла.

Производители серверного оборудования — Supermicro, Dell, ASUS и другие партнёры NVIDIA — выпускают системы на базе HGX в различных форм-факторах: от стандартных стоечных 4U/8U до компактных решений с прямым жидкостным охлаждением.

Ключевые преимущества GPU серверов на платформе HGX

  • Масштабируемость: поддержка от 4 до 16 GPU в одном узле, возможность объединения нескольких узлов через InfiniBand для построения кластеров.
  • Высокая пропускная способность памяти: ускорители A100 80 ГБ и H100 80 ГБ SXM обеспечивают суммарный объём GPU-памяти до 1280 ГБ в одном сервере.
  • Интерконнект NVLink / NVSwitch: сквозная связность между всеми GPU без узких мест PCIe; в конфигурациях с 8 GPU каждый ускоритель видит остальные 7 напрямую.
  • Поддержка InfiniBand HDR/NDR: для объединения нескольких узлов HGX в мультиузловые кластеры с низкой латентностью.
  • Готовность к мультиарендности (MIG): технология Multi-Instance GPU на A100 и H100 позволяет делить один ускоритель на до 7 независимых изолированных экземпляров.

Популярные конфигурации в каталоге «СервакМастер»

Серверы на NVIDIA HGX A100

  • 4× NVIDIA A100 SXM4 80 ГБ — оптимальный баланс между ценой и производительностью для среднего ML-кластера; суммарно 320 ГБ GPU-памяти.
  • 8× NVIDIA A100 SXM4 80 ГБ — флагманская конфигурация для крупных задач обучения трансформерных моделей; 640 ГБ суммарно, полная NVSwitch-связность.

Серверы на NVIDIA HGX H100

  • 4× NVIDIA H100 SXM5 80 ГБ — следующее поколение ускорителей с архитектурой Hopper; производительность FP8 до 4 PFLOPS на узел; 320 ГБ GPU-памяти.
  • 8× NVIDIA H100 SXM5 80 ГБ — максимальная производительность в одном узле; 640 ГБ GPU-памяти; поддержка Transformer Engine для ускорения работы с LLM-моделями.

Технические характеристики ускорителей

Параметр A100 SXM4 80 ГБ H100 SXM5 80 ГБ
Архитектура Ampere Hopper
Объём HBM2e/HBM3 80 ГБ 80 ГБ
Пропускная способность памяти 2 ТБ/с 3,35 ТБ/с
Производительность FP16 (TF32) 312 ТFLOPS 989 ТFLOPS
TDP (тепловой пакет) 400 Вт 700 Вт
Интерконнект NVLink NVLink 3.0, 600 ГБ/с NVLink 4.0, 900 ГБ/с

Области применения

GPU серверы NVIDIA HGX ориентированы на профессиональные задачи корпоративного и научного класса:

  • Обучение больших языковых моделей (LLM) — GPT-класса, многомодальных и других архитектур с десятками миллиардов параметров.
  • Инференс в масштабе — обслуживание высоконагруженных API с требованиями по латентности.
  • Компьютерное зрение и обработка изображений — обучение моделей для медицинской диагностики, промышленного контроля качества, автономных систем.
  • Молекулярное моделирование и биоинформатика — расчёты структур белков, геномный анализ.
  • Рендеринг и генеративный ИИ — диффузионные модели, синтез видео и изображений.
  • Финансовое моделирование и риск-аналитика — Монте-Карло и другие симуляции, требующие параллельных вычислений.

Охлаждение и энергопотребление

Серверы на базе HGX с 8 ускорителями H100 потребляют до 10–12 кВт на узел, что требует тщательного планирования инфраструктуры. «СервакМастер» предлагает решения как с воздушным охлаждением (требуется ЦОД с нормой на стойку от 20 кВт), так и с прямым жидкостным охлаждением (DLC — Direct Liquid Cooling), позволяющим снизить нагрузку на системы кондиционирования и повысить плотность размещения.

Как выбрать сервер NVIDIA HGX

При выборе конфигурации рекомендуется учитывать:

  1. Объём модели: для обучения модели с 70 млрд параметров в BF16 потребуется ~140 ГБ GPU-памяти — минимум 2 ускорителя A100/H100 80 ГБ.
  2. Частота задач инференса: высоконагруженный инференс выигрывает от большего числа GPU и быстрого NVLink-интерконнекта.
  3. Бюджет на инфраструктуру: учитывайте стоимость электроэнергии, охлаждения и сетевого оборудования (InfiniBand-свитчи).
  4. Масштабируемость: если планируется расширение кластера, заранее выберите совместимую сетевую фабрику.

Специалисты «СервакМастер» готовы помочь подобрать оптимальную конфигурацию под ваши задачи и бюджет — свяжитесь с нами для получения консультации.

Доставка и гарантия

«СервакМастер» осуществляет доставку GPU серверов NVIDIA HGX по Москве, Санкт-Петербургу и другим городам России. На всё оборудование предоставляется официальная гарантия производителя. Возможна инсталляция и пусконаладка силами наших специалистов.