GPU-сервер ASUS ESC8000A-E13 DR на базе 8× Nvidia RTX PRO 6000 Blackwell Server Edition 96GB и AMD EPYC 9554

Теги: AMD · Нейросети · Nvidia · RTX PRO 6000

Дата публикации: 23.04.2026


Состав конфигурации

  • Серверная платформа — ASUS ESC8000A-E13 DR, поддержка до 8 GPU, блоки питания 4 × 2700W по схеме 3+1, платформа SP5 — 1 шт.
  • Процессоры — AMD EPYC 9554, 64 ядра / 128 потоков, 3.1–3.75 GHz, 360W — 2 шт.
  • Оперативная память — 32GB DDR5 ECC REG SK Hynix 4800 MHz 1Rx4 [HMCG84MEBRA174N] — 24 шт. (общий объём 768 GB).
  • Видеокарты — Nvidia VVDN RTX PRO 6000 Blackwell Server Edition 96GB GDDR7 [900-2G153-0210-301] — 8 шт. (общий объём видеопамяти 768 GB).
  • Накопители — SSD Solidigm D7-PS1010 1.92TB 2.5" [SB5PH27X019T] — 4 шт. (общий объём 7.68 TB).
  • Сетевая карта — Mellanox MCX653106A-HDAT, 2 × QSFP56, 200GbE — 1 шт.

О проекте

Команда СервакМастер собрала этот высокоплотный GPU-сервер для клиентов, которым необходима максимальная концентрация вычислительной мощности в одном корпусе. В основе лежит платформа ASUS ESC8000A-E13 DR — одно из наиболее ёмких серверных шасси, рассчитанных на полное заполнение восемью профессиональными GPU. Конфигурация ориентирована на задачи, где критически важны параллельные вычисления, стабильность под длительной нагрузкой и высокая пропускная способность: обучение и инференс нейросетей, HPC-симуляции, многопоточная аналитика и обработка визуального контента в промышленных масштабах.


Процессорная подсистема: AMD EPYC 9554

Вычислительная основа сервера — два процессора AMD EPYC 9554 с архитектурой Zen 4. Каждый из них несёт 64 физических ядра и 128 потоков, а суммарно оба CPU образуют пул из 128 ядер и 256 потоков с тактовыми частотами 3.1–3.75 GHz и TDP 360W каждый.

Такой процессорный контур выполняет сразу несколько ролей в GPU-сервере:

  • Оркестрация GPU-нагрузок — CPU управляет очередями задач, распределяет данные между ускорителями и координирует работу восьми GPU без узких мест.
  • Предобработка данных — многоядерная архитектура позволяет выполнять ресурсоёмкие ETL-операции, токенизацию и аугментацию датасетов прямо на сервере, без выгрузки на внешние узлы.
  • Виртуализация — платформа SP5 поддерживает создание изолированных вычислительных доменов для нескольких арендаторов или проектов с разделением GPU-ресурсов.
  • Корпоративные сервисы — сервер одновременно может обслуживать вычислительные и инфраструктурные задачи, не теряя производительности на каждом из направлений.

Важно, что AMD EPYC 9554 поддерживает большое количество каналов памяти и линий PCIe 5.0, что напрямую влияет на скорость передачи данных между CPU и GPU — один из ключевых показателей в AI/HPC-системах.


Оперативная память: 768 GB DDR5 ECC REG

Подсистема памяти построена на 24 модулях SK Hynix HMCG84MEBRA174N ёмкостью 32 GB каждый. Итоговый объём — 768 GB оперативной памяти с поддержкой коррекции ошибок (ECC REG).

Характеристики модулей:

  • Тип: DDR5 ECC Registered
  • Частота: 4800 MHz
  • Конфигурация: 1Rx4
  • Производитель: SK Hynix

768 GB оперативной памяти — это не избыточный запас, а осмысленное решение для конфигураций с 8 GPU. Большой пул RAM позволяет:

  • Хранить в оперативной памяти крупные датасеты целиком, исключая постоянное обращение к дискам во время обучения.
  • Поддерживать длинные пайплайны обработки с многочисленными промежуточными состояниями.
  • Обеспечивать надёжную работу при длительных вычислительных сессиях без риска переполнения памяти.
  • Развёртывать несколько независимых рабочих окружений одновременно.

ECC-коррекция критически важна для серверов, работающих круглосуточно под высокой нагрузкой — она предотвращает накопление ошибок в памяти, которые в без-ECC системах способны приводить к непредсказуемым сбоям в самый неподходящий момент.


Ускорители: 8× Nvidia RTX PRO 6000 Blackwell Server Edition 96GB

Центральный элемент конфигурации — восемь профессиональных GPU Nvidia RTX PRO 6000 Blackwell Server Edition с артикулом 900-2G153-0210-301. Каждый ускоритель оснащён 96 GB видеопамяти GDDR7, а суммарный объём видеопамяти в сервере достигает 768 GB.

Почему RTX PRO 6000 Blackwell Server Edition, а не обычная RTX 6000?

Server Edition — это версия GPU, оптимизированная специально для серверного применения:

  • Пассивная система охлаждения вместо активной — воздушный поток в стойке обеспечивают серверные вентиляторы шасси, а не кулер самой карты. Это повышает надёжность и упрощает замену.
  • Расширенный диапазон рабочих температур и повышенная допустимая нагрузка по циклам включения/выключения.
  • Более высокий уровень гарантийного обслуживания и поддержка расширенных сроков службы в корпоративных ЦОД.
  • Совместимость с системами мониторинга и управления GPU на уровне платформы (IPMI/BMC).

Что открывает 96 GB GDDR7 на каждом GPU?

Объём видеопамяти — один из самых дефицитных ресурсов при работе с современными AI-моделями. 96 GB на ускоритель позволяют:

  • Загружать и запускать крупные языковые модели (LLM) объёмом десятки и сотни миллиардов параметров без квантизации или сплиттинга.
  • Работать с высокоразрешёнными 3D-сценами, рендерингом и симуляциями в одном буфере.
  • Реализовывать multi-GPU обучение с тензорным параллелизмом без жёстких ограничений по батч-размеру.
  • Держать в памяти GPU сразу несколько моделей для быстрого переключения между задачами инференса.

При суммарных 768 GB видеопамяти этот сервер способен обслуживать многотенантные AI-сервисы или выступать как единый GPU-узел в кластере, принимающий самые тяжёлые задачи.


Хранилище: 4× SSD Solidigm D7-PS1010 1.92TB

Дисковая подсистема реализована на четырёх enterprise-накопителях Solidigm D7-PS1010 форм-фактора 2.5" с ёмкостью 1.92 TB каждый (артикул SB5PH27X019T). Суммарная ёмкость хранилища — 7.68 TB.

D7-PS1010 относится к линейке Solidigm для дата-центров: высокая скорость последовательного чтения и записи, поддержка очередей команд глубиной 64K, оптимизированный ресурс записи для смешанных рабочих нагрузок. В GPU-сервере такого класса локальные SSD выполняют несколько функций:

  • Рабочие датасеты — быстрое чтение обучающих данных без задержек от сети.
  • Кеш и чекпоинты — промежуточное сохранение состояний моделей во время обучения.
  • Системный раздел и контейнеры — быстрый запуск рабочих окружений и Docker/Kubernetes-компонентов.
  • Буфер обмена — временное хранение данных при передаче между узлами кластера.

Сетевое подключение: Mellanox MCX653106A-HDAT 200GbE

Сетевой адаптер Mellanox MCX653106A-HDAT обеспечивает два порта QSFP56 с пропускной способностью 200 GbE каждый. Это решение класса InfiniBand/Ethernet, которое позволяет:

  • Интегрировать сервер в высокоскоростную сетевую инфраструктуру ЦОД без узких мест на уровне передачи данных.
  • Поддерживать RDMA (Remote Direct Memory Access) для снижения задержек в распределённых вычислительных сценариях.
  • Обеспечивать стабильную пропускную способность при передаче крупных датасетов между узлами кластера.
  • Работать с NVLink/GPUDirect для прямой передачи данных между GPU разных серверов без участия CPU.

Для GPU-сервера с 8 ускорителями и суммарными 768 GB видеопамяти сеть 200GbE — это минимально необходимый уровень подключения, который не превращается в узкое место при интенсивном обмене данными.


Система питания: 4× 2700W по схеме 3+1

Четыре блока питания по 2700W с резервированием по схеме 3+1 — это не просто мощность, а архитектурное решение для надёжности. При выходе из строя одного PSU система продолжает работу без прерывания. Горячая замена БП позволяет устранить неисправность без остановки сервера.

Суммарная доступная мощность 10800W (3 × 2700W в рабочем режиме) обеспечивает стабильное питание всех 8 GPU под полной нагрузкой с учётом пиковых потреблений процессоров, памяти и дисков. В реальных сценариях обучения нейросетей GPU-серверы нередко работают при 80–95% от пикового TDP часами и сутками подряд — схема 3+1 делает такую эксплуатацию безопасной и предсказуемой.


Для каких задач подходит эта конфигурация

Сфера применения Почему подходит
Обучение LLM и диффузионных моделей 768 GB видеопамяти позволяют работать с моделями любого масштаба
Инференс AI-сервисов Высокая плотность GPU-памяти — несколько моделей одновременно
HPC и научные симуляции 256 потоков CPU + 8 GPU для смешанных вычислительных задач
Рендеринг и 3D-визуализация RTX PRO Blackwell с RT-ядрами ускоряет трассировку лучей
Аналитика больших данных Объём RAM и быстрые SSD для работы с датасетами в памяти
GPU-кластеры и распределённые системы 200GbE + RDMA для быстрого обмена между узлами

Почему СервакМастер

СервакМастер специализируется на сборке и поставке серверного оборудования для задач ИИ, HPC и корпоративных вычислений. Каждая конфигурация проходит тестирование перед отправкой, а в каталоге представлены решения от одиночных GPU-узлов до полноценных кластеров под ключ.

Если вас интересует аналогичная или адаптированная под ваши задачи конфигурация — свяжитесь с нами, и мы подберём оптимальное решение с учётом ваших требований по производительности, бюджету и инфраструктуре.


Фотографии