Серверы и AI-системы для инференса DeepSeek R1 671B — купить в «СервакМастер»

Серверы для инференса DeepSeek R1 671B

DeepSeek R1 с 671 миллиардом параметров — одна из наиболее производительных открытых языковых моделей на сегодняшний день. Её развёртывание в production-среде требует специализированного серверного оборудования с достаточным объёмом GPU-памяти, высокоскоростными интерконнектами и надёжными системами охлаждения. В каталоге «СервакМастер» вы найдёте готовые конфигурации и отдельные компоненты для построения инфраструктуры инференса любого масштаба.


Почему DeepSeek R1 671B требует мощного железа

Модель построена на архитектуре Mixture of Experts (MoE): при каждом прямом проходе активируется лишь часть экспертных блоков, однако полный набор весов необходимо держать доступным в памяти. На практике это означает:

  • Минимум ~340–380 ГБ GPU-памяти для хранения весов в формате FP8/INT8 без потери точности
  • До 700+ ГБ при использовании BF16 или FP16
  • Высокую пропускную способность межузлового обмена — NVLink, InfiniBand или RoCE
  • Мощную дисковую подсистему для быстрой загрузки чекпоинтов (NVMe RAID)

Типовые конфигурации оборудования

Одноузловые системы (8× GPU)

Для задач с умеренной нагрузкой подходят одноузловые серверы с восемью ускорителями:

  • 8× NVIDIA H100 SXM5 80 ГБ — суммарно 640 ГБ HBM3; NVLink 4-го поколения обеспечивает пропускную способность до 900 ГБ/с между GPU; достаточно для инференса в FP8 с батчем до 32 запросов
  • 8× NVIDIA H200 SXM 141 ГБ — суммарно 1128 ГБ HBM3e; модель целиком помещается в BF16, запас по памяти позволяет увеличить batch size
  • 8× AMD Instinct MI300X 192 ГБ — суммарно 1536 ГБ HBM3; рекордный объём памяти на ускорителе, отличный вариант для крупных батчей и длинного контекста

Типичные серверные платформы для таких конфигураций: Supermicro SYS-821GE-TNHR, ASUS ESC N8-E11, Dell PowerEdge XE9680.

Многоузловые кластеры (16–32+ GPU)

При необходимости масштабирования и параллельного обслуживания десятков пользователей оптимальны кластерные решения:

  • 2 узла × 8× H100 80 ГБ — 1280 ГБ суммарной GPU-памяти; тензорный параллелизм через InfiniBand HDR 200 Гбит/с
  • 4 узла × 8× H100 80 ГБ — 2560 ГБ; конвейерный и тензорный параллелизм, пропускная способность свыше 5000 токенов/с при batch 128
  • Коммутаторы: Mellanox Quantum-2 (QM9700) или NVIDIA Spectrum-4 для минимальной задержки между узлами

Ключевые компоненты инфраструктуры

Процессоры

  • AMD EPYC 9654 (Genoa) — 96 ядер, TDP 360 Вт; превосходная связка с GPU-памятью через PCIe 5.0 x16
  • Intel Xeon Platinum 8490H (Sapphire Rapids) — 60 ядер, поддержка HBM-памяти на плате; хорош в гибридных CPU+GPU инференс-пайплайнах

Системная память

  • Минимум 512 ГБ DDR5-4800 ECC на узел для работы с токенизатором, логгированием и оркестратором
  • Рекомендуется 1–2 ТБ DDR5 при одновременном обслуживании нескольких моделей

Хранилище

  • 4–8× NVMe U.2 PCIe 5.0 7.68 ТБ в RAID 0 или striped конфигурации — скорость последовательного чтения свыше 28 ГБ/с, загрузка чекпоинта R1 671B за 30–60 секунд
  • Опция: CXL-накопители для расширения пула памяти без увеличения числа GPU

Сетевые интерфейсы

  • NVIDIA ConnectX-7 NDR 400G InfiniBand — актуально для кластеров; задержка менее 600 нс
  • ConnectX-7 200GbE RoCEv2 — экономичная альтернатива для гомогенных Ethernet-инфраструктур

Блоки питания и охлаждение

  • Двойные резервированные PSU 3000–3600 Вт на каждый узел
  • Жидкостное охлаждение (Direct Liquid Cooling) значительно снижает уровень шума и температуру GPU при TDP 700 Вт+ на узел

Программный стек для инференса

Выбор правильного оборудования — лишь половина задачи. «СервакМастер» рекомендует следующий инфраструктурный стек:

  • vLLM — наиболее зрелый фреймворк для high-throughput инференса с поддержкой PagedAttention; поддерживает DeepSeek R1 из коробки
  • SGLang — альтернатива с улучшенной обработкой длинного контекста и structured output
  • TensorRT-LLM — максимальная производительность на NVIDIA GPU за счёт FP8-квантизации и CUDA-графов
  • DeepSpeed-FastGen — оптимизация пропускной способности через Dynamic SplitFuse

Типовые сценарии применения

Сценарий Конфигурация Примерная пропускная способность
Разработка и тестирование 1 узел, 8× H100 80 ГБ 300–600 токенов/с
Корпоративный чат-бот 1 узел, 8× H200 141 ГБ 800–1200 токенов/с
Продакшн API (100+ RPS) 2 узла, 16× H100 80 ГБ 2000–3500 токенов/с
Массовый инференс 4 узла, 32× H100 80 ГБ 5000–8000 токенов/с

Как заказать оборудование в «СервакМастер»

  1. Выберите конфигурацию из каталога или опишите задачу нашим инженерам
  2. Получите коммерческое предложение — уточним наличие, сроки поставки и стоимость логистики
  3. Согласуйте договор — работаем с юридическими лицами и ИП, возможна оплата в рублях
  4. Получите оборудование — доставка по Москве, Санкт-Петербургу и всей России; возможна сборка и тестирование в нашем дата-центре перед отправкой

Для уточнения наличия, технической консультации и подбора оптимальной конфигурации свяжитесь с нами через форму на сайте или в разделе контактов «СервакМастер».

13 935 600 руб.
Под заказ
Задать вопрос
Гарантия с заменой компонентов
Доставка СДЭК и ведущими службами доставки
Помощь в подборе конфигурации
Характеристики
ПроцессорAMD EPYC
ВидеокартаNVIDIA
СостояниеНовое

Есть вопросы?

Поможем выбрать, проконсультируем по всем услугам, расскажем о средствах решения ваших задач
Заказать консультацию