Серверы и AI-системы для инференса DeepSeek R1 671B — купить в «СервакМастер»

Серверы для инференса DeepSeek R1 671B

DeepSeek R1 с 671 миллиардом параметров — одна из наиболее производительных открытых языковых моделей на сегодняшний день. Её развёртывание в production-среде требует специализированного серверного оборудования с достаточным объёмом GPU-памяти, высокоскоростными интерконнектами и надёжными системами охлаждения. В каталоге «СервакМастер» вы найдёте готовые конфигурации и отдельные компоненты для построения инфраструктуры инференса любого масштаба.

Почему DeepSeek R1 671B требует мощного железа

Модель построена на архитектуре Mixture of Experts (MoE): при каждом прямом проходе активируется лишь часть экспертных блоков, однако полный набор весов необходимо держать доступным в памяти. На практике это означает:

Минимум ~340–380 ГБ GPU-памяти для хранения весов в формате FP8/INT8 без потери точности
До 700+ ГБ при использовании BF16 или FP16
Высокую пропускную способность межузлового обмена — NVLink, InfiniBand или RoCE
Мощную дисковую подсистему для быстрой загрузки чекпоинтов (NVMe RAID)

Типовые конфигурации оборудования

Одноузловые системы (8× GPU)

Для задач с умеренной нагрузкой подходят одноузловые серверы с восемью ускорителями:

8× NVIDIA H100 SXM5 80 ГБ — суммарно 640 ГБ HBM3; NVLink 4-го поколения обеспечивает пропускную способность до 900 ГБ/с между GPU; достаточно для инференса в FP8 с батчем до 32 запросов
8× NVIDIA H200 SXM 141 ГБ — суммарно 1128 ГБ HBM3e; модель целиком помещается в BF16, запас по памяти позволяет увеличить batch size
8× AMD Instinct MI300X 192 ГБ — суммарно 1536 ГБ HBM3; рекордный объём памяти на ускорителе, отличный вариант для крупных батчей и длинного контекста

Типичные серверные платформы для таких конфигураций: Supermicro SYS-821GE-TNHR, ASUS ESC N8-E11, Dell PowerEdge XE9680.

Многоузловые кластеры (16–32+ GPU)

При необходимости масштабирования и параллельного обслуживания десятков пользователей оптимальны кластерные решения:

2 узла × 8× H100 80 ГБ — 1280 ГБ суммарной GPU-памяти; тензорный параллелизм через InfiniBand HDR 200 Гбит/с
4 узла × 8× H100 80 ГБ — 2560 ГБ; конвейерный и тензорный параллелизм, пропускная способность свыше 5000 токенов/с при batch 128
Коммутаторы: Mellanox Quantum-2 (QM9700) или NVIDIA Spectrum-4 для минимальной задержки между узлами

Ключевые компоненты инфраструктуры

Процессоры

AMD EPYC 9654 (Genoa) — 96 ядер, TDP 360 Вт; превосходная связка с GPU-памятью через PCIe 5.0 x16
Intel Xeon Platinum 8490H (Sapphire Rapids) — 60 ядер, поддержка HBM-памяти на плате; хорош в гибридных CPU+GPU инференс-пайплайнах

Системная память

Минимум 512 ГБ DDR5-4800 ECC на узел для работы с токенизатором, логгированием и оркестратором
Рекомендуется 1–2 ТБ DDR5 при одновременном обслуживании нескольких моделей

Хранилище

4–8× NVMe U.2 PCIe 5.0 7.68 ТБ в RAID 0 или striped конфигурации — скорость последовательного чтения свыше 28 ГБ/с, загрузка чекпоинта R1 671B за 30–60 секунд
Опция: CXL-накопители для расширения пула памяти без увеличения числа GPU

Сетевые интерфейсы

NVIDIA ConnectX-7 NDR 400G InfiniBand — актуально для кластеров; задержка менее 600 нс
ConnectX-7 200GbE RoCEv2 — экономичная альтернатива для гомогенных Ethernet-инфраструктур

Блоки питания и охлаждение

Двойные резервированные PSU 3000–3600 Вт на каждый узел
Жидкостное охлаждение (Direct Liquid Cooling) значительно снижает уровень шума и температуру GPU при TDP 700 Вт+ на узел

Программный стек для инференса

Выбор правильного оборудования — лишь половина задачи. «СервакМастер» рекомендует следующий инфраструктурный стек:

vLLM — наиболее зрелый фреймворк для high-throughput инференса с поддержкой PagedAttention; поддерживает DeepSeek R1 из коробки
SGLang — альтернатива с улучшенной обработкой длинного контекста и structured output
TensorRT-LLM — максимальная производительность на NVIDIA GPU за счёт FP8-квантизации и CUDA-графов
DeepSpeed-FastGen — оптимизация пропускной способности через Dynamic SplitFuse

Типовые сценарии применения

Сценарий	Конфигурация	Примерная пропускная способность
Разработка и тестирование	1 узел, 8× H100 80 ГБ	300–600 токенов/с
Корпоративный чат-бот	1 узел, 8× H200 141 ГБ	800–1200 токенов/с
Продакшн API (100+ RPS)	2 узла, 16× H100 80 ГБ	2000–3500 токенов/с
Массовый инференс	4 узла, 32× H100 80 ГБ	5000–8000 токенов/с

Как заказать оборудование в «СервакМастер»

Выберите конфигурацию из каталога или опишите задачу нашим инженерам
Получите коммерческое предложение — уточним наличие, сроки поставки и стоимость логистики
Согласуйте договор — работаем с юридическими лицами и ИП, возможна оплата в рублях
Получите оборудование — доставка по Москве, Санкт-Петербургу и всей России; возможна сборка и тестирование в нашем дата-центре перед отправкой

Для уточнения наличия, технической консультации и подбора оптимальной конфигурации свяжитесь с нами через форму на сайте или в разделе контактов «СервакМастер».

13 935 600 руб.

Под заказ

Задать вопрос

Гарантия с заменой компонентов

Доставка СДЭК и ведущими службами доставки

Помощь в подборе конфигурации

Характеристики

ПроцессорAMD EPYC

ВидеокартаNVIDIA

СостояниеНовое