Серверы и AI-системы для инференса DeepSeek R1 671B — купить в «СервакМастер»
Серверы для инференса DeepSeek R1 671B
DeepSeek R1 с 671 миллиардом параметров — одна из наиболее производительных открытых языковых моделей на сегодняшний день. Её развёртывание в production-среде требует специализированного серверного оборудования с достаточным объёмом GPU-памяти, высокоскоростными интерконнектами и надёжными системами охлаждения. В каталоге «СервакМастер» вы найдёте готовые конфигурации и отдельные компоненты для построения инфраструктуры инференса любого масштаба.
Почему DeepSeek R1 671B требует мощного железа
Модель построена на архитектуре Mixture of Experts (MoE): при каждом прямом проходе активируется лишь часть экспертных блоков, однако полный набор весов необходимо держать доступным в памяти. На практике это означает:
- Минимум ~340–380 ГБ GPU-памяти для хранения весов в формате FP8/INT8 без потери точности
- До 700+ ГБ при использовании BF16 или FP16
- Высокую пропускную способность межузлового обмена — NVLink, InfiniBand или RoCE
- Мощную дисковую подсистему для быстрой загрузки чекпоинтов (NVMe RAID)
Типовые конфигурации оборудования
Одноузловые системы (8× GPU)
Для задач с умеренной нагрузкой подходят одноузловые серверы с восемью ускорителями:
- 8× NVIDIA H100 SXM5 80 ГБ — суммарно 640 ГБ HBM3; NVLink 4-го поколения обеспечивает пропускную способность до 900 ГБ/с между GPU; достаточно для инференса в FP8 с батчем до 32 запросов
- 8× NVIDIA H200 SXM 141 ГБ — суммарно 1128 ГБ HBM3e; модель целиком помещается в BF16, запас по памяти позволяет увеличить batch size
- 8× AMD Instinct MI300X 192 ГБ — суммарно 1536 ГБ HBM3; рекордный объём памяти на ускорителе, отличный вариант для крупных батчей и длинного контекста
Типичные серверные платформы для таких конфигураций: Supermicro SYS-821GE-TNHR, ASUS ESC N8-E11, Dell PowerEdge XE9680.
Многоузловые кластеры (16–32+ GPU)
При необходимости масштабирования и параллельного обслуживания десятков пользователей оптимальны кластерные решения:
- 2 узла × 8× H100 80 ГБ — 1280 ГБ суммарной GPU-памяти; тензорный параллелизм через InfiniBand HDR 200 Гбит/с
- 4 узла × 8× H100 80 ГБ — 2560 ГБ; конвейерный и тензорный параллелизм, пропускная способность свыше 5000 токенов/с при batch 128
- Коммутаторы: Mellanox Quantum-2 (QM9700) или NVIDIA Spectrum-4 для минимальной задержки между узлами
Ключевые компоненты инфраструктуры
Процессоры
- AMD EPYC 9654 (Genoa) — 96 ядер, TDP 360 Вт; превосходная связка с GPU-памятью через PCIe 5.0 x16
- Intel Xeon Platinum 8490H (Sapphire Rapids) — 60 ядер, поддержка HBM-памяти на плате; хорош в гибридных CPU+GPU инференс-пайплайнах
Системная память
- Минимум 512 ГБ DDR5-4800 ECC на узел для работы с токенизатором, логгированием и оркестратором
- Рекомендуется 1–2 ТБ DDR5 при одновременном обслуживании нескольких моделей
Хранилище
- 4–8× NVMe U.2 PCIe 5.0 7.68 ТБ в RAID 0 или striped конфигурации — скорость последовательного чтения свыше 28 ГБ/с, загрузка чекпоинта R1 671B за 30–60 секунд
- Опция: CXL-накопители для расширения пула памяти без увеличения числа GPU
Сетевые интерфейсы
- NVIDIA ConnectX-7 NDR 400G InfiniBand — актуально для кластеров; задержка менее 600 нс
- ConnectX-7 200GbE RoCEv2 — экономичная альтернатива для гомогенных Ethernet-инфраструктур
Блоки питания и охлаждение
- Двойные резервированные PSU 3000–3600 Вт на каждый узел
- Жидкостное охлаждение (Direct Liquid Cooling) значительно снижает уровень шума и температуру GPU при TDP 700 Вт+ на узел
Программный стек для инференса
Выбор правильного оборудования — лишь половина задачи. «СервакМастер» рекомендует следующий инфраструктурный стек:
- vLLM — наиболее зрелый фреймворк для high-throughput инференса с поддержкой PagedAttention; поддерживает DeepSeek R1 из коробки
- SGLang — альтернатива с улучшенной обработкой длинного контекста и structured output
- TensorRT-LLM — максимальная производительность на NVIDIA GPU за счёт FP8-квантизации и CUDA-графов
- DeepSpeed-FastGen — оптимизация пропускной способности через Dynamic SplitFuse
Типовые сценарии применения
| Сценарий | Конфигурация | Примерная пропускная способность |
|---|---|---|
| Разработка и тестирование | 1 узел, 8× H100 80 ГБ | 300–600 токенов/с |
| Корпоративный чат-бот | 1 узел, 8× H200 141 ГБ | 800–1200 токенов/с |
| Продакшн API (100+ RPS) | 2 узла, 16× H100 80 ГБ | 2000–3500 токенов/с |
| Массовый инференс | 4 узла, 32× H100 80 ГБ | 5000–8000 токенов/с |
Как заказать оборудование в «СервакМастер»
- Выберите конфигурацию из каталога или опишите задачу нашим инженерам
- Получите коммерческое предложение — уточним наличие, сроки поставки и стоимость логистики
- Согласуйте договор — работаем с юридическими лицами и ИП, возможна оплата в рублях
- Получите оборудование — доставка по Москве, Санкт-Петербургу и всей России; возможна сборка и тестирование в нашем дата-центре перед отправкой
Для уточнения наличия, технической консультации и подбора оптимальной конфигурации свяжитесь с нами через форму на сайте или в разделе контактов «СервакМастер».
