NVIDIA DGX Spark: реальная производительность инференса и неожиданные ограничения

NVIDIA DGX Spark: впечатляющий старт с оговорками

24.10.2025 · ~ 2 мин

Компактный суперкомпьютер NVIDIA DGX Spark наделал немало шума ещё до выхода. Его позиционировали как революционное решение для локального запуска крупных языковых моделей без облаков и дата-центров. Свежие тесты с прошивкой 580.95.05 и движком Ollama v0.12.6 дают неоднозначную картину: в одних сценариях — феноменальный результат, в других — разочарование.

Специалисты СервакМастер изучили опубликованные результаты и подготовили подробный разбор, чтобы вы могли принять взвешенное решение.

Сильная сторона: формат MXFP4

В нативном режиме MXFP4 DGX Spark демонстрирует по-настоящему выдающиеся результаты. На крупных MoE-моделях класса gpt-oss 120B и 20B устройство выдаёт практически 40 токенов/с, что для настольного форм-фактора является исключительным показателем.

Конкретные цифры по инференсу в MXFP4:

gpt-oss 120B — 41–58 токенов/с, что превышает показатели H200 при BF16
gpt-oss 20B — стабильно ~40 токенов/с с низкой задержкой
Скорость на префилле остаётся высокой даже для многомиллиардных параметрических моделей

Для тех, кто работает исключительно с форматом MXFP4 и нативными моделями NVIDIA, DGX Spark — практически безальтернативное решение в своём ценовом и габаритном классе.

Слабая сторона: форматы Q4_K_M и Q8_0

Здесь начинаются проблемы. При переходе на популярные форматы квантования, которые массово используются в экосистеме Ollama, llama.cpp и других движков с открытым исходным кодом, производительность DGX Spark резко падает:

LLaMA 8B в Q4_K_M — префилл около 7k токенов/с, но декодирование проседает до 10–30 токенов/с
Gemma 12B в Q4_K_M — префилл ~1.8k токенов/с, декодирование не более 20–25 токенов/с
Qwen3 32B в Q4_K_M — деградация до 9 токенов/с при декодировании
Qwen3 32B в Q8_0 — показатели ещё ниже, чем в Q4_K_M
DeepSeek-R1 14B — при переходе с MXFP4 на Q8_0 скорость падает почти вдвое

Это тревожная тенденция: даже модели сравнительно небольшого размера не получают ожидаемого прироста от аппаратного ускорителя. Для моделей в Q4_K_M DGX Spark нередко уступает решениям прошлого поколения.

Почему так происходит?

Складывается обоснованное предположение, что архитектура DGX Spark и его программный стек оптимизированы прежде всего под собственный формат MXFP4. Поддержка сторонних, пусть и широко распространённых форматов квантования реализована значительно хуже:

Нет эффективных ядер для Q4_K_M и Q8_0 под Grace Blackwell
Движок Ollama использует универсальные пути исполнения, не задействуя специализированные инструкции
Совместимость с экосистемой открытых моделей пока ограничена

Что это значит для покупателя

Если вы планируете запускать исключительно официальные модели NVIDIA в нативном формате и вам важен максимальный инференс в MXFP4 — DGX Spark оправдывает свою цену. Для корпоративных задач с контролируемым стеком это по-прежнему мощное решение.

Однако если ваш основной рабочий сценарий — запуск популярных open-source моделей через Ollama, llama.cpp или аналогичные инструменты в форматах Q4_K_M, Q8_0 или FP8 — стоит дождаться обновлений прошивки и драйверов либо рассмотреть альтернативные конфигурации.

СервакМастер рекомендует уточнять актуальный статус поддержки форматов перед покупкой: производительность может существенно измениться с выходом новых версий Ollama и фирменного ПО NVIDIA.

Итог

NVIDIA DGX Spark — неоднозначная новинка. Блестящий результат в MXFP4 соседствует с неожиданно слабыми показателями в квантованных форматах, которые составляют основу открытой экосистемы LLM. NVIDIA предстоит серьёзная работа по оптимизации ядер для Q4_K_M и обеспечению нормальной совместимости с популярными движками инференса. До тех пор DGX Spark остаётся специализированным инструментом, а не универсальным стандартом.

Свяжитесь с нами, если хотите получить консультацию по выбору оборудования для задач машинного обучения и инференса.