Intel Arc Pro B60 в составе vLLM: доступный ИИ-инференс для профессиональных задач

12.11.2025 · ~ 2 мин · СервакМастер


Введение

Команда vLLM совместно с инженерами Intel завершила работу по интеграции профессиональных графических процессоров серии Intel Arc Pro B в популярный фреймворк для высокопроизводительного инференса языковых моделей. Результатом этого сотрудничества стала полноценная поддержка карт Intel Arc Pro B60, которая открывает путь к локальному запуску крупных нейросетей без использования дорогостоящего специализированного оборудования.

Новое поколение профессиональных ускорителей Intel ориентировано на рынок ИИ-вычислений в бюджетном и среднем ценовом диапазоне. Большой объём видеопамяти, поддержка многокарточных конфигураций и оптимизированный программный стек делают Arc Pro B60 реальной альтернативой дорогим решениям для тех, кто хочет развернуть LLM-сервис локально или в собственной инфраструктуре.


Что нового в поддержке Intel Arc Pro B60 в vLLM

Ключевые технические улучшения

Разработчики vLLM и Intel сосредоточились на нескольких важных направлениях при добавлении поддержки Arc Pro серии B:

  • PCIe P2P передача данных — прямой обмен данными между картами без привлечения оперативной памяти хоста, что снижает задержки и повышает пропускную способность в многокарточных системах.
  • Масштабирование на несколько GPU — поддержка параллелизма на уровне данных (DP), тензоров (TP) и конвейеров (PP), что позволяет распределять вычисления между несколькими картами Arc Pro B60.
  • Широкий набор поддерживаемых форматов — FP8, FP16, BF16, MXFP4 и INT4. Оптимизированное квантование обеспечивает на 30% более экономичное использование видеопамяти по сравнению с эталонными реализациями.
  • Асинхронное планирование задач — минимизирует простои вычислительных блоков и снижает накладные расходы на управление очередью запросов.

Оптимизация ядра GEMM для архитектур MoE

Отдельного внимания заслуживает переработка ядра матричного умножения (GEMM), используемого в моделях с архитектурой Mixture of Experts (MoE). Классическая реализация страдала от неравномерной нагрузки на вычислительные группы GPU, что приводило к простоям и потере производительности.

Решением стало внедрение ядра с постоянным циклом (persistent kernel) и механизма динамической балансировки вычислительных групп. Это позволило:

  • устранить паузы и задержки при переключении между экспертами модели;
  • повысить утилизацию вычислительных ресурсов GPU до 80%;
  • обеспечить стабильную скорость генерации при работе с моделями типа DeepSeek и другими LLM на базе MoE.

Поддерживаемые модели

Arc Pro B60 совместим с широким спектром современных языковых и мультимодальных моделей:

  • DeepSeek (дистиллированные версии, 8B–70B параметров);
  • GPT-OSS (20B и 120B параметров, формат MXFP4);
  • Qwen (различные размеры);
  • другие модели с открытой архитектурой LLM и MoE.

Результаты тестирования производительности

DeepSeek на 8 картах Intel Arc Pro B60

При использовании конфигурации из восьми GPU Intel Arc Pro B60 дистиллированные модели DeepSeek с размером от 8 до 70 млрд параметров показали следующие результаты:

  • Задержка следующего токена (TPOT) — менее 100 мс даже при расширенном контекстном окне.
  • Стабильная скорость генерации — сохраняется при длине контекста до 40 000 токенов.

Это важный показатель для практических применений: длинные контексты особенно востребованы при работе с документами, кодовой базой или многоходовыми диалогами.

GPT-OSS-20B (MXFP4, 1 GPU)

Тестирование модели GPT-OSS-20B на одной карте Arc Pro B60 с форматом MXFP4 при длине последовательности ввода/вывода 1024/1024 токена:

Метрика Значение
Пропускная способность ~1210 токенов/с
Задержка TTFT (первый токен) 7,6 с
Время TPOT (следующий токен) 54 мс

При увеличении контекста до 5120 токенов пропускная способность составила около 417 токенов/с — результат, вполне приемлемый для производственных нагрузок.

GPT-OSS-120B (MXFP4, 4 GPU)

Флагманская модель GPT-OSS-120B в конфигурации из четырёх карт Arc Pro B60 при аналогичных параметрах ввода показала ещё более высокие показатели:

Метрика Значение
Пропускная способность до 1495 токенов/с
Задержка TTFT (первый токен) менее 8,1 с
Время TPOT (следующий токен) ~59 мс

Такие результаты делают 4-карточную систему на базе Arc Pro B60 конкурентоспособным решением для запуска очень крупных моделей с размером свыше 100 млрд параметров.


Выводы

Интеграция Intel Arc Pro серии B в vLLM — значимый шаг для расширения экосистемы локального ИИ-инференса. Карты Arc Pro B60 предлагают привлекательное соотношение производительности и стоимости, позволяя разворачивать крупные языковые модели с высокой скоростью без колоссальных капитальных вложений.

Безусловно, при сравнении с топовыми решениями NVIDIA и AMD в сегменте вычислительных ускорителей корпоративного класса Intel Arc Pro B60 всё ещё уступает по абсолютной производительности. Однако для задач среднего масштаба, разработки, тестирования и производственных LLM-сервисов с умеренной нагрузкой эти GPU могут стать разумной и экономически выгодной альтернативой.

Если вас интересует подбор серверного оборудования для развёртывания ИИ-решений на базе Intel Arc Pro или других профессиональных GPU — свяжитесь с нами. Специалисты СервакМастер помогут подобрать оптимальную конфигурацию под ваши задачи и бюджет.


Автор: редакция СервакМастер