Intel Arc Pro B60 в vLLM: новые возможности для запуска больших языковых моделей

Intel Arc Pro B60 в составе vLLM: доступный ИИ-инференс для профессиональных задач

12.11.2025 · ~ 2 мин · СервакМастер

Введение

Команда vLLM совместно с инженерами Intel завершила работу по интеграции профессиональных графических процессоров серии Intel Arc Pro B в популярный фреймворк для высокопроизводительного инференса языковых моделей. Результатом этого сотрудничества стала полноценная поддержка карт Intel Arc Pro B60, которая открывает путь к локальному запуску крупных нейросетей без использования дорогостоящего специализированного оборудования.

Новое поколение профессиональных ускорителей Intel ориентировано на рынок ИИ-вычислений в бюджетном и среднем ценовом диапазоне. Большой объём видеопамяти, поддержка многокарточных конфигураций и оптимизированный программный стек делают Arc Pro B60 реальной альтернативой дорогим решениям для тех, кто хочет развернуть LLM-сервис локально или в собственной инфраструктуре.

Что нового в поддержке Intel Arc Pro B60 в vLLM

Ключевые технические улучшения

Разработчики vLLM и Intel сосредоточились на нескольких важных направлениях при добавлении поддержки Arc Pro серии B:

PCIe P2P передача данных — прямой обмен данными между картами без привлечения оперативной памяти хоста, что снижает задержки и повышает пропускную способность в многокарточных системах.
Масштабирование на несколько GPU — поддержка параллелизма на уровне данных (DP), тензоров (TP) и конвейеров (PP), что позволяет распределять вычисления между несколькими картами Arc Pro B60.
Широкий набор поддерживаемых форматов — FP8, FP16, BF16, MXFP4 и INT4. Оптимизированное квантование обеспечивает на 30% более экономичное использование видеопамяти по сравнению с эталонными реализациями.
Асинхронное планирование задач — минимизирует простои вычислительных блоков и снижает накладные расходы на управление очередью запросов.

Оптимизация ядра GEMM для архитектур MoE

Отдельного внимания заслуживает переработка ядра матричного умножения (GEMM), используемого в моделях с архитектурой Mixture of Experts (MoE). Классическая реализация страдала от неравномерной нагрузки на вычислительные группы GPU, что приводило к простоям и потере производительности.

Решением стало внедрение ядра с постоянным циклом (persistent kernel) и механизма динамической балансировки вычислительных групп. Это позволило:

устранить паузы и задержки при переключении между экспертами модели;
повысить утилизацию вычислительных ресурсов GPU до 80%;
обеспечить стабильную скорость генерации при работе с моделями типа DeepSeek и другими LLM на базе MoE.

Поддерживаемые модели

Arc Pro B60 совместим с широким спектром современных языковых и мультимодальных моделей:

DeepSeek (дистиллированные версии, 8B–70B параметров);
GPT-OSS (20B и 120B параметров, формат MXFP4);
Qwen (различные размеры);
другие модели с открытой архитектурой LLM и MoE.

Результаты тестирования производительности

DeepSeek на 8 картах Intel Arc Pro B60

При использовании конфигурации из восьми GPU Intel Arc Pro B60 дистиллированные модели DeepSeek с размером от 8 до 70 млрд параметров показали следующие результаты:

Задержка следующего токена (TPOT) — менее 100 мс даже при расширенном контекстном окне.
Стабильная скорость генерации — сохраняется при длине контекста до 40 000 токенов.

Это важный показатель для практических применений: длинные контексты особенно востребованы при работе с документами, кодовой базой или многоходовыми диалогами.

GPT-OSS-20B (MXFP4, 1 GPU)

Тестирование модели GPT-OSS-20B на одной карте Arc Pro B60 с форматом MXFP4 при длине последовательности ввода/вывода 1024/1024 токена:

Метрика	Значение
Пропускная способность	~1210 токенов/с
Задержка TTFT (первый токен)	7,6 с
Время TPOT (следующий токен)	54 мс

При увеличении контекста до 5120 токенов пропускная способность составила около 417 токенов/с — результат, вполне приемлемый для производственных нагрузок.

GPT-OSS-120B (MXFP4, 4 GPU)

Флагманская модель GPT-OSS-120B в конфигурации из четырёх карт Arc Pro B60 при аналогичных параметрах ввода показала ещё более высокие показатели:

Метрика	Значение
Пропускная способность	до 1495 токенов/с
Задержка TTFT (первый токен)	менее 8,1 с
Время TPOT (следующий токен)	~59 мс

Такие результаты делают 4-карточную систему на базе Arc Pro B60 конкурентоспособным решением для запуска очень крупных моделей с размером свыше 100 млрд параметров.

Выводы

Интеграция Intel Arc Pro серии B в vLLM — значимый шаг для расширения экосистемы локального ИИ-инференса. Карты Arc Pro B60 предлагают привлекательное соотношение производительности и стоимости, позволяя разворачивать крупные языковые модели с высокой скоростью без колоссальных капитальных вложений.

Безусловно, при сравнении с топовыми решениями NVIDIA и AMD в сегменте вычислительных ускорителей корпоративного класса Intel Arc Pro B60 всё ещё уступает по абсолютной производительности. Однако для задач среднего масштаба, разработки, тестирования и производственных LLM-сервисов с умеренной нагрузкой эти GPU могут стать разумной и экономически выгодной альтернативой.

Если вас интересует подбор серверного оборудования для развёртывания ИИ-решений на базе Intel Arc Pro или других профессиональных GPU — свяжитесь с нами. Специалисты СервакМастер помогут подобрать оптимальную конфигурацию под ваши задачи и бюджет.

Автор: редакция СервакМастер