Intel Arc Pro B60 в составе vLLM: доступный ИИ-инференс для профессиональных задач
12.11.2025 · ~ 2 мин · СервакМастер
Введение
Команда vLLM совместно с инженерами Intel завершила работу по интеграции профессиональных графических процессоров серии Intel Arc Pro B в популярный фреймворк для высокопроизводительного инференса языковых моделей. Результатом этого сотрудничества стала полноценная поддержка карт Intel Arc Pro B60, которая открывает путь к локальному запуску крупных нейросетей без использования дорогостоящего специализированного оборудования.
Новое поколение профессиональных ускорителей Intel ориентировано на рынок ИИ-вычислений в бюджетном и среднем ценовом диапазоне. Большой объём видеопамяти, поддержка многокарточных конфигураций и оптимизированный программный стек делают Arc Pro B60 реальной альтернативой дорогим решениям для тех, кто хочет развернуть LLM-сервис локально или в собственной инфраструктуре.
Что нового в поддержке Intel Arc Pro B60 в vLLM
Ключевые технические улучшения
Разработчики vLLM и Intel сосредоточились на нескольких важных направлениях при добавлении поддержки Arc Pro серии B:
- PCIe P2P передача данных — прямой обмен данными между картами без привлечения оперативной памяти хоста, что снижает задержки и повышает пропускную способность в многокарточных системах.
- Масштабирование на несколько GPU — поддержка параллелизма на уровне данных (DP), тензоров (TP) и конвейеров (PP), что позволяет распределять вычисления между несколькими картами Arc Pro B60.
- Широкий набор поддерживаемых форматов — FP8, FP16, BF16, MXFP4 и INT4. Оптимизированное квантование обеспечивает на 30% более экономичное использование видеопамяти по сравнению с эталонными реализациями.
- Асинхронное планирование задач — минимизирует простои вычислительных блоков и снижает накладные расходы на управление очередью запросов.
Оптимизация ядра GEMM для архитектур MoE
Отдельного внимания заслуживает переработка ядра матричного умножения (GEMM), используемого в моделях с архитектурой Mixture of Experts (MoE). Классическая реализация страдала от неравномерной нагрузки на вычислительные группы GPU, что приводило к простоям и потере производительности.
Решением стало внедрение ядра с постоянным циклом (persistent kernel) и механизма динамической балансировки вычислительных групп. Это позволило:
- устранить паузы и задержки при переключении между экспертами модели;
- повысить утилизацию вычислительных ресурсов GPU до 80%;
- обеспечить стабильную скорость генерации при работе с моделями типа DeepSeek и другими LLM на базе MoE.
Поддерживаемые модели
Arc Pro B60 совместим с широким спектром современных языковых и мультимодальных моделей:
- DeepSeek (дистиллированные версии, 8B–70B параметров);
- GPT-OSS (20B и 120B параметров, формат MXFP4);
- Qwen (различные размеры);
- другие модели с открытой архитектурой LLM и MoE.
Результаты тестирования производительности
DeepSeek на 8 картах Intel Arc Pro B60
При использовании конфигурации из восьми GPU Intel Arc Pro B60 дистиллированные модели DeepSeek с размером от 8 до 70 млрд параметров показали следующие результаты:
- Задержка следующего токена (TPOT) — менее 100 мс даже при расширенном контекстном окне.
- Стабильная скорость генерации — сохраняется при длине контекста до 40 000 токенов.
Это важный показатель для практических применений: длинные контексты особенно востребованы при работе с документами, кодовой базой или многоходовыми диалогами.
GPT-OSS-20B (MXFP4, 1 GPU)
Тестирование модели GPT-OSS-20B на одной карте Arc Pro B60 с форматом MXFP4 при длине последовательности ввода/вывода 1024/1024 токена:
| Метрика | Значение |
|---|---|
| Пропускная способность | ~1210 токенов/с |
| Задержка TTFT (первый токен) | 7,6 с |
| Время TPOT (следующий токен) | 54 мс |
При увеличении контекста до 5120 токенов пропускная способность составила около 417 токенов/с — результат, вполне приемлемый для производственных нагрузок.
GPT-OSS-120B (MXFP4, 4 GPU)
Флагманская модель GPT-OSS-120B в конфигурации из четырёх карт Arc Pro B60 при аналогичных параметрах ввода показала ещё более высокие показатели:
| Метрика | Значение |
|---|---|
| Пропускная способность | до 1495 токенов/с |
| Задержка TTFT (первый токен) | менее 8,1 с |
| Время TPOT (следующий токен) | ~59 мс |
Такие результаты делают 4-карточную систему на базе Arc Pro B60 конкурентоспособным решением для запуска очень крупных моделей с размером свыше 100 млрд параметров.
Выводы
Интеграция Intel Arc Pro серии B в vLLM — значимый шаг для расширения экосистемы локального ИИ-инференса. Карты Arc Pro B60 предлагают привлекательное соотношение производительности и стоимости, позволяя разворачивать крупные языковые модели с высокой скоростью без колоссальных капитальных вложений.
Безусловно, при сравнении с топовыми решениями NVIDIA и AMD в сегменте вычислительных ускорителей корпоративного класса Intel Arc Pro B60 всё ещё уступает по абсолютной производительности. Однако для задач среднего масштаба, разработки, тестирования и производственных LLM-сервисов с умеренной нагрузкой эти GPU могут стать разумной и экономически выгодной альтернативой.
Если вас интересует подбор серверного оборудования для развёртывания ИИ-решений на базе Intel Arc Pro или других профессиональных GPU — свяжитесь с нами. Специалисты СервакМастер помогут подобрать оптимальную конфигурацию под ваши задачи и бюджет.
Автор: редакция СервакМастер
