Восемь NVIDIA Tesla P100 в 2026 году: реальный тест на GPU-сервере для задач LLM

Вступление

Идея собрать мощный GPU-сервер из недорогих, но проверенных временем ускорителей привлекает многих, кто хочет запускать крупные нейросети без колоссальных затрат. Вопросы при этом возникают всегда одни и те же: можно ли сэкономить без ощутимой потери в производительности, справятся ли возрастные карты с современными AI-задачами и насколько сложно настроить программную часть?

Команда СервакМастер взялась ответить на эти вопросы на практике: мы собрали стенд из восьми графических ускорителей NVIDIA Tesla P100 на базе полноценного GPU-сервера и прогнали его через серию тестов с популярными LLM-движками. Ниже — подробный отчёт о том, что получилось.

Конфигурация тестового сервера

Для испытаний использовался следующий аппаратный стенд:

Материнская плата: Supermicro X10DRG-O+-CPU
Чипсет: Intel C612
Форм-фактор платформы: 4U GPU-сервер
Процессоры: 2 × Intel Xeon E5-2687W v4
Ядра / потоки: 24 ядра, 48 потоков суммарно
Частота CPU: 3.00 GHz базовая, Турбобуст до 3.50 GHz
Кэш L3: 30 MB на процессор, 60 MB суммарно
ОЗУ: 128 GB DDR4 ECC
Видеокарты: 8 × NVIDIA Tesla P100 PCIe 16GB
Суммарная VRAM: 128 GB
ОС: Ubuntu 24.04.4 LTS

Особенности топологии PCIe

Стоит отдельно остановиться на том, как в данном сервере организовано подключение восьми ускорителей. GPU не подключены к процессорам напрямую по одному — вместо этого используется схема с PCIe-коммутаторами. Каждый из двух процессоров обслуживает свою группу из четырёх GPU; внутри каждой группы карты разбиты на пары, соединённые с процессором через общий PLX-коммутатор.

Причина именно такой архитектуры проста: у серверных Xeon E5 v4 физически не хватает линий PCIe, чтобы обеспечить каждой из восьми карт честный прямой канал x16. PCIe-коммутаторы решают эту проблему, «раздавая» полосу пропускания между несколькими GPU.

Плюс такой топологии — полноценная поддержка функции Peer-to-Peer (P2P). Когда двум ускорителям, подключённым к одному коммутатору PLX, требуется обменяться данными, они делают это напрямую на скорости PCIe 3.0 x16 (около 15,7 ГБ/с), не задействуя системную память и не нагружая шину процессора.

Минус — эффект «узкого горлышка» при обращении к системе. Если обе карты одной пары одновременно запрашивают данные из ОЗУ или пытаются передать данные ускорителям другого процессора, им приходится делить единственный канал x16 к CPU пополам.

Для задач обучения нейросетей такая топология была бы серьёзным ограничением. Однако в нашем случае — LLM-инференс — она практически не играет роли. После того как веса модели один раз загружены в суммарные 128 ГБ видеопамяти, между картами и процессором курсируют лишь крохотные объёмы данных (токены), для которых мультиплексированной шины PCIe 3.0 с избытком хватает.

Тестирование восьми NVIDIA Tesla P100 в популярных LLM-движках

Производительность и стабильность стенда проверялись на нескольких актуальных ИИ-движках. Все модели тестировались в одинаковых условиях с единой длиной контекста.

llama.cpp

Начнём с llama.cpp — пожалуй, самого доступного инструмента для запуска LLM на нескольких GPU одновременно. Движок умеет самостоятельно распределять слои модели по доступным ускорителям, что делает его старт максимально простым.

Вместе с тем именно в масштабировании на множество GPU кроется главная слабость llama.cpp: его архитектура не оптимизирована для эффективной работы на большом числе карт и заметно уступает специализированным движкам вроде vLLM. Параллелизм работает, но без той отдачи, которую можно было бы ожидать.

Результаты по моделям

Сводная таблица охватывает протестированные модели, форматы квантизации, скорость генерации, время до первого токена, длину контекста и краткие наблюдения по качеству ответов.

Модель	Формат квантизации	Скорость (токен/с)	До первого токена	Контекст (токенов)	Примечания
Lfm2 24B A2B	Q4_K_M	69.92	0.2 сек.	8192	Хорошая скорость, но ответы скудные и невнятные
Gemma 4 26B A4B	Q4_K_M	37.82	0.9 сек.	8192	Новая модель от Google; внятные ответы средней длины, ничем особо не выделяется
gpt-oss-20b	MXFP4	58.77	0.6 сек.	8192	Лучший результат в своей весовой категории: самые подробные и быстрые ответы
Qwen3.5 35B A3B	Q4_K_M	44.55	0.6 сек.	8192	Модель вышла 24.02.2026; даёт лучшие развёрнутые ответы, отлично строит причинно-следственные связи
DeepSeek-R1 Distilled 32B	Q4_K_M	9.97	1.2 сек.	8192	Наихудший результат по скорости; качество ответов ничем не выделяется
Llama 3.3 70B-Instruct	Q4_K_M	4.82	2.1 сек.	8192	Крупная модель, очень подробные и внятные ответы — но в ущерб скорости
gpt-oss-120b	MXFP4	39.14	0.3 сек.	8192	Лучшие ответы из всех протестированных: осмысленные, точные, на любом языке

Наблюдения по нагрузке

Цифры генерации для восьми ускорителей нельзя назвать впечатляющими: производительность растёт нелинейно по мере добавления карт. При этом загрузка видеопамяти распределяется по всем восьми GPU практически равномерно — суммарные 128 ГБ VRAM задействуются в полной мере.

Оговорённый ранее изъян llama.cpp хорошо виден на графиках утилизации вычислительных ядер: даже при значительной нагрузке отдельная Tesla P100 редко выходит за 25% загрузки шейдерных процессоров — по меньшей мере при работе с одним пользователем.

vLLM, SGLang и ExLlamaV2

vLLM значительно требовательнее к версии CUDA и списку официально поддерживаемых GPU. Tesla P100 в него не входит: для запуска пришлось использовать патченную версию 0.3.0, собранную под Pascal и cu118, с пересобранным xformers. Даже после всех ухищрений задействовать более одного ускорителя не удалось, а инференс на одной карте показал неудовлетворительные результаты.

ExLlamaV2 — схожая история: одна карта функционирует, но связка из нескольких GPU в нашей конфигурации стабильно не работает.

SGLang лишён смысла по принципиальной причине. Ключевое ускорение этого движка строится на FlashInfer и FlashAttention, которые требуют наличия тензорных ядер. В архитектуре Pascal (Tesla P100) тензорных ядер попросту нет — они появились лишь в следующем поколении Volta. Без этого компонента запуск SGLang на данном оборудовании теряет всякую практическую ценность.

Итог: единственным стабильным и рациональным решением для запуска всех восьми Tesla P100 остаётся llama.cpp. Движок не лишён недостатков, но только он гарантирует устойчивый запуск на оборудовании архитектуры Pascal.

Заключение

Сборка GPU-сервера на базе восьми NVIDIA Tesla P100 — это нетривиальный инженерный эксперимент. Архитектура Pascal, перешагнувшая десятилетний рубеж, уже не поддерживается большинством современных ML-фреймворков «из коробки», а совместимость с передовыми движками приходится прорабатывать вручную.

Тем не менее списывать эти ускорители в утиль преждевременно. Как показало тестирование СервакМастер, связка из восьми Tesla P100 под управлением llama.cpp превращает возрастное железо в дееспособный инструмент для развёртывания нейросетей с числом параметров от 70 до 120 миллиардов. Суммарные 128 ГБ видеопамяти открывают доступ к моделям, которые просто недоступны на одиночном современном ускорителе потребительского класса.

Если вы рассматриваете подобную конфигурацию для своих задач или хотите подобрать GPU-сервер с оптимальным соотношением стоимости и производительности — свяжитесь с нами: специалисты СервакМастер помогут с выбором и настройкой оборудования.

СервакМастер — серверное оборудование и GPU-решения для AI-задач