Как выбрать сервер для искусственного интеллекта: подробное руководство по GPU-платформам и LLM

Команда СервакМастер подготовила развёрнутое руководство по выбору и сборке GPU-серверов, которые оптимально подходят для инференса и обучения больших языковых моделей (LLM), а также для решения широкого круга задач в сфере искусственного интеллекта.

Ниже мы разберём актуальные серверные платформы, обсудим выбор GPU-ускорителей и рассчитаем конкретные конфигурации для локального развёртывания мультимодальных моделей LLAMA 3.2 11B, LLAMA 3.2 90B и максимально требовательной LLAMA 3.1 405B*.

Всё начинается с GPU

Прежде чем переходить к обсуждению серверных платформ, стоит расставить приоритеты: производительность вашей системы для ИИ определяется в первую очередь графическим процессором. GPU — это вычислительное ядро, а серверное шасси выступает масштабируемой инфраструктурой, объединяющей ускорители в единый мощный узел.

Какие ускорители подходят для GPU-серверов

В серверные платформы устанавливаются специализированные ускорители с пассивным охлаждением — серверное шасси само обеспечивает принудительный поток воздуха через всю систему:

Ускорители NVIDIA Tesla — наиболее распространённый выбор с широкой программной экосистемой на базе архитектуры CUDA.
Ускорители AMD Radeon Instinct — альтернатива с открытым стеком ROCm, адаптирующим код под архитектуру GPU.

Ускорители Tesla пользуются заметно большей популярностью именно благодаря зрелости CUDA: огромная база готовых библиотек, фреймворков и инструментов существенно упрощает разработку и внедрение моделей ИИ.

Сравнительная таблица GPU-ускорителей

Наименование ускорителя	Объём VRAM и тип	Производительность FP32	Производительность FP16/BFLOAT16
NVIDIA Tesla P100	16 ГБ HBM2	10,6 TFLOPS	21,6 TFLOPS
NVIDIA Tesla P40	24 ГБ GDDR5	11,76 TFLOPS	183 GFLOPS
AMD Radeon Instinct MI50	16 ГБ HBM2	13 TFLOPS	28,8 TFLOPS
NVIDIA Tesla V100	16 ГБ HBM2	14 TFLOPS	112 TFLOPS
NVIDIA Tesla V100	32 ГБ HBM2	14 TFLOPS	112 TFLOPS
NVIDIA A100	40 ГБ HBM2e	312 TFLOPS	624 TFLOPS
NVIDIA L40	48 ГБ GDDR6	181 TFLOPS	362 TFLOPS
NVIDIA H100	80 ГБ HBM2e	989 TFLOPS	1979 TFLOPS

Как читать эти характеристики

Объём видеопамяти — чем больше, тем лучше. Большой объём VRAM позволяет запускать неквантизированные варианты LLM без ограничений. Тип памяти тоже важен: HBM предпочтительна для обучения, поскольку задача требует высокой пропускной способности.
Производительность FP32 — необходима для работы с неквантизированными моделями ИИ с миллиардами параметров при максимальной точности.
Производительность FP16 — самый распространённый режим работы с весами LLM: сочетает улучшенное быстродействие, экономию VRAM и минимальную потерю точности.

Вывод: выбор ускорителя следует делать, опираясь на бюджет, требуемый объём VRAM и производительность в режиме FP16.

О роли процессора в GPU-серверах для ИИ

При работе с ИИ-задачами процессор выполняет прежде всего хост-функцию: он служит связующим звеном между GPU, RAM и NVMe-хранилищем. Если вы не планируете инференс непосредственно на CPU, основные критерии выбора процессора следующие:

Количество ядер: не менее 16 штук.
Тактовая частота: чем выше, тем лучше.
Количество линий PCI-E: чем больше, тем большее число GPU можно подключить без потери пропускной способности.
Объём кэш-памяти: чем больше, тем эффективнее передача данных между CPU и GPU.

Линейки процессоров Intel

Линейка процессоров	Число линий PCI-E	Версия PCI-E
Xeon E5 2600v4	40	3.0
Intel Xeon Scalable 1-го поколения	48	3.0
Intel Xeon Scalable 2-го поколения	48	3.0
Intel Xeon Scalable 3-го поколения	64	4.0
Intel Xeon Scalable 4-го поколения	80	5.0
Intel Xeon Scalable 5-го поколения	80	5.0
Xeon 6900 Performance	96	5.0

Линейки процессоров AMD

Линейка процессоров	Число линий PCI-E	Версия PCI-E
EPYC 7002 (Zen2)	128	4.0
EPYC 7003 (Zen3)	128	4.0
EPYC 9004 (Zen4)	128	5.0
EPYC 9005 (Zen5)	128	5.0

Резюме: для задач ИИ оптимальны процессоры AMD EPYC — они обеспечивают максимальное число линий PCI-E с поддержкой актуального стандарта. Из линейки Intel хорошим выбором станут модели Xeon Gold и Platinum 1–2-го поколений, а ещё лучше — 3–5-го. Старые процессоры серии Xeon E5 тоже справятся с хост-ролью, однако ограничивают масштабируемость системы и не рекомендуются в связке с GPU высокого ценового диапазона.

GPU-платформы на сокете LGA2011-3

В ассортименте СервакМастер представлено несколько GPU-платформ на базе процессоров Xeon E5. Они работают на шине PCI-E 3.0 и оптимальны для построения производительных конфигураций с ограниченным бюджетом.

Supermicro SuperServer 1028GR-TR: компактное решение для инференса ИИ

SuperServer 1028GR-TR — это 1U-шасси, вмещающее до трёх полноразмерных GPU-ускорителей. Несмотря на компактность, сервер обеспечивает высокую вычислительную плотность и подходит для задач инференса, где важны небольшие габариты и энергоэффективность на юнит стойки.

Ключевые характеристики:

Форм-фактор: 1U
Поддержка до 3 полноразмерных GPU
Сокет: LGA2011-3 (Xeon E5)
Шина: PCI-E 3.0

Supermicro SuperServer 4028GR-TR: высокая плотность GPU на бюджетной платформе

SuperServer 4028GR-TR — это 4U-сервер с поддержкой до 8 GPU-ускорителей в связке с процессорами Xeon E5. Шасси выделяется демократичной стоимостью и позволяет накопить значительный суммарный объём видеопамяти (VRAM), что критически важно при работе с большими языковыми моделями.

Ключевые характеристики:

Форм-фактор: 4U
Поддержка до 8 GPU
Сокет: LGA2011-3 (Xeon E5)
Шина: PCI-E 3.0
Оптимален для бюджетных конфигураций с большим суммарным объёмом VRAM

GPU-платформы на сокете LGA3647

Переход на архитектуры Skylake-SP и Cascade Lake с сокетом LGA3647 ознаменовал существенный прогресс в развитии GPU-серверов. Платформы на базе Xeon Gold и Platinum 1–2-го поколений принесли улучшенную межкомпонентную пропускную способность и расширенную поддержку NVMe-накопителей.

Supermicro SuperServer 2029GP-TR: производительное 2U-шасси для ИИ

SuperServer 2029GP-TR — это продвинутая 2U-платформа с поддержкой до 6 видеокарт без потери пропускной способности PCI-E. Сервер предлагает сбалансированное сочетание вычислительной плотности и гибкости настройки — отличный выбор для задач инференса и дообучения моделей среднего размера.

Ключевые характеристики:

Форм-фактор: 2U
До 6 GPU без деградации пропускной способности
Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
Шина: PCI-E 3.0

Supermicro SuperServer 4029GP-TRT2: эволюция 4U-платформы с улучшенным PCI-E Switch

SuperServer 4029GP-TRT2 — логическое развитие 4U-семейства на сокете LGA3647. Главное обновление — новое поколение PCI-E Switch, которое повышает эффективность взаимодействия GPU с процессором и сокращает задержки при многокарточных конфигурациях. Бекплейн поддерживает до четырёх гибридных слотов U.2 для NVMe-накопителей, обеспечивая высокоскоростное хранение датасетов прямо внутри сервера.

Ключевые характеристики:

Форм-фактор: 4U
До 8 GPU
Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
Новое поколение PCI-E Switch
До 4 слотов U.2 для NVMe

GPU-платформы на сокете SP3 (AMD EPYC)

Supermicro A+ Server 4124GS-TNR: эталонная платформа для требовательных LLM

A+ Server 4124GS-TNR (4U, 24 SFF) — флагманская GPU-платформа, в которой ускорители подключаются к процессору напрямую, без промежуточного PCI-E Switch. Это практически устраняет задержки между GPU и значительно ускоряет как инференс, так и обучение. Процессоры AMD EPYC 7003 (Milan) превосходно справляются с хост-функцией, обеспечивая 128 линий PCI-E 4.0 и высокую надёжность под нагрузкой.

Ключевые характеристики:

Форм-фактор: 4U, 24 SFF
До 8 GPU без PCI-E Switch
Сокет: SP3 (AMD EPYC 7003/Milan)
Шина: PCI-E 4.0
Прямое подключение GPU к CPU — минимальные задержки

Готовые конфигурации под конкретные LLM-модели

Конфигурации под LLAMA 11B*

Для эффективной работы с LLAMA 3.2 11B* необходимо учитывать следующие требования к VRAM:

FP32: около 180 ГБ VRAM для инференса, до 1,5 ТБ VRAM для обучения.
FP16: около 90 ГБ VRAM для инференса, до 750 ГБ VRAM для обучения.
FP8: около 22,5 ГБ VRAM для инференса, до 187,5 ГБ VRAM для обучения.

Режим	Платформа	Конфигурация	Суммарный объём VRAM
LLAMA 11B* (FP32)	SuperServer 4028GR-TR 4U	CPU: 2× Xeon 2687Wv4 / RAM: 512 ГБ DDR4 ECC REG / GPU: 8× Tesla P40 24 ГБ	192 ГБ
LLAMA 11B* (FP16)	SuperServer 2029GP-TR 2U	CPU: 2× Xeon Gold 6154 / RAM: 256 ГБ DDR4 ECC REG / GPU: 3× Tesla V100 32 ГБ	96 ГБ
LLAMA 11B* (FP8)	SuperServer 1028GR-TR 1U	CPU: 2× Xeon 2687Wv4 / RAM: 128 ГБ DDR4 ECC REG / GPU: 3× Tesla P100 16 ГБ	48 ГБ

Конфигурации под LLAMA 3.2 90B*

LLAMA 3.2 90B* предъявляет значительно более высокие требования к вычислительным ресурсам. Для её развёртывания необходимы ускорители более высокого класса:

FP32: около 720 ГБ VRAM для инференса, до 2,5 ТБ VRAM для обучения.
FP16: около 360 ГБ VRAM для инференса, до 1,25 ТБ VRAM для обучения.
FP8: около 90 ГБ VRAM для инференса, до 375 ГБ VRAM для обучения.

Режим	Платформа	Конфигурация	Суммарный объём VRAM
LLAMA 90B* (FP32)	A+ Server 4124GS-TNR 4U	CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Tesla H100 96 ГБ	768 ГБ
LLAMA 90B* (FP16)	SuperServer 4029GP-TRT2 4U	CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla H100 80 ГБ	480 ГБ
LLAMA 90B* (FP8)	SuperServer 2029GP-TR 2U	CPU: 2× Xeon 6246 / RAM: 512 ГБ DDR4 ECC REG / GPU: 6× Tesla V100 16 ГБ	96 ГБ

Конфигурации для LLAMA 3.1 405B*

LLAMA 3.1 405B* — самая требовательная текстовая LLM в этом обзоре. Модель обучена исключительно на текстовых данных, что обеспечивает высокую точность ответов и отличную способность к дообучению, но требует колоссального объёма VRAM:

FP32: около 972 ГБ VRAM для инференса, до 1944 ГБ VRAM для обучения.
FP16: около 486 ГБ VRAM для инференса, до 972 ГБ VRAM для обучения.
FP8: около 243 ГБ VRAM для инференса, до 486 ГБ VRAM для обучения.

Режим	Платформа	Конфигурация	Суммарный объём VRAM
LLAMA 405B* (FP32)	A+ Server AS-8125GS-TNHR 8U	CPU: 2× EPYC 9374F / RAM: 4 ТБ / GPU: H200 SXM 141 ГБ	1128 ГБ
LLAMA 405B* (FP16)	A+ Server 4124GS-TNR 4U	CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Instinct MI210 64 ГБ	512 ГБ
LLAMA 405B* (FP8)	SuperServer 4029GP-TRT2 4U	CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla L40 48 ГБ	288 ГБ

Итоги

Искусственный интеллект и большие языковые модели прочно вошли в операционную деятельность современных компаний. Всё больше организаций выбирают локальное развёртывание LLM — чтобы сохранить контроль над данными, адаптировать модели под внутренние задачи и снизить зависимость от внешних API.

СервакМастер помогает подобрать оптимальное серверное решение для задач ИИ — от бюджетных конфигураций на базе Xeon E5 до топовых платформ с AMD EPYC и ускорителями H100/H200. Если вас интересует сборка сервера под инференс или обучение таких моделей, как LLAMA*, StableDiffusion, Mistral или GPT-4, свяжитесь с нами — специалисты СервакМастер подготовят индивидуальное предложение с учётом ваших задач и бюджета.

*LLAMA 3.2 — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.