Как выбрать сервер для искусственного интеллекта: подробное руководство по GPU-платформам и LLM

Команда СервакМастер подготовила развёрнутое руководство по выбору и сборке GPU-серверов, которые оптимально подходят для инференса и обучения больших языковых моделей (LLM), а также для решения широкого круга задач в сфере искусственного интеллекта.

Ниже мы разберём актуальные серверные платформы, обсудим выбор GPU-ускорителей и рассчитаем конкретные конфигурации для локального развёртывания мультимодальных моделей LLAMA 3.2 11B, LLAMA 3.2 90B и максимально требовательной LLAMA 3.1 405B*.


Всё начинается с GPU

Прежде чем переходить к обсуждению серверных платформ, стоит расставить приоритеты: производительность вашей системы для ИИ определяется в первую очередь графическим процессором. GPU — это вычислительное ядро, а серверное шасси выступает масштабируемой инфраструктурой, объединяющей ускорители в единый мощный узел.

Какие ускорители подходят для GPU-серверов

В серверные платформы устанавливаются специализированные ускорители с пассивным охлаждением — серверное шасси само обеспечивает принудительный поток воздуха через всю систему:

  • Ускорители NVIDIA Tesla — наиболее распространённый выбор с широкой программной экосистемой на базе архитектуры CUDA.
  • Ускорители AMD Radeon Instinct — альтернатива с открытым стеком ROCm, адаптирующим код под архитектуру GPU.

Ускорители Tesla пользуются заметно большей популярностью именно благодаря зрелости CUDA: огромная база готовых библиотек, фреймворков и инструментов существенно упрощает разработку и внедрение моделей ИИ.

Сравнительная таблица GPU-ускорителей

Наименование ускорителя Объём VRAM и тип Производительность FP32 Производительность FP16/BFLOAT16
NVIDIA Tesla P100 16 ГБ HBM2 10,6 TFLOPS 21,6 TFLOPS
NVIDIA Tesla P40 24 ГБ GDDR5 11,76 TFLOPS 183 GFLOPS
AMD Radeon Instinct MI50 16 ГБ HBM2 13 TFLOPS 28,8 TFLOPS
NVIDIA Tesla V100 16 ГБ HBM2 14 TFLOPS 112 TFLOPS
NVIDIA Tesla V100 32 ГБ HBM2 14 TFLOPS 112 TFLOPS
NVIDIA A100 40 ГБ HBM2e 312 TFLOPS 624 TFLOPS
NVIDIA L40 48 ГБ GDDR6 181 TFLOPS 362 TFLOPS
NVIDIA H100 80 ГБ HBM2e 989 TFLOPS 1979 TFLOPS

Как читать эти характеристики

  • Объём видеопамяти — чем больше, тем лучше. Большой объём VRAM позволяет запускать неквантизированные варианты LLM без ограничений. Тип памяти тоже важен: HBM предпочтительна для обучения, поскольку задача требует высокой пропускной способности.
  • Производительность FP32 — необходима для работы с неквантизированными моделями ИИ с миллиардами параметров при максимальной точности.
  • Производительность FP16 — самый распространённый режим работы с весами LLM: сочетает улучшенное быстродействие, экономию VRAM и минимальную потерю точности.

Вывод: выбор ускорителя следует делать, опираясь на бюджет, требуемый объём VRAM и производительность в режиме FP16.


О роли процессора в GPU-серверах для ИИ

При работе с ИИ-задачами процессор выполняет прежде всего хост-функцию: он служит связующим звеном между GPU, RAM и NVMe-хранилищем. Если вы не планируете инференс непосредственно на CPU, основные критерии выбора процессора следующие:

  • Количество ядер: не менее 16 штук.
  • Тактовая частота: чем выше, тем лучше.
  • Количество линий PCI-E: чем больше, тем большее число GPU можно подключить без потери пропускной способности.
  • Объём кэш-памяти: чем больше, тем эффективнее передача данных между CPU и GPU.

Линейки процессоров Intel

Линейка процессоров Число линий PCI-E Версия PCI-E
Xeon E5 2600v4 40 3.0
Intel Xeon Scalable 1-го поколения 48 3.0
Intel Xeon Scalable 2-го поколения 48 3.0
Intel Xeon Scalable 3-го поколения 64 4.0
Intel Xeon Scalable 4-го поколения 80 5.0
Intel Xeon Scalable 5-го поколения 80 5.0
Xeon 6900 Performance 96 5.0

Линейки процессоров AMD

Линейка процессоров Число линий PCI-E Версия PCI-E
EPYC 7002 (Zen2) 128 4.0
EPYC 7003 (Zen3) 128 4.0
EPYC 9004 (Zen4) 128 5.0
EPYC 9005 (Zen5) 128 5.0

Резюме: для задач ИИ оптимальны процессоры AMD EPYC — они обеспечивают максимальное число линий PCI-E с поддержкой актуального стандарта. Из линейки Intel хорошим выбором станут модели Xeon Gold и Platinum 1–2-го поколений, а ещё лучше — 3–5-го. Старые процессоры серии Xeon E5 тоже справятся с хост-ролью, однако ограничивают масштабируемость системы и не рекомендуются в связке с GPU высокого ценового диапазона.


GPU-платформы на сокете LGA2011-3

В ассортименте СервакМастер представлено несколько GPU-платформ на базе процессоров Xeon E5. Они работают на шине PCI-E 3.0 и оптимальны для построения производительных конфигураций с ограниченным бюджетом.

Supermicro SuperServer 1028GR-TR: компактное решение для инференса ИИ

SuperServer 1028GR-TR — это 1U-шасси, вмещающее до трёх полноразмерных GPU-ускорителей. Несмотря на компактность, сервер обеспечивает высокую вычислительную плотность и подходит для задач инференса, где важны небольшие габариты и энергоэффективность на юнит стойки.

Ключевые характеристики:

  • Форм-фактор: 1U
  • Поддержка до 3 полноразмерных GPU
  • Сокет: LGA2011-3 (Xeon E5)
  • Шина: PCI-E 3.0

Supermicro SuperServer 4028GR-TR: высокая плотность GPU на бюджетной платформе

SuperServer 4028GR-TR — это 4U-сервер с поддержкой до 8 GPU-ускорителей в связке с процессорами Xeon E5. Шасси выделяется демократичной стоимостью и позволяет накопить значительный суммарный объём видеопамяти (VRAM), что критически важно при работе с большими языковыми моделями.

Ключевые характеристики:

  • Форм-фактор: 4U
  • Поддержка до 8 GPU
  • Сокет: LGA2011-3 (Xeon E5)
  • Шина: PCI-E 3.0
  • Оптимален для бюджетных конфигураций с большим суммарным объёмом VRAM

GPU-платформы на сокете LGA3647

Переход на архитектуры Skylake-SP и Cascade Lake с сокетом LGA3647 ознаменовал существенный прогресс в развитии GPU-серверов. Платформы на базе Xeon Gold и Platinum 1–2-го поколений принесли улучшенную межкомпонентную пропускную способность и расширенную поддержку NVMe-накопителей.

Supermicro SuperServer 2029GP-TR: производительное 2U-шасси для ИИ

SuperServer 2029GP-TR — это продвинутая 2U-платформа с поддержкой до 6 видеокарт без потери пропускной способности PCI-E. Сервер предлагает сбалансированное сочетание вычислительной плотности и гибкости настройки — отличный выбор для задач инференса и дообучения моделей среднего размера.

Ключевые характеристики:

  • Форм-фактор: 2U
  • До 6 GPU без деградации пропускной способности
  • Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
  • Шина: PCI-E 3.0

Supermicro SuperServer 4029GP-TRT2: эволюция 4U-платформы с улучшенным PCI-E Switch

SuperServer 4029GP-TRT2 — логическое развитие 4U-семейства на сокете LGA3647. Главное обновление — новое поколение PCI-E Switch, которое повышает эффективность взаимодействия GPU с процессором и сокращает задержки при многокарточных конфигурациях. Бекплейн поддерживает до четырёх гибридных слотов U.2 для NVMe-накопителей, обеспечивая высокоскоростное хранение датасетов прямо внутри сервера.

Ключевые характеристики:

  • Форм-фактор: 4U
  • До 8 GPU
  • Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
  • Новое поколение PCI-E Switch
  • До 4 слотов U.2 для NVMe

GPU-платформы на сокете SP3 (AMD EPYC)

Supermicro A+ Server 4124GS-TNR: эталонная платформа для требовательных LLM

A+ Server 4124GS-TNR (4U, 24 SFF) — флагманская GPU-платформа, в которой ускорители подключаются к процессору напрямую, без промежуточного PCI-E Switch. Это практически устраняет задержки между GPU и значительно ускоряет как инференс, так и обучение. Процессоры AMD EPYC 7003 (Milan) превосходно справляются с хост-функцией, обеспечивая 128 линий PCI-E 4.0 и высокую надёжность под нагрузкой.

Ключевые характеристики:

  • Форм-фактор: 4U, 24 SFF
  • До 8 GPU без PCI-E Switch
  • Сокет: SP3 (AMD EPYC 7003/Milan)
  • Шина: PCI-E 4.0
  • Прямое подключение GPU к CPU — минимальные задержки

Готовые конфигурации под конкретные LLM-модели

Конфигурации под LLAMA 11B*

Для эффективной работы с LLAMA 3.2 11B* необходимо учитывать следующие требования к VRAM:

  • FP32: около 180 ГБ VRAM для инференса, до 1,5 ТБ VRAM для обучения.
  • FP16: около 90 ГБ VRAM для инференса, до 750 ГБ VRAM для обучения.
  • FP8: около 22,5 ГБ VRAM для инференса, до 187,5 ГБ VRAM для обучения.
Режим Платформа Конфигурация Суммарный объём VRAM
LLAMA 11B* (FP32) SuperServer 4028GR-TR 4U CPU: 2× Xeon 2687Wv4 / RAM: 512 ГБ DDR4 ECC REG / GPU: 8× Tesla P40 24 ГБ 192 ГБ
LLAMA 11B* (FP16) SuperServer 2029GP-TR 2U CPU: 2× Xeon Gold 6154 / RAM: 256 ГБ DDR4 ECC REG / GPU: 3× Tesla V100 32 ГБ 96 ГБ
LLAMA 11B* (FP8) SuperServer 1028GR-TR 1U CPU: 2× Xeon 2687Wv4 / RAM: 128 ГБ DDR4 ECC REG / GPU: 3× Tesla P100 16 ГБ 48 ГБ

Конфигурации под LLAMA 3.2 90B*

LLAMA 3.2 90B* предъявляет значительно более высокие требования к вычислительным ресурсам. Для её развёртывания необходимы ускорители более высокого класса:

  • FP32: около 720 ГБ VRAM для инференса, до 2,5 ТБ VRAM для обучения.
  • FP16: около 360 ГБ VRAM для инференса, до 1,25 ТБ VRAM для обучения.
  • FP8: около 90 ГБ VRAM для инференса, до 375 ГБ VRAM для обучения.
Режим Платформа Конфигурация Суммарный объём VRAM
LLAMA 90B* (FP32) A+ Server 4124GS-TNR 4U CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Tesla H100 96 ГБ 768 ГБ
LLAMA 90B* (FP16) SuperServer 4029GP-TRT2 4U CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla H100 80 ГБ 480 ГБ
LLAMA 90B* (FP8) SuperServer 2029GP-TR 2U CPU: 2× Xeon 6246 / RAM: 512 ГБ DDR4 ECC REG / GPU: 6× Tesla V100 16 ГБ 96 ГБ

Конфигурации для LLAMA 3.1 405B*

LLAMA 3.1 405B* — самая требовательная текстовая LLM в этом обзоре. Модель обучена исключительно на текстовых данных, что обеспечивает высокую точность ответов и отличную способность к дообучению, но требует колоссального объёма VRAM:

  • FP32: около 972 ГБ VRAM для инференса, до 1944 ГБ VRAM для обучения.
  • FP16: около 486 ГБ VRAM для инференса, до 972 ГБ VRAM для обучения.
  • FP8: около 243 ГБ VRAM для инференса, до 486 ГБ VRAM для обучения.
Режим Платформа Конфигурация Суммарный объём VRAM
LLAMA 405B* (FP32) A+ Server AS-8125GS-TNHR 8U CPU: 2× EPYC 9374F / RAM: 4 ТБ / GPU: H200 SXM 141 ГБ 1128 ГБ
LLAMA 405B* (FP16) A+ Server 4124GS-TNR 4U CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Instinct MI210 64 ГБ 512 ГБ
LLAMA 405B* (FP8) SuperServer 4029GP-TRT2 4U CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla L40 48 ГБ 288 ГБ

Итоги

Искусственный интеллект и большие языковые модели прочно вошли в операционную деятельность современных компаний. Всё больше организаций выбирают локальное развёртывание LLM — чтобы сохранить контроль над данными, адаптировать модели под внутренние задачи и снизить зависимость от внешних API.

СервакМастер помогает подобрать оптимальное серверное решение для задач ИИ — от бюджетных конфигураций на базе Xeon E5 до топовых платформ с AMD EPYC и ускорителями H100/H200. Если вас интересует сборка сервера под инференс или обучение таких моделей, как LLAMA*, StableDiffusion, Mistral или GPT-4, свяжитесь с нами — специалисты СервакМастер подготовят индивидуальное предложение с учётом ваших задач и бюджета.


*LLAMA 3.2 — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.