Как выбрать сервер для искусственного интеллекта: подробное руководство по GPU-платформам и LLM
Команда СервакМастер подготовила развёрнутое руководство по выбору и сборке GPU-серверов, которые оптимально подходят для инференса и обучения больших языковых моделей (LLM), а также для решения широкого круга задач в сфере искусственного интеллекта.
Ниже мы разберём актуальные серверные платформы, обсудим выбор GPU-ускорителей и рассчитаем конкретные конфигурации для локального развёртывания мультимодальных моделей LLAMA 3.2 11B, LLAMA 3.2 90B и максимально требовательной LLAMA 3.1 405B*.
Всё начинается с GPU
Прежде чем переходить к обсуждению серверных платформ, стоит расставить приоритеты: производительность вашей системы для ИИ определяется в первую очередь графическим процессором. GPU — это вычислительное ядро, а серверное шасси выступает масштабируемой инфраструктурой, объединяющей ускорители в единый мощный узел.
Какие ускорители подходят для GPU-серверов
В серверные платформы устанавливаются специализированные ускорители с пассивным охлаждением — серверное шасси само обеспечивает принудительный поток воздуха через всю систему:
- Ускорители NVIDIA Tesla — наиболее распространённый выбор с широкой программной экосистемой на базе архитектуры CUDA.
- Ускорители AMD Radeon Instinct — альтернатива с открытым стеком ROCm, адаптирующим код под архитектуру GPU.
Ускорители Tesla пользуются заметно большей популярностью именно благодаря зрелости CUDA: огромная база готовых библиотек, фреймворков и инструментов существенно упрощает разработку и внедрение моделей ИИ.
Сравнительная таблица GPU-ускорителей
| Наименование ускорителя | Объём VRAM и тип | Производительность FP32 | Производительность FP16/BFLOAT16 |
|---|---|---|---|
| NVIDIA Tesla P100 | 16 ГБ HBM2 | 10,6 TFLOPS | 21,6 TFLOPS |
| NVIDIA Tesla P40 | 24 ГБ GDDR5 | 11,76 TFLOPS | 183 GFLOPS |
| AMD Radeon Instinct MI50 | 16 ГБ HBM2 | 13 TFLOPS | 28,8 TFLOPS |
| NVIDIA Tesla V100 | 16 ГБ HBM2 | 14 TFLOPS | 112 TFLOPS |
| NVIDIA Tesla V100 | 32 ГБ HBM2 | 14 TFLOPS | 112 TFLOPS |
| NVIDIA A100 | 40 ГБ HBM2e | 312 TFLOPS | 624 TFLOPS |
| NVIDIA L40 | 48 ГБ GDDR6 | 181 TFLOPS | 362 TFLOPS |
| NVIDIA H100 | 80 ГБ HBM2e | 989 TFLOPS | 1979 TFLOPS |
Как читать эти характеристики
- Объём видеопамяти — чем больше, тем лучше. Большой объём VRAM позволяет запускать неквантизированные варианты LLM без ограничений. Тип памяти тоже важен: HBM предпочтительна для обучения, поскольку задача требует высокой пропускной способности.
- Производительность FP32 — необходима для работы с неквантизированными моделями ИИ с миллиардами параметров при максимальной точности.
- Производительность FP16 — самый распространённый режим работы с весами LLM: сочетает улучшенное быстродействие, экономию VRAM и минимальную потерю точности.
Вывод: выбор ускорителя следует делать, опираясь на бюджет, требуемый объём VRAM и производительность в режиме FP16.
О роли процессора в GPU-серверах для ИИ
При работе с ИИ-задачами процессор выполняет прежде всего хост-функцию: он служит связующим звеном между GPU, RAM и NVMe-хранилищем. Если вы не планируете инференс непосредственно на CPU, основные критерии выбора процессора следующие:
- Количество ядер: не менее 16 штук.
- Тактовая частота: чем выше, тем лучше.
- Количество линий PCI-E: чем больше, тем большее число GPU можно подключить без потери пропускной способности.
- Объём кэш-памяти: чем больше, тем эффективнее передача данных между CPU и GPU.
Линейки процессоров Intel
| Линейка процессоров | Число линий PCI-E | Версия PCI-E |
|---|---|---|
| Xeon E5 2600v4 | 40 | 3.0 |
| Intel Xeon Scalable 1-го поколения | 48 | 3.0 |
| Intel Xeon Scalable 2-го поколения | 48 | 3.0 |
| Intel Xeon Scalable 3-го поколения | 64 | 4.0 |
| Intel Xeon Scalable 4-го поколения | 80 | 5.0 |
| Intel Xeon Scalable 5-го поколения | 80 | 5.0 |
| Xeon 6900 Performance | 96 | 5.0 |
Линейки процессоров AMD
| Линейка процессоров | Число линий PCI-E | Версия PCI-E |
|---|---|---|
| EPYC 7002 (Zen2) | 128 | 4.0 |
| EPYC 7003 (Zen3) | 128 | 4.0 |
| EPYC 9004 (Zen4) | 128 | 5.0 |
| EPYC 9005 (Zen5) | 128 | 5.0 |
Резюме: для задач ИИ оптимальны процессоры AMD EPYC — они обеспечивают максимальное число линий PCI-E с поддержкой актуального стандарта. Из линейки Intel хорошим выбором станут модели Xeon Gold и Platinum 1–2-го поколений, а ещё лучше — 3–5-го. Старые процессоры серии Xeon E5 тоже справятся с хост-ролью, однако ограничивают масштабируемость системы и не рекомендуются в связке с GPU высокого ценового диапазона.
GPU-платформы на сокете LGA2011-3
В ассортименте СервакМастер представлено несколько GPU-платформ на базе процессоров Xeon E5. Они работают на шине PCI-E 3.0 и оптимальны для построения производительных конфигураций с ограниченным бюджетом.
Supermicro SuperServer 1028GR-TR: компактное решение для инференса ИИ
SuperServer 1028GR-TR — это 1U-шасси, вмещающее до трёх полноразмерных GPU-ускорителей. Несмотря на компактность, сервер обеспечивает высокую вычислительную плотность и подходит для задач инференса, где важны небольшие габариты и энергоэффективность на юнит стойки.
Ключевые характеристики:
- Форм-фактор: 1U
- Поддержка до 3 полноразмерных GPU
- Сокет: LGA2011-3 (Xeon E5)
- Шина: PCI-E 3.0
Supermicro SuperServer 4028GR-TR: высокая плотность GPU на бюджетной платформе
SuperServer 4028GR-TR — это 4U-сервер с поддержкой до 8 GPU-ускорителей в связке с процессорами Xeon E5. Шасси выделяется демократичной стоимостью и позволяет накопить значительный суммарный объём видеопамяти (VRAM), что критически важно при работе с большими языковыми моделями.
Ключевые характеристики:
- Форм-фактор: 4U
- Поддержка до 8 GPU
- Сокет: LGA2011-3 (Xeon E5)
- Шина: PCI-E 3.0
- Оптимален для бюджетных конфигураций с большим суммарным объёмом VRAM
GPU-платформы на сокете LGA3647
Переход на архитектуры Skylake-SP и Cascade Lake с сокетом LGA3647 ознаменовал существенный прогресс в развитии GPU-серверов. Платформы на базе Xeon Gold и Platinum 1–2-го поколений принесли улучшенную межкомпонентную пропускную способность и расширенную поддержку NVMe-накопителей.
Supermicro SuperServer 2029GP-TR: производительное 2U-шасси для ИИ
SuperServer 2029GP-TR — это продвинутая 2U-платформа с поддержкой до 6 видеокарт без потери пропускной способности PCI-E. Сервер предлагает сбалансированное сочетание вычислительной плотности и гибкости настройки — отличный выбор для задач инференса и дообучения моделей среднего размера.
Ключевые характеристики:
- Форм-фактор: 2U
- До 6 GPU без деградации пропускной способности
- Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
- Шина: PCI-E 3.0
Supermicro SuperServer 4029GP-TRT2: эволюция 4U-платформы с улучшенным PCI-E Switch
SuperServer 4029GP-TRT2 — логическое развитие 4U-семейства на сокете LGA3647. Главное обновление — новое поколение PCI-E Switch, которое повышает эффективность взаимодействия GPU с процессором и сокращает задержки при многокарточных конфигурациях. Бекплейн поддерживает до четырёх гибридных слотов U.2 для NVMe-накопителей, обеспечивая высокоскоростное хранение датасетов прямо внутри сервера.
Ключевые характеристики:
- Форм-фактор: 4U
- До 8 GPU
- Сокет: LGA3647 (Xeon Scalable 1–2-го поколений)
- Новое поколение PCI-E Switch
- До 4 слотов U.2 для NVMe
GPU-платформы на сокете SP3 (AMD EPYC)
Supermicro A+ Server 4124GS-TNR: эталонная платформа для требовательных LLM
A+ Server 4124GS-TNR (4U, 24 SFF) — флагманская GPU-платформа, в которой ускорители подключаются к процессору напрямую, без промежуточного PCI-E Switch. Это практически устраняет задержки между GPU и значительно ускоряет как инференс, так и обучение. Процессоры AMD EPYC 7003 (Milan) превосходно справляются с хост-функцией, обеспечивая 128 линий PCI-E 4.0 и высокую надёжность под нагрузкой.
Ключевые характеристики:
- Форм-фактор: 4U, 24 SFF
- До 8 GPU без PCI-E Switch
- Сокет: SP3 (AMD EPYC 7003/Milan)
- Шина: PCI-E 4.0
- Прямое подключение GPU к CPU — минимальные задержки
Готовые конфигурации под конкретные LLM-модели
Конфигурации под LLAMA 11B*
Для эффективной работы с LLAMA 3.2 11B* необходимо учитывать следующие требования к VRAM:
- FP32: около 180 ГБ VRAM для инференса, до 1,5 ТБ VRAM для обучения.
- FP16: около 90 ГБ VRAM для инференса, до 750 ГБ VRAM для обучения.
- FP8: около 22,5 ГБ VRAM для инференса, до 187,5 ГБ VRAM для обучения.
| Режим | Платформа | Конфигурация | Суммарный объём VRAM |
|---|---|---|---|
| LLAMA 11B* (FP32) | SuperServer 4028GR-TR 4U | CPU: 2× Xeon 2687Wv4 / RAM: 512 ГБ DDR4 ECC REG / GPU: 8× Tesla P40 24 ГБ | 192 ГБ |
| LLAMA 11B* (FP16) | SuperServer 2029GP-TR 2U | CPU: 2× Xeon Gold 6154 / RAM: 256 ГБ DDR4 ECC REG / GPU: 3× Tesla V100 32 ГБ | 96 ГБ |
| LLAMA 11B* (FP8) | SuperServer 1028GR-TR 1U | CPU: 2× Xeon 2687Wv4 / RAM: 128 ГБ DDR4 ECC REG / GPU: 3× Tesla P100 16 ГБ | 48 ГБ |
Конфигурации под LLAMA 3.2 90B*
LLAMA 3.2 90B* предъявляет значительно более высокие требования к вычислительным ресурсам. Для её развёртывания необходимы ускорители более высокого класса:
- FP32: около 720 ГБ VRAM для инференса, до 2,5 ТБ VRAM для обучения.
- FP16: около 360 ГБ VRAM для инференса, до 1,25 ТБ VRAM для обучения.
- FP8: около 90 ГБ VRAM для инференса, до 375 ГБ VRAM для обучения.
| Режим | Платформа | Конфигурация | Суммарный объём VRAM |
|---|---|---|---|
| LLAMA 90B* (FP32) | A+ Server 4124GS-TNR 4U | CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Tesla H100 96 ГБ | 768 ГБ |
| LLAMA 90B* (FP16) | SuperServer 4029GP-TRT2 4U | CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla H100 80 ГБ | 480 ГБ |
| LLAMA 90B* (FP8) | SuperServer 2029GP-TR 2U | CPU: 2× Xeon 6246 / RAM: 512 ГБ DDR4 ECC REG / GPU: 6× Tesla V100 16 ГБ | 96 ГБ |
Конфигурации для LLAMA 3.1 405B*
LLAMA 3.1 405B* — самая требовательная текстовая LLM в этом обзоре. Модель обучена исключительно на текстовых данных, что обеспечивает высокую точность ответов и отличную способность к дообучению, но требует колоссального объёма VRAM:
- FP32: около 972 ГБ VRAM для инференса, до 1944 ГБ VRAM для обучения.
- FP16: около 486 ГБ VRAM для инференса, до 972 ГБ VRAM для обучения.
- FP8: около 243 ГБ VRAM для инференса, до 486 ГБ VRAM для обучения.
| Режим | Платформа | Конфигурация | Суммарный объём VRAM |
|---|---|---|---|
| LLAMA 405B* (FP32) | A+ Server AS-8125GS-TNHR 8U | CPU: 2× EPYC 9374F / RAM: 4 ТБ / GPU: H200 SXM 141 ГБ | 1128 ГБ |
| LLAMA 405B* (FP16) | A+ Server 4124GS-TNR 4U | CPU: 2× EPYC 75F3 / RAM: 2 ТБ DDR4 ECC REG / GPU: 8× Instinct MI210 64 ГБ | 512 ГБ |
| LLAMA 405B* (FP8) | SuperServer 4029GP-TRT2 4U | CPU: 2× Xeon Gold 6254 / RAM: 1024 ГБ DDR4 ECC REG / GPU: 6× Tesla L40 48 ГБ | 288 ГБ |
Итоги
Искусственный интеллект и большие языковые модели прочно вошли в операционную деятельность современных компаний. Всё больше организаций выбирают локальное развёртывание LLM — чтобы сохранить контроль над данными, адаптировать модели под внутренние задачи и снизить зависимость от внешних API.
СервакМастер помогает подобрать оптимальное серверное решение для задач ИИ — от бюджетных конфигураций на базе Xeon E5 до топовых платформ с AMD EPYC и ускорителями H100/H200. Если вас интересует сборка сервера под инференс или обучение таких моделей, как LLAMA*, StableDiffusion, Mistral или GPT-4, свяжитесь с нами — специалисты СервакМастер подготовят индивидуальное предложение с учётом ваших задач и бюджета.
*LLAMA 3.2 — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена.
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
