Введение
Ещё несколько лет назад серверы для искусственного интеллекта занимали весьма скромную долю в продажах на рынке серверного оборудования. Сегодня всё изменилось — платформы для инференса и обучения ИИ-моделей превратились в один из самых быстрорастущих сегментов IT-индустрии. Причина проста: искусственный интеллект проникает буквально во все отрасли — промышленность, медицину, финансы, кибербезопасность. Эта тенденция не замедляется, а только набирает обороты с появлением всё более мощных нейросетей. Но за впечатляющими возможностями современных LLM стоит колоссальная вычислительная инфраструктура. Специалисты СервакМастер подготовили подробный разбор того, на что ориентироваться при выборе сервера для ИИ, какое железо необходимо для инференса, а какое — для полноценного обучения моделей, и какие факторы стоит учитывать в каждом из сценариев.
Инференс и обучение — в чём принципиальная разница
Прежде чем переходить к выбору оборудования, нужно чётко разграничить два принципиально разных класса задач: инференс (запуск готовых моделей для получения ответов) и обучение (тренировка или дообучение нейросетей на собственных данных).
Инференс востребован подавляющим большинством компаний для решения повседневных задач: развёртывание чат-ботов, анализ документов, автоматическая генерация контента, классификация данных. Обучение — удел крупных исследовательских центров и организаций с серьёзными бюджетами, которые создают новые модели или адаптируют существующие под специфические корпоративные данные.
Требования к железу для этих задач расходятся по нескольким ключевым направлениям:
-
Точность вычислений. Инференс почти всегда использует квантизированные модели — форматы INT8, FP8, NF4 позволяют сократить потребление видеопамяти до 4 раз при минимальной потере точности. Обучение же ведётся исключительно в высокоточных форматах (FP16, BF16, FP32), которые требуют в 4–10 раз больше VRAM.
-
Масштабирование. При инференсе GPU можно просто добавлять — карты работают независимо друг от друга, и высокоскоростное межсоединение NVLink фактически не нужно. При обучении ситуация противоположная: требуется жёсткая синхронизация градиентов между GPU, поэтому ускорители объединяют через NVLink или коммутаторы NVSwitch в единый кластер, функционирующий как одна мощная система.
-
Актуальность моделей. Нейросети устаревают стремительно — пока вы месяцами дообучаете одну модель, выходит новая, превосходящая её по всем показателям. При инференсе это не критично: можно в любой момент перейти на более актуальный открытый релиз без потери вложенных ресурсов.
Рассмотрим каждую из этих задач детально.
Сервер для инференса искусственного интеллекта
Сервер для инференса должен обеспечивать низкую задержку при генерации ответов и достаточную пропускную способность для обработки входящих запросов. Основная нагрузка приходится на GPU, однако остальные компоненты системы также играют важную роль.
GPU
Видеокарты — сердце инференс-сервера. Для этой задачи подходят как серверные ускорители (NVIDIA RTX 6000 Blackwell, A100, L40, L4), так и более доступные решения, включая потребительские карты с большим объёмом памяти — RTX 4090/5090 (32 ГБ).
Главный критерий выбора — объём видеопамяти (VRAM). Приведём практические ориентиры:
- Для запуска Qwen3-30B-A3B в квантизации 4 бита потребуется около 35–40 ГБ VRAM.
- Для Mistral 3 7B в 8-битном формате достаточно 10–12 ГБ VRAM.
При этом модель занимает не всю видеопамять: часть резервируется под KV-кэш (кэш ключей и значений, необходимый для генерации), и его размер растёт пропорционально длине контекста. Например, для Qwen-3 14B с контекстом 4096 токенов KV-кэш может занять около 1 ГБ. На практике фактический объём VRAM должен превышать вес модели на 10–20%, плюс нужно учитывать накладные расходы драйвера и ИИ-библиотек.
Важный нюанс: современные модели могут использовать форматы точности (например, FP4), которые не поддерживаются GPU старых поколений. Поэтому для инференса предпочтительны карты не старше 2–3 архитектурных поколений. Тип охлаждения (турбинный или пассивный) выбирается исходя из условий монтажа: турбины эффективнее при плотной компоновке в серверной стойке, пассивные карты требуют мощного принудительного обдува корпуса.
Помимо NVIDIA и AMD, стоит знать об альтернативных ИИ-ускорителях: решения Huawei Ascend и Intel Arc Pro предлагают привлекательные ценники и высокую энергоэффективность, хотя уступают флагманам по пиковой производительности. Их ключевой недостаток — использование собственных фреймворков (CANN у Huawei, MESA у Intel) вместо CUDA и ROCm, что усложняет развёртывание и интеграцию с популярными инструментами.
Для лёгкого потребительского инференса вполне подойдёт AMD Radeon AI PRO R9700 AI TOP 32 ГБ, тогда как для запуска крупных LLM на 100+ миллиардов параметров потребуются ускорители уровня Nvidia RTX Pro 6000 Blackwell Workstation Edition.
CPU
Для инференса с GPU достаточно современного процессора с поддержкой PCIe 4.0/5.0 и количеством ядер от 8 до 16. Основная нагрузка приходится на видеокарты, процессор лишь подготавливает данные и управляет очередями запросов.
Если же вы планируете инференс исключительно на CPU (например, с движком llama.cpp), потребуется мощный процессор с 32+ ядрами, многоканальной высокочастотной памятью и огромными объёмами ОЗУ. Даже при такой конфигурации скорость вывода принципиально ниже, чем на GPU — CPU-инференс остаётся экономически нецелесообразным для большинства сценариев. Разумным компромиссом стали компактные ИИ-ПК с APU-чипами (AMD Ryzen AI Max+ 395, Nvidia GB10) и большим объёмом унифицированной памяти LPDDR5: они позволяют успешно запускать небольшие модели локально без отдельного GPU, а при объединении в кластер возможности инференса существенно расширяются.
RAM
При использовании GPU оперативная память нужна для загрузки модели перед передачей в VRAM и для хранения сопутствующих данных (токенов, контекста). Для квантизированных моделей объёмом до 30–40 ГБ достаточно 64 ГБ ОЗУ. Если модель не помещается целиком во VRAM, часть данных остаётся в RAM, что резко замедляет работу из-за своппинга.
При инференсе на CPU оперативная память становится критически важным ресурсом: для запуска Qwen3.5-122B-A10B в формате Q4_K_M потребуется 76,5 ГБ — с учётом накладных расходов рекомендуется закладывать не менее 96 ГБ ОЗУ.
SSD
Современные LLM-модели весят десятки и сотни гигабайт. Для быстрой загрузки в память при запуске или переключении между моделями необходимы NVMe SSD с высокой скоростью последовательного чтения. SATA SSD и тем более HDD для этой задачи не подходят — они создают неприемлемые задержки. Рекомендуется выделить отдельный быстрый накопитель или RAID-массив под библиотеку моделей. Для справки: загрузка Qwen3.5-122B-A10B занимает около 26 секунд на M.2 PCIe 3.0, поэтому скоростная подсистема хранения — не роскошь, а необходимость.
Серверная платформа
Сервер для инференса может быть реализован как в виде рабочей станции (настольный корпус с 1–4 GPU), так и в виде стоечного сервера высотой 2U–4U с возможностью установки до 10 и более ускорителей. Выбор зависит от масштаба: для домашнего использования или малого бизнеса нередко достаточно мощной рабочей станции, тогда как SaaS-стартапы нуждаются в полноценных серверах с топовым железом и поддержкой горячей замены компонентов. Система охлаждения должна быть рассчитана на тепловыделение GPU (до 300–600 Вт каждая) — перегрев неизбежно приведёт к троттлингу и падению производительности.
Сервер для обучения искусственного интеллекта
Обучение нейросетей — задача принципиально иного порядка сложности. Здесь требуются не просто большие объёмы памяти, а максимальная пропускная способность и сверхбыстрые соединения между ускорителями.
GPU
Для обучения используют ускорители с памятью HBM (High Bandwidth Memory). Минимальным актуальным стандартом является NVIDIA A100 (40 или 80 ГБ HBM2e). Более производительные варианты — Nvidia H100 (80–144 ГБ HBM3) и AMD MI210 на 64 ГБ HBM2e. Эти карты оснащены встроенными высокоскоростными интерфейсами (NVLink, Infinity Fabric) для объединения в кластер и поддерживают стандартные разъёмы PCIe.
Потребительские карты (RTX 4090, 5090) не имеют памяти HBM и быстрых межсоединений, поэтому для распределённого обучения крупных моделей они малопригодны. Для экспериментов с небольшими моделями (до 20–30 млрд параметров) на одной карте их применение вполне оправдано.
Связь между ускорителями
Для обучения критически важна возможность объединения нескольких GPU в единое адресное пространство с минимальными задержками. NVLink обеспечивает скорость передачи данных до 900 ГБ/с между картами, а NVSwitch позволяет создать полностью связанную топологию, где, например, 8 GPU взаимодействуют друг с другом без каких-либо задержек.
Карты в исполнении SXM (NVIDIA) или OAM (AMD) устанавливаются в специальные разъёмы на материнской плате и соединяются через коммутаторы, минуя шину PCIe. Это даёт возможность обучать модели, не помещающиеся в память одной карты, за счёт тензорного параллелизма.
Важно учитывать: в потребительском сегменте NVLink был доступен только на RTX 3090 (и то в ограниченном виде). Начиная с серии RTX 40xx он отсутствует — объединить две RTX 4090 в кластер для распределённого обучения не получится.
Сетевой интерконнект
При обучении на нескольких серверах необходимы высокоскоростные сетевые интерфейсы — InfiniBand или RoCE со скоростью 200–400 Гбит/с — с поддержкой RDMA для прямого обмена данными между GPU разных узлов. Используются специализированные коммутаторы (например, Mellanox Spectrum) с неблокирующей топологией Fat-Tree. Без такой сети синхронизация градиентов становится узким местом и эффективность всего кластера резко снижается.
Серверная платформа
Серверы для обучения выпускаются в виде специализированных платформ, таких как NVIDIA DGX/HGX, где 8 GPU уже установлены на одной плате с NVSwitch и полностью готовы к работе. Охлаждение может быть воздушным или жидкостным. Типичное энергопотребление одного сервера с 8×H100 достигает 10–12 кВт, что требует промышленной системы охлаждения и усиленного электропитания.
Отдельного упоминания заслуживают серверные стойки NVIDIA NVL72 — вершина современной инженерной мысли, объединяющая до 72 GPU NVIDIA (Blackwell, а в ближайшем будущем и Rubin) с коммутаторами NVLink для обеспечения связи без задержек. Это позволяет обучать модели с сотнями миллиардов или даже триллионами параметров, однако стоимость таких решений исчисляется миллионами долларов и они доступны лишь крупнейшим облачным гиперскейлерам. В планах NVIDIA — создание кластеров на 144 и 576 ускорителей, предлагающих ещё более высокий уровень производительности.
CPU
Для серверов обучения требуется процессор с максимальным количеством ядер и поддержкой большого числа линий PCIe — как правило, AMD EPYC 4-го/5-го поколения или Intel Xeon 6-го поколения. CPU отвечает за подготовку данных (data loading), управление кластером и координацию ввода-вывода. Ключевое требование — достаточное количество линий PCIe 5.0 для подключения GPU и скоростных сетевых карт.
RAM
Объём оперативной памяти в обучающем сервере должен быть достаточным для хранения датасетов и промежуточных состояний модели. Рекомендуется соотношение 1:2 или 1:4 от суммарной видеопамяти: например, для конфигурации 8×A100 80 ГБ (640 ГБ суммарной VRAM) необходимо не менее 256–512 ГБ ОЗУ. В ряде сценариев (например, при обучении с большим контекстом) часть модели может временно выгружаться в RAM, поэтому запас не будет лишним.
SSD
Обучение требует сверхбыстрого доступа к обучающим данным. Применяются NVMe-массивы с RAID и пропускной способностью десятки гигабайт в секунду. Медленное хранилище приводит к простою GPU в ожидании новых батчей данных, что кратно увеличивает суммарное время обучения.
Итоги
Прежде чем вкладывать значительную сумму в ИИ-сервер, чётко определитесь с задачами: требования к железу для инференса и обучения кардинально различаются.
- Для инференса достаточно GPU с большим объёмом памяти (от 32 ГБ) — берите квантизированные модели и разворачивайте их без огромных затрат на инфраструктуру.
- Для обучения готовьтесь к серьёзным инвестициям в профессиональные GPU с HBM, поддержкой NVLink и высокоскоростным InfiniBand-интерконнектом.
Помните также, что ИИ-индустрия развивается с огромной скоростью: конфигурация, актуальная сегодня, через год может тянуть лишь устаревшие модели, уступающие современным open-source решениям. Чтобы собрать действительно производительный ИИ-сервер — для инференса или обучения — который долго будет поддерживать актуальные нейронки, свяжитесь с нами в СервакМастер. Наши специалисты подберут оптимальную конфигурацию под ваши задачи и бюджет, помогут с установкой, настройкой программного окружения и проведут вас от выбора оборудования до успешного запуска.
