NVIDIA A100 40GB: архитектура Ampere, MIG и реальная производительность в задачах LLM


Введение

Ещё несколько лет назад NVIDIA A100 воспринималась как абсолютная вершина серверных вычислений. Каждый инженер, работающий с ИИ или HPC, мечтал получить к ней доступ. И это неудивительно: архитектура Ampere принесла с собой целый букет инноваций — тензорные ядра третьего поколения, новые форматы TF32 и FP64 Tensor Core, а также нативную поддержку BF16, INT8 и INT4.

Сегодня в СервакМастер мы подробно разбираем эту карту: смотрим на её архитектурные особенности, изучаем характеристики и проверяем реальную производительность на актуальных LLM-движках.


Новые технологии архитектуры Ampere

Multi-Instance GPU (MIG)

Одной из ключевых особенностей A100 стала технология Multi-Instance GPU. Она позволяет разделить одну физическую видеокарту на до семи полностью изолированных виртуальных экземпляров — каждый со своими вычислительными ресурсами и выделенной памятью.

В версии 40 ГБ каждый MIG-экземпляр получает до 5 ГБ видеопамяти, а в версии 80 ГБ — до 10 ГБ. Технология отлично вписывается в современные инфраструктуры: поддерживается интеграция с Kubernetes, Docker-контейнерами и гипервизорами. Это особенно удобно для многопользовательских облачных платформ, где разные команды используют один и тот же физический ускоритель параллельно.

NVLink третьего поколения

A100 получила обновлённое межсоединение NVLink 3.0 в паре с NVSwitch. По сравнению с предыдущим поколением пропускная способность GPU-to-GPU удвоилась и достигла 600 ГБ/с. Благодаря этому можно объединять до восьми ускорителей в единое адресное пространство памяти — что критически важно для обучения очень крупных моделей, не умещающихся в памяти одной карты.

Новые форматы вычислений

TF32 — это умный компромисс между точностью и скоростью. 19-битный формат сочетает диапазон FP32 с точностью FP16 и ускоряет обучение нейросетей до 8x по сравнению с классическим FP32. Главное преимущество — TF32 включается автоматически, не требуя никаких изменений в существующем коде.

FP64 Tensor Core впервые добавил поддержку двойной точности непосредственно на тензорных ядрах. Это удвоило производительность в HPC-задачах — до 19,5 TFLOPS. Благодаря этому A100 стала универсальным ускорителем: одинаково пригодным как для задач ИИ, так и для научных симуляций, требующих высокой точности вычислений.

Структурная разреженность

Пожалуй, наиболее фундаментальное нововведение A100 — аппаратная поддержка структурной разреженности (Structured Sparsity).

Истоки идеи. Современные нейросети содержат миллиарды весовых коэффициентов, однако значительная их часть избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество результата. Обычный GPU обрабатывает их наравне со значимыми весами, расходуя вычислительные ресурсы впустую. Структурная разреженность — это механизм легализованного пропуска подобных операций.

Как это работает. NVIDIA реализовала жёсткий паттерн 2:4: в каждом блоке из четырёх весов ровно два должны быть нулями. Такая предсказуемая структура позволяет специализированным аппаратным блокам хранить только ненулевые значения и небольшую карту их позиций, обрабатывая вдвое меньше данных без потери точности.

Практические ограничения. На практике всё несколько сложнее. Для вывода на vLLM или SGLang структурная разреженность даёт эффект только при условии, что модель специально обучена с применением схемы 2:4 sparsity. Большинство публично доступных весов — Llama, Qwen, Mistral и другие — являются плотными (dense), поэтому заявленные «sparse» TFLOPS в реальном LLM-инференсе недостижимы. В практических задачах более значимым ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).


Технические характеристики NVIDIA A100

A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 насчитывает 54 миллиарда транзисторов на площади 826 мм² — на момент выхода это был крупнейший в мире процессор по площади кристалла.

Как и AMD с линейкой CDNA, NVIDIA с выходом A100 окончательно разделила игровое и вычислительное направления. Чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.

Вычислительное ядро

Вычислительное ядро состоит из 108 потоковых мультипроцессоров (SM). Каждый SM содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра.

Тензорные ядра — главный вычислительный инструмент A100. В отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр числовых форматов: FP64, TF32, BF16, FP16, INT8 и INT4.

Производительность по форматам

Режим TFLOPS/TOPS
FP64 9,7 TFLOPS
FP64 Tensor Core 19,5 TFLOPS
FP32 19,5 TFLOPS
TF32 Tensor Core 156 TFLOPS
BF16 / FP16 Tensor Core 312 TFLOPS
TF32 (sparse) 312 TFLOPS
BF16 / FP16 (sparse) 624 TFLOPS
INT8 (sparse) 1248 TOPS

Полная таблица характеристик

Основные параметры

  • Запуск: Q4 2020
  • Микроархитектура: Ampere
  • GPU: GA100
  • Техпроцесс: 7 нм (TSMC)
  • Площадь кристалла: 826 мм²
  • Количество транзисторов: 54 200 млн.

Вычислительные параметры

  • Потоковые процессоры (SP): 3840
  • CUDA-ядра: 6912
  • Тензорных ядер: 432
  • SM: 108
  • TMU: 432
  • Базовая частота: 1275 МГц
  • Максимальная частота: 1410 МГц

Кэш и память

  • L1-кэш: 192 КБ на SM
  • L2-кэш: 40 МБ
  • Тип памяти: HBM2e
  • Объём памяти: 40 ГБ
  • Шина памяти: 5120 бит
  • Эффективная частота памяти: 1215 МГц (2430 МГц)
  • Пропускная способность памяти: 1555 ГБ/с

Питание и интерфейс

  • TDP: 250 Вт
  • Интерфейс: PCIe 4.0 x16

Подсистема памяти

Память — одно из сильнейших качеств A100. Версия 40 ГБ оснащена пятью стеками HBM2e с суммарным объёмом 40 ГБ и выдающейся пропускной способностью 1555 ГБ/с по чрезвычайно широкой 5120-битной шине. Для сравнения: типичный потребительский GPU имеет шину в 256–384 бит — разница колоссальная.


Тест NVIDIA A100 в популярных LLM

NVIDIA традиционно отличается универсальностью программной экосистемы. A100 без каких-либо дополнительных настроек запускается с любым популярным движком — от простой Ollama до тонко настроенного SGLang. При желании можно работать даже в среде Windows — достаточно установить официальный драйвер с сайта NVIDIA.

llama.cpp

Модель Квантизация Скорость (токен/сек) До первого токена Контекст Примечания
GLM-4.7-flash 30B Q4_K_M 75,01 0,32 сек. 8192 Осмысленный диалог, чёткие и развёрнутые ответы
Gemma 4 E4B-it Q4_K_M 115,36 0,3 сек. 8192 Компактная модель от Google, быстрая и сообразительная
Qwen 3.6 35B-A3B Q4_K_M 129,04 0,6 сек. 8192 Актуальная замена Qwen 3.5, грамотные ответы
gpt-oss-20b MXFP4 173,52 0,13 сек. 8192 Быстрая и подробная генерация
Ministral 3 14B-Instruct Q4_K_M 80,49 0,11 сек. 8192 Исключительно развёрнутые и детальные ответы
Gemma 4 31B-it Q4_K_M 32,7 0,5 сек. 8192 Dense-модель семейства Gemma 4; лучше E4B, но не кратно

vLLM

Модель Квантизация Скорость (токен/сек) До первого токена Контекст Примечания
Mistral-7B-Instruct-v0.3 BF16 81,07 0,12 сек. 8192 Медленнее ожидаемого для своего размера; грамотные формулировки
Qwen 3.5 35B-A3B GPTQ 132,64 0,9 сек. 8192 Изредка проскальзывают китайские иероглифы
gpt-oss-20b MXFP4 195,03 0,05 сек. 8192 Быстрее и продуктивнее, чем на llama.cpp
Gemma 4 E4B-it BF16 93,57 0,1 сек. 8192 Подробные и осмысленные ответы
Ministral 3 14B-Reasoning BF16 46,49 0,21 сек. 8192 Развёрнутые ответы, слабая поддержка русского языка

SGLang

Модель Квантизация Скорость (токен/сек) До первого токена Контекст Примечания
Ministral 3 14B-Reasoning FP8 65,87 0,2 сек. 8192 Слабый русский; потребление VRAM выше на 10–15% vs vLLM
Phi 4 mini instruct BF16 110,08 0,27 сек. 8192 Шустрая модель Microsoft на 3,8 млрд параметров
Qwen 3 14B BF16 43,96 0,18 сек. 8192 Достойная модель, но без квантования тяжеловата для одной A100

Цель данных тестов — показать производительность A100 на реальных задачах, а не сравнивать движки инференса между собой.

Выводы по тестам

A100 по-прежнему остаётся мощным решением для инференса средних и крупных языковых моделей. Особенно хорошо она показывает себя с моделями на 7–35 млрд параметров и MoE-архитектурами с небольшим числом активных параметров.

Из интересных наблюдений: Ministral 3 14B-Reasoning на SGLang потребляет заметно больше видеопамяти, чем на vLLM. По этой причине запустить её в формате BF16 на 40-гигабайтной A100 не удалось — пришлось ограничиться FP8.


Температуры и охлаждение NVIDIA A100

Здесь начинаются практические трудности. NVIDIA A100 не имеет собственного активного охлаждения: она спроектирована для серверных стоек с принудительным общим обдувом. Для использования в десктопной системе потребуется организовать охлаждение самостоятельно.

A100 — редкая и специализированная видеокарта. В обычном компьютерном магазине подходящей системы охлаждения для неё не найти.

Самодельное решение

Выход — изготовить переходник своими руками. Процесс выглядит так:

  1. Проектируем 3D-модель кронштейна под 140-мм вентилятор.
  2. Печатаем несколько итераций на 3D-принтере (с первого раза редко выходит идеально).
  3. Прикрепляем готовый кронштейн к видеокарте, фиксируем вентилятор стяжками.

Да, турбинный вентилятор обеспечивал бы лучшее давление воздушного потока и более эффективный теплоотвод. Но найти приличную турбину оказалось куда сложнее, чем качественный 140-мм вертушок.

Несмотря на внешнюю кустарность конструкции, результат оказался вполне приемлемым:

  • В простое: ~50°C
  • Под нагрузкой (средняя): ~76°C
  • Хотспот в пике: ~80°C

Не рекорд, но для решения стоимостью около тысячи рублей — вполне достойный результат.


Заключение

NVIDIA A100 40GB и сегодня заслуживает уважения. Да, она уже не конкурирует с H100, H200 или B200 в задачах обучения очень крупных моделей. Но на вторичном рынке A100 остаётся сильным выбором для широкого круга задач:

  • CUDA-инференс моделей 7B–35B параметров
  • MoE-архитектуры с небольшим числом активных параметров
  • Тестирование и прототипирование на vLLM, SGLang, llama.cpp
  • HPC-задачи с требованием к FP64-точности (19,5 TFLOPS на тензорных ядрах)
  • Стабильная CUDA-экосистема для производственных сценариев

Если вас интересует приобретение NVIDIA A100 или других серверных ускорителей — свяжитесь с нами в СервакМастер, подберём подходящий вариант под ваши задачи и бюджет.