NVIDIA A100 40GB: архитектура Ampere, MIG и реальная производительность в задачах LLM

Введение

Ещё несколько лет назад NVIDIA A100 воспринималась как абсолютная вершина серверных вычислений. Каждый инженер, работающий с ИИ или HPC, мечтал получить к ней доступ. И это неудивительно: архитектура Ampere принесла с собой целый букет инноваций — тензорные ядра третьего поколения, новые форматы TF32 и FP64 Tensor Core, а также нативную поддержку BF16, INT8 и INT4.

Сегодня в СервакМастер мы подробно разбираем эту карту: смотрим на её архитектурные особенности, изучаем характеристики и проверяем реальную производительность на актуальных LLM-движках.

Новые технологии архитектуры Ampere

Multi-Instance GPU (MIG)

Одной из ключевых особенностей A100 стала технология Multi-Instance GPU. Она позволяет разделить одну физическую видеокарту на до семи полностью изолированных виртуальных экземпляров — каждый со своими вычислительными ресурсами и выделенной памятью.

В версии 40 ГБ каждый MIG-экземпляр получает до 5 ГБ видеопамяти, а в версии 80 ГБ — до 10 ГБ. Технология отлично вписывается в современные инфраструктуры: поддерживается интеграция с Kubernetes, Docker-контейнерами и гипервизорами. Это особенно удобно для многопользовательских облачных платформ, где разные команды используют один и тот же физический ускоритель параллельно.

NVLink третьего поколения

A100 получила обновлённое межсоединение NVLink 3.0 в паре с NVSwitch. По сравнению с предыдущим поколением пропускная способность GPU-to-GPU удвоилась и достигла 600 ГБ/с. Благодаря этому можно объединять до восьми ускорителей в единое адресное пространство памяти — что критически важно для обучения очень крупных моделей, не умещающихся в памяти одной карты.

Новые форматы вычислений

TF32 — это умный компромисс между точностью и скоростью. 19-битный формат сочетает диапазон FP32 с точностью FP16 и ускоряет обучение нейросетей до 8x по сравнению с классическим FP32. Главное преимущество — TF32 включается автоматически, не требуя никаких изменений в существующем коде.

FP64 Tensor Core впервые добавил поддержку двойной точности непосредственно на тензорных ядрах. Это удвоило производительность в HPC-задачах — до 19,5 TFLOPS. Благодаря этому A100 стала универсальным ускорителем: одинаково пригодным как для задач ИИ, так и для научных симуляций, требующих высокой точности вычислений.

Структурная разреженность

Пожалуй, наиболее фундаментальное нововведение A100 — аппаратная поддержка структурной разреженности (Structured Sparsity).

Истоки идеи. Современные нейросети содержат миллиарды весовых коэффициентов, однако значительная их часть избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество результата. Обычный GPU обрабатывает их наравне со значимыми весами, расходуя вычислительные ресурсы впустую. Структурная разреженность — это механизм легализованного пропуска подобных операций.

Как это работает. NVIDIA реализовала жёсткий паттерн 2:4: в каждом блоке из четырёх весов ровно два должны быть нулями. Такая предсказуемая структура позволяет специализированным аппаратным блокам хранить только ненулевые значения и небольшую карту их позиций, обрабатывая вдвое меньше данных без потери точности.

Практические ограничения. На практике всё несколько сложнее. Для вывода на vLLM или SGLang структурная разреженность даёт эффект только при условии, что модель специально обучена с применением схемы 2:4 sparsity. Большинство публично доступных весов — Llama, Qwen, Mistral и другие — являются плотными (dense), поэтому заявленные «sparse» TFLOPS в реальном LLM-инференсе недостижимы. В практических задачах более значимым ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).

Технические характеристики NVIDIA A100

A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 насчитывает 54 миллиарда транзисторов на площади 826 мм² — на момент выхода это был крупнейший в мире процессор по площади кристалла.

Как и AMD с линейкой CDNA, NVIDIA с выходом A100 окончательно разделила игровое и вычислительное направления. Чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.

Вычислительное ядро

Вычислительное ядро состоит из 108 потоковых мультипроцессоров (SM). Каждый SM содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра.

Тензорные ядра — главный вычислительный инструмент A100. В отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр числовых форматов: FP64, TF32, BF16, FP16, INT8 и INT4.

Производительность по форматам

Режим	TFLOPS/TOPS
FP64	9,7 TFLOPS
FP64 Tensor Core	19,5 TFLOPS
FP32	19,5 TFLOPS
TF32 Tensor Core	156 TFLOPS
BF16 / FP16 Tensor Core	312 TFLOPS
TF32 (sparse)	312 TFLOPS
BF16 / FP16 (sparse)	624 TFLOPS
INT8 (sparse)	1248 TOPS

Полная таблица характеристик

Основные параметры

Запуск: Q4 2020
Микроархитектура: Ampere
GPU: GA100
Техпроцесс: 7 нм (TSMC)
Площадь кристалла: 826 мм²
Количество транзисторов: 54 200 млн.

Вычислительные параметры

Потоковые процессоры (SP): 3840
CUDA-ядра: 6912
Тензорных ядер: 432
SM: 108
TMU: 432
Базовая частота: 1275 МГц
Максимальная частота: 1410 МГц

Кэш и память

L1-кэш: 192 КБ на SM
L2-кэш: 40 МБ
Тип памяти: HBM2e
Объём памяти: 40 ГБ
Шина памяти: 5120 бит
Эффективная частота памяти: 1215 МГц (2430 МГц)
Пропускная способность памяти: 1555 ГБ/с

Питание и интерфейс

TDP: 250 Вт
Интерфейс: PCIe 4.0 x16

Подсистема памяти

Память — одно из сильнейших качеств A100. Версия 40 ГБ оснащена пятью стеками HBM2e с суммарным объёмом 40 ГБ и выдающейся пропускной способностью 1555 ГБ/с по чрезвычайно широкой 5120-битной шине. Для сравнения: типичный потребительский GPU имеет шину в 256–384 бит — разница колоссальная.

Тест NVIDIA A100 в популярных LLM

NVIDIA традиционно отличается универсальностью программной экосистемы. A100 без каких-либо дополнительных настроек запускается с любым популярным движком — от простой Ollama до тонко настроенного SGLang. При желании можно работать даже в среде Windows — достаточно установить официальный драйвер с сайта NVIDIA.

llama.cpp

Модель	Квантизация	Скорость (токен/сек)	До первого токена	Контекст	Примечания
GLM-4.7-flash 30B	Q4_K_M	75,01	0,32 сек.	8192	Осмысленный диалог, чёткие и развёрнутые ответы
Gemma 4 E4B-it	Q4_K_M	115,36	0,3 сек.	8192	Компактная модель от Google, быстрая и сообразительная
Qwen 3.6 35B-A3B	Q4_K_M	129,04	0,6 сек.	8192	Актуальная замена Qwen 3.5, грамотные ответы
gpt-oss-20b	MXFP4	173,52	0,13 сек.	8192	Быстрая и подробная генерация
Ministral 3 14B-Instruct	Q4_K_M	80,49	0,11 сек.	8192	Исключительно развёрнутые и детальные ответы
Gemma 4 31B-it	Q4_K_M	32,7	0,5 сек.	8192	Dense-модель семейства Gemma 4; лучше E4B, но не кратно

vLLM

Модель	Квантизация	Скорость (токен/сек)	До первого токена	Контекст	Примечания
Mistral-7B-Instruct-v0.3	BF16	81,07	0,12 сек.	8192	Медленнее ожидаемого для своего размера; грамотные формулировки
Qwen 3.5 35B-A3B	GPTQ	132,64	0,9 сек.	8192	Изредка проскальзывают китайские иероглифы
gpt-oss-20b	MXFP4	195,03	0,05 сек.	8192	Быстрее и продуктивнее, чем на llama.cpp
Gemma 4 E4B-it	BF16	93,57	0,1 сек.	8192	Подробные и осмысленные ответы
Ministral 3 14B-Reasoning	BF16	46,49	0,21 сек.	8192	Развёрнутые ответы, слабая поддержка русского языка

SGLang

Модель	Квантизация	Скорость (токен/сек)	До первого токена	Контекст	Примечания
Ministral 3 14B-Reasoning	FP8	65,87	0,2 сек.	8192	Слабый русский; потребление VRAM выше на 10–15% vs vLLM
Phi 4 mini instruct	BF16	110,08	0,27 сек.	8192	Шустрая модель Microsoft на 3,8 млрд параметров
Qwen 3 14B	BF16	43,96	0,18 сек.	8192	Достойная модель, но без квантования тяжеловата для одной A100

Цель данных тестов — показать производительность A100 на реальных задачах, а не сравнивать движки инференса между собой.

Выводы по тестам

A100 по-прежнему остаётся мощным решением для инференса средних и крупных языковых моделей. Особенно хорошо она показывает себя с моделями на 7–35 млрд параметров и MoE-архитектурами с небольшим числом активных параметров.

Из интересных наблюдений: Ministral 3 14B-Reasoning на SGLang потребляет заметно больше видеопамяти, чем на vLLM. По этой причине запустить её в формате BF16 на 40-гигабайтной A100 не удалось — пришлось ограничиться FP8.

Температуры и охлаждение NVIDIA A100

Здесь начинаются практические трудности. NVIDIA A100 не имеет собственного активного охлаждения: она спроектирована для серверных стоек с принудительным общим обдувом. Для использования в десктопной системе потребуется организовать охлаждение самостоятельно.

A100 — редкая и специализированная видеокарта. В обычном компьютерном магазине подходящей системы охлаждения для неё не найти.

Самодельное решение

Выход — изготовить переходник своими руками. Процесс выглядит так:

Проектируем 3D-модель кронштейна под 140-мм вентилятор.
Печатаем несколько итераций на 3D-принтере (с первого раза редко выходит идеально).
Прикрепляем готовый кронштейн к видеокарте, фиксируем вентилятор стяжками.

Да, турбинный вентилятор обеспечивал бы лучшее давление воздушного потока и более эффективный теплоотвод. Но найти приличную турбину оказалось куда сложнее, чем качественный 140-мм вертушок.

Несмотря на внешнюю кустарность конструкции, результат оказался вполне приемлемым:

В простое: ~50°C
Под нагрузкой (средняя): ~76°C
Хотспот в пике: ~80°C

Не рекорд, но для решения стоимостью около тысячи рублей — вполне достойный результат.

Заключение

NVIDIA A100 40GB и сегодня заслуживает уважения. Да, она уже не конкурирует с H100, H200 или B200 в задачах обучения очень крупных моделей. Но на вторичном рынке A100 остаётся сильным выбором для широкого круга задач:

CUDA-инференс моделей 7B–35B параметров
MoE-архитектуры с небольшим числом активных параметров
Тестирование и прототипирование на vLLM, SGLang, llama.cpp
HPC-задачи с требованием к FP64-точности (19,5 TFLOPS на тензорных ядрах)
Стабильная CUDA-экосистема для производственных сценариев

Если вас интересует приобретение NVIDIA A100 или других серверных ускорителей — свяжитесь с нами в СервакМастер, подберём подходящий вариант под ваши задачи и бюджет.