NVIDIA A100 40GB: архитектура Ampere, MIG и реальная производительность в задачах LLM
Введение
Ещё несколько лет назад NVIDIA A100 воспринималась как абсолютная вершина серверных вычислений. Каждый инженер, работающий с ИИ или HPC, мечтал получить к ней доступ. И это неудивительно: архитектура Ampere принесла с собой целый букет инноваций — тензорные ядра третьего поколения, новые форматы TF32 и FP64 Tensor Core, а также нативную поддержку BF16, INT8 и INT4.
Сегодня в СервакМастер мы подробно разбираем эту карту: смотрим на её архитектурные особенности, изучаем характеристики и проверяем реальную производительность на актуальных LLM-движках.
Новые технологии архитектуры Ampere
Multi-Instance GPU (MIG)
Одной из ключевых особенностей A100 стала технология Multi-Instance GPU. Она позволяет разделить одну физическую видеокарту на до семи полностью изолированных виртуальных экземпляров — каждый со своими вычислительными ресурсами и выделенной памятью.
В версии 40 ГБ каждый MIG-экземпляр получает до 5 ГБ видеопамяти, а в версии 80 ГБ — до 10 ГБ. Технология отлично вписывается в современные инфраструктуры: поддерживается интеграция с Kubernetes, Docker-контейнерами и гипервизорами. Это особенно удобно для многопользовательских облачных платформ, где разные команды используют один и тот же физический ускоритель параллельно.
NVLink третьего поколения
A100 получила обновлённое межсоединение NVLink 3.0 в паре с NVSwitch. По сравнению с предыдущим поколением пропускная способность GPU-to-GPU удвоилась и достигла 600 ГБ/с. Благодаря этому можно объединять до восьми ускорителей в единое адресное пространство памяти — что критически важно для обучения очень крупных моделей, не умещающихся в памяти одной карты.
Новые форматы вычислений
TF32 — это умный компромисс между точностью и скоростью. 19-битный формат сочетает диапазон FP32 с точностью FP16 и ускоряет обучение нейросетей до 8x по сравнению с классическим FP32. Главное преимущество — TF32 включается автоматически, не требуя никаких изменений в существующем коде.
FP64 Tensor Core впервые добавил поддержку двойной точности непосредственно на тензорных ядрах. Это удвоило производительность в HPC-задачах — до 19,5 TFLOPS. Благодаря этому A100 стала универсальным ускорителем: одинаково пригодным как для задач ИИ, так и для научных симуляций, требующих высокой точности вычислений.
Структурная разреженность
Пожалуй, наиболее фундаментальное нововведение A100 — аппаратная поддержка структурной разреженности (Structured Sparsity).
Истоки идеи. Современные нейросети содержат миллиарды весовых коэффициентов, однако значительная их часть избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество результата. Обычный GPU обрабатывает их наравне со значимыми весами, расходуя вычислительные ресурсы впустую. Структурная разреженность — это механизм легализованного пропуска подобных операций.
Как это работает. NVIDIA реализовала жёсткий паттерн 2:4: в каждом блоке из четырёх весов ровно два должны быть нулями. Такая предсказуемая структура позволяет специализированным аппаратным блокам хранить только ненулевые значения и небольшую карту их позиций, обрабатывая вдвое меньше данных без потери точности.
Практические ограничения. На практике всё несколько сложнее. Для вывода на vLLM или SGLang структурная разреженность даёт эффект только при условии, что модель специально обучена с применением схемы 2:4 sparsity. Большинство публично доступных весов — Llama, Qwen, Mistral и другие — являются плотными (dense), поэтому заявленные «sparse» TFLOPS в реальном LLM-инференсе недостижимы. В практических задачах более значимым ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).
Технические характеристики NVIDIA A100
A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 насчитывает 54 миллиарда транзисторов на площади 826 мм² — на момент выхода это был крупнейший в мире процессор по площади кристалла.
Как и AMD с линейкой CDNA, NVIDIA с выходом A100 окончательно разделила игровое и вычислительное направления. Чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.
Вычислительное ядро
Вычислительное ядро состоит из 108 потоковых мультипроцессоров (SM). Каждый SM содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра.
Тензорные ядра — главный вычислительный инструмент A100. В отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр числовых форматов: FP64, TF32, BF16, FP16, INT8 и INT4.
Производительность по форматам
| Режим | TFLOPS/TOPS |
|---|---|
| FP64 | 9,7 TFLOPS |
| FP64 Tensor Core | 19,5 TFLOPS |
| FP32 | 19,5 TFLOPS |
| TF32 Tensor Core | 156 TFLOPS |
| BF16 / FP16 Tensor Core | 312 TFLOPS |
| TF32 (sparse) | 312 TFLOPS |
| BF16 / FP16 (sparse) | 624 TFLOPS |
| INT8 (sparse) | 1248 TOPS |
Полная таблица характеристик
Основные параметры
- Запуск: Q4 2020
- Микроархитектура: Ampere
- GPU: GA100
- Техпроцесс: 7 нм (TSMC)
- Площадь кристалла: 826 мм²
- Количество транзисторов: 54 200 млн.
Вычислительные параметры
- Потоковые процессоры (SP): 3840
- CUDA-ядра: 6912
- Тензорных ядер: 432
- SM: 108
- TMU: 432
- Базовая частота: 1275 МГц
- Максимальная частота: 1410 МГц
Кэш и память
- L1-кэш: 192 КБ на SM
- L2-кэш: 40 МБ
- Тип памяти: HBM2e
- Объём памяти: 40 ГБ
- Шина памяти: 5120 бит
- Эффективная частота памяти: 1215 МГц (2430 МГц)
- Пропускная способность памяти: 1555 ГБ/с
Питание и интерфейс
- TDP: 250 Вт
- Интерфейс: PCIe 4.0 x16
Подсистема памяти
Память — одно из сильнейших качеств A100. Версия 40 ГБ оснащена пятью стеками HBM2e с суммарным объёмом 40 ГБ и выдающейся пропускной способностью 1555 ГБ/с по чрезвычайно широкой 5120-битной шине. Для сравнения: типичный потребительский GPU имеет шину в 256–384 бит — разница колоссальная.
Тест NVIDIA A100 в популярных LLM
NVIDIA традиционно отличается универсальностью программной экосистемы. A100 без каких-либо дополнительных настроек запускается с любым популярным движком — от простой Ollama до тонко настроенного SGLang. При желании можно работать даже в среде Windows — достаточно установить официальный драйвер с сайта NVIDIA.
llama.cpp
| Модель | Квантизация | Скорость (токен/сек) | До первого токена | Контекст | Примечания |
|---|---|---|---|---|---|
| GLM-4.7-flash 30B | Q4_K_M | 75,01 | 0,32 сек. | 8192 | Осмысленный диалог, чёткие и развёрнутые ответы |
| Gemma 4 E4B-it | Q4_K_M | 115,36 | 0,3 сек. | 8192 | Компактная модель от Google, быстрая и сообразительная |
| Qwen 3.6 35B-A3B | Q4_K_M | 129,04 | 0,6 сек. | 8192 | Актуальная замена Qwen 3.5, грамотные ответы |
| gpt-oss-20b | MXFP4 | 173,52 | 0,13 сек. | 8192 | Быстрая и подробная генерация |
| Ministral 3 14B-Instruct | Q4_K_M | 80,49 | 0,11 сек. | 8192 | Исключительно развёрнутые и детальные ответы |
| Gemma 4 31B-it | Q4_K_M | 32,7 | 0,5 сек. | 8192 | Dense-модель семейства Gemma 4; лучше E4B, но не кратно |
vLLM
| Модель | Квантизация | Скорость (токен/сек) | До первого токена | Контекст | Примечания |
|---|---|---|---|---|---|
| Mistral-7B-Instruct-v0.3 | BF16 | 81,07 | 0,12 сек. | 8192 | Медленнее ожидаемого для своего размера; грамотные формулировки |
| Qwen 3.5 35B-A3B | GPTQ | 132,64 | 0,9 сек. | 8192 | Изредка проскальзывают китайские иероглифы |
| gpt-oss-20b | MXFP4 | 195,03 | 0,05 сек. | 8192 | Быстрее и продуктивнее, чем на llama.cpp |
| Gemma 4 E4B-it | BF16 | 93,57 | 0,1 сек. | 8192 | Подробные и осмысленные ответы |
| Ministral 3 14B-Reasoning | BF16 | 46,49 | 0,21 сек. | 8192 | Развёрнутые ответы, слабая поддержка русского языка |
SGLang
| Модель | Квантизация | Скорость (токен/сек) | До первого токена | Контекст | Примечания |
|---|---|---|---|---|---|
| Ministral 3 14B-Reasoning | FP8 | 65,87 | 0,2 сек. | 8192 | Слабый русский; потребление VRAM выше на 10–15% vs vLLM |
| Phi 4 mini instruct | BF16 | 110,08 | 0,27 сек. | 8192 | Шустрая модель Microsoft на 3,8 млрд параметров |
| Qwen 3 14B | BF16 | 43,96 | 0,18 сек. | 8192 | Достойная модель, но без квантования тяжеловата для одной A100 |
Цель данных тестов — показать производительность A100 на реальных задачах, а не сравнивать движки инференса между собой.
Выводы по тестам
A100 по-прежнему остаётся мощным решением для инференса средних и крупных языковых моделей. Особенно хорошо она показывает себя с моделями на 7–35 млрд параметров и MoE-архитектурами с небольшим числом активных параметров.
Из интересных наблюдений: Ministral 3 14B-Reasoning на SGLang потребляет заметно больше видеопамяти, чем на vLLM. По этой причине запустить её в формате BF16 на 40-гигабайтной A100 не удалось — пришлось ограничиться FP8.
Температуры и охлаждение NVIDIA A100
Здесь начинаются практические трудности. NVIDIA A100 не имеет собственного активного охлаждения: она спроектирована для серверных стоек с принудительным общим обдувом. Для использования в десктопной системе потребуется организовать охлаждение самостоятельно.
A100 — редкая и специализированная видеокарта. В обычном компьютерном магазине подходящей системы охлаждения для неё не найти.
Самодельное решение
Выход — изготовить переходник своими руками. Процесс выглядит так:
- Проектируем 3D-модель кронштейна под 140-мм вентилятор.
- Печатаем несколько итераций на 3D-принтере (с первого раза редко выходит идеально).
- Прикрепляем готовый кронштейн к видеокарте, фиксируем вентилятор стяжками.
Да, турбинный вентилятор обеспечивал бы лучшее давление воздушного потока и более эффективный теплоотвод. Но найти приличную турбину оказалось куда сложнее, чем качественный 140-мм вертушок.
Несмотря на внешнюю кустарность конструкции, результат оказался вполне приемлемым:
- В простое: ~50°C
- Под нагрузкой (средняя): ~76°C
- Хотспот в пике: ~80°C
Не рекорд, но для решения стоимостью около тысячи рублей — вполне достойный результат.
Заключение
NVIDIA A100 40GB и сегодня заслуживает уважения. Да, она уже не конкурирует с H100, H200 или B200 в задачах обучения очень крупных моделей. Но на вторичном рынке A100 остаётся сильным выбором для широкого круга задач:
- CUDA-инференс моделей 7B–35B параметров
- MoE-архитектуры с небольшим числом активных параметров
- Тестирование и прототипирование на vLLM, SGLang, llama.cpp
- HPC-задачи с требованием к FP64-точности (19,5 TFLOPS на тензорных ядрах)
- Стабильная CUDA-экосистема для производственных сценариев
Если вас интересует приобретение NVIDIA A100 или других серверных ускорителей — свяжитесь с нами в СервакМастер, подберём подходящий вариант под ваши задачи и бюджет.
