Параметры LLM-моделей: зачем DeepSeek выпускается в версиях 7B, 70B и 405B
~ 10 мин
Введение
Если вы регулярно читаете новости об искусственном интеллекте, то наверняка замечали загадочные приписки рядом с именами нейросетей: 3b, 7b, 70b, 671b. На первый взгляд кажется, что это просто маркетинговые индексы, не несущие практической информации. Но на самом деле эти цифры раскрывают ключевую характеристику любой ИИ-модели — количество параметров. Именно параметры определяют, насколько модель способна понимать контекст, делать выводы и генерировать осмысленные ответы. В этой статье специалисты СервакМастер подробно разберут, что такое параметры языковых моделей, почему их считают миллиардами, сколько памяти они занимают и как это всё влияет на выбор серверного оборудования для локального инференса.
Что такое параметры модели — объясняем простыми словами
Представьте себе нейронную сеть, которую обучают распознавать изображения кошек и собак. Системе показывают тысячи фотографий, и она постепенно учится выделять характерные признаки: форму ушей, пропорции морды, тип шерсти. Чтобы зафиксировать эти закономерности, сеть использует внутренние числовые настройки — их и называют параметрами. Каждый параметр описывает силу связи между двумя «нейронами» внутри модели. В процессе обучения эти числа непрерывно корректируются, пока модель не начнёт ошибаться как можно реже.
Когда вы слышите, что у модели 7 миллиардов параметров, это означает буквально следующее: внутри неё хранится 7 000 000 000 чисел, совокупность которых и определяет логику её «мышления». Нейронная сеть состоит из множества слоёв, в каждом — тысячи нейронов, связанных между собой. Одни отвечают за грамматику, другие — за смысл, третьи — за улавливание связей между далеко расположенными частями текста. Когда модель встречает новый запрос, она не ищет его в базе данных, а пропускает через всю систему параметров, извлекая из них релевантные паттерны.
По сути, параметры — это кристаллизованный опыт модели. Аналогия с человеком: если бы мы хранили воспоминания не как образы и эмоции, а как численные зависимости — «яблоко близко к понятию "фрукт"», «яблоко далеко от понятия "автомобиль"» — вот это и было бы аналогом параметров.
Технически параметры делятся на веса (weights) и смещения (biases). Веса определяют, насколько один нейрон влияет на другой, смещения — смещают порог активации. Вместе они формируют всю «внутреннюю карту знаний» модели.
Почему параметров должно быть миллиарды
Возникает закономерный вопрос: почему не обойтись миллионом параметров? Ответ кроется в природе языка. Текст — невероятно сложная структура. Чтобы понять смысл одного предложения, модель должна учитывать грамматику, синтаксис, тематический контекст, культурные отсылки и многое другое. Для этого нужно множество слоёв абстракции.
- Первые слои улавливают отдельные символы и базовые сочетания.
- Средние слои начинают различать слова, фразы, части речи.
- Глубокие слои работают со смыслом, намерением, логическими связями.
Каждый переход требует новых связей, а каждая связь — своего набора параметров. Именно поэтому счёт идёт на миллиарды.
Вот как практически соотносятся масштабы моделей с реальными возможностями:
- 3B — компактная модель: пишет тексты, отвечает на простые вопросы, выполняет базовые задачи. Контекст короткий, сложные рассуждения даются с трудом. Работает на смартфоне или слабом ПК.
- 7B — уверенно ориентируется в более длинных диалогах, понимает нюансы смысла, способна рассуждать. Достаточно хорошей игровой видеокарты или мощного ноутбука.
- 70B — полноценные многошаговые рассуждения, глубокий анализ, качественная генерация кода и технических текстов. Требует нескольких GPU.
- 405B — выходит за рамки буквального понимания, анализирует намерения, контекст и подтекст. Нужен полноценный GPU-сервер.
Чем больше параметров — тем богаче «словарь» ассоциаций и тем сложнее цепочки логических связей, которые модель умеет выстраивать.
Почему «больше параметров» — не всегда «умнее»
Казалось бы, решение очевидно: добавить триллион параметров и получить идеальный ИИ. Но реальность сложнее.
Крупная модель может «тонуть» в избытке информации — теряет фокус, генерирует красивые, но неточные ответы. Маленькие же модели (7B, 13B), специализированно дообученные на конкретных задачах, нередко превосходят гигантов в своей нише: анализе кода, написании текстов определённого стиля, работе в ограниченном предметном домене.
Современная архитектурная мысль развивается именно в этом направлении. Модели семейств Qwen, Granite, GPT-OSS демонстрируют: важно не накопить параметры, а правильно ими распорядиться. Хрестоматийный пример — GPT-3.5 с 175 миллиардами параметров уступает по качеству ответов DeepSeek R1 с 70 миллиардами. Технологии Mixture of Experts (MoE) и multi-head attention позволяют задействовать лишь нужную часть параметров для каждого запроса, многократно повышая эффективность.
Аналогия из биологии: человек умнее дельфина не потому, что у нас больше нейронов (у дельфинов их больше), а потому, что наши нейроны связаны принципиально иначе. Хорошо «организованная» архитектура позволяет использовать параметры эффективно — как тренированный спортсмен, который тратит меньше усилий и достигает лучшего результата.
Характерный пример крайности — модель Ling-1T от InclusionAI (дочерняя компания Alibaba) с триллионом параметров. Для её запуска требуется около 2 ТБ видеопамяти. Результат: модель существует, но её никто не использует на практике.
Почему параметры требуют столько памяти
Каждый параметр — не абстракция, а конкретное число, хранящееся в оперативной или видеопамяти. Обычно это 16-битное значение (float16) или 8-битное (int8). Умножьте количество параметров на размер одного числа — и получите объём памяти:
- 7B параметров при float16 → ~14 ГБ VRAM
- 70B параметров → ~140 ГБ VRAM
- 405B параметров → ~810 ГБ только под веса модели
Это объясняет, почему для инференса крупных языковых моделей нужны GPU-ускорители с 80–141 ГБ видеопамяти, объединённые в кластеры через NVLink или AMD Infinity Fabric. Современные ускорители — NVIDIA GB300, AMD Instinct MI355X — разработаны именно с расчётом на такие нагрузки: они позволяют объединять несколько карт в единое адресное пространство памяти, чтобы вся модель помещалась целиком и эффективно использовалась.
В СервакМастер мы уделяем особое внимание именно этому вопросу при подборе серверов под задачи ИИ: расположению GPU по слотам, топологии NVLink, пропускной способности шины PCIe и энергетическому балансу стойки. Без правильно спроектированной инфраструктуры даже самая продвинутая модель остаётся набором чисел, которому просто некуда поместиться.
Как параметры влияют на инференс
В момент работы модели — когда она отвечает на вопрос, пишет код или решает задачу — никакого дополнительного обучения не происходит. Все миллиарды параметров зафиксированы. Инференс — это процесс вычисления очередного токена (слова, символа) на основании уже имеющихся параметров и текущего контекста.
Модель как будто обращается к своей внутренней библиотеке: просматривает параметры, находит наиболее релевантные паттерны и формирует ответ. Ключевое здесь — скорость доступа к памяти. Именно поэтому видеопамять важнее вычислительной мощности GPU: параметры нужно не только хранить, но и молниеносно считывать.
Специальные техники ускоряют этот процесс:
- KV-Cache — кэшированние вычисленных ключей и значений внимания, чтобы не пересчитывать весь контекст при генерации каждого нового токена.
- FlashAttention — оптимизированный алгоритм механизма внимания, сокращающий потребление памяти и увеличивающий пропускную способность.
- Квантизация — перевод весов из float16 в int8 или int4, что вдвое-четырежды снижает объём занимаемой VRAM при приемлемых потерях качества.
Если использовать метафору: параметры — это фонды библиотеки, а инференс — скорость, с которой библиотекарь находит нужную книгу. Чем богаче фонды и быстрее поиск — тем ценнее такая библиотека.
Практические выводы для выбора оборудования
Понимание природы параметров напрямую влияет на выбор серверного железа. Приведём ориентиры:
| Модель | Параметры | Минимальная VRAM | Рекомендуемое железо |
|---|---|---|---|
| DeepSeek 7B | 7B | 14 ГБ | 1× NVIDIA RTX 4090 / A10G |
| DeepSeek 70B | 70B | 140 ГБ | 2× NVIDIA A100 80G или H100 |
| DeepSeek 405B | 405B | 810+ ГБ | Кластер из 8–16× H100/H200 |
| DeepSeek 671B (MoE) | 671B (активно ~37B) | ~350 ГБ | 4–8× H100 благодаря MoE |
Архитектура MoE у DeepSeek 671B — отличный пример того, как грамотная инженерия сокращает реальные требования: активируется лишь часть параметров, что снижает потребление VRAM примерно вдвое по сравнению с «плотными» моделями аналогичного размера.
Итог
Параметры языковой модели — это её накопленный опыт, закодированный в миллиардах чисел. Каждый параметр хранит крошечный фрагмент знания, а вместе они формируют способность понимать язык и генерировать осмысленный текст. При этом количество параметров само по себе не гарантирует качество: архитектура, данные для обучения и техники дообучения не менее важны.
С практической точки зрения рост числа параметров означает рост требований к серверной инфраструктуре: объёму видеопамяти, межпроцессорной пропускной способности, системе охлаждения и электропитания. Именно поэтому в СервакМастер мы рассматриваем параметры не как абстрактные цифры, а как реальную нагрузку на железо. Мы поможем подобрать конфигурацию GPU-сервера, которая позволит вашей модели думать быстрее, хранить больше и отвечать точнее. Свяжитесь с нами — и мы рассчитаем оптимальное решение под ваши задачи.
В блоге СервакМастер вы найдёте другие материалы о внутреннем устройстве нейросетей: токены, KV-Cache, FlashAttention, квантизация — и всё это в связке с реальным серверным оборудованием.
