Параметры LLM-моделей: зачем DeepSeek выпускается в версиях 7B, 70B и 405B

~ 10 мин

Введение

Если вы регулярно читаете новости об искусственном интеллекте, то наверняка замечали загадочные приписки рядом с именами нейросетей: 3b, 7b, 70b, 671b. На первый взгляд кажется, что это просто маркетинговые индексы, не несущие практической информации. Но на самом деле эти цифры раскрывают ключевую характеристику любой ИИ-модели — количество параметров. Именно параметры определяют, насколько модель способна понимать контекст, делать выводы и генерировать осмысленные ответы. В этой статье специалисты СервакМастер подробно разберут, что такое параметры языковых моделей, почему их считают миллиардами, сколько памяти они занимают и как это всё влияет на выбор серверного оборудования для локального инференса.

Что такое параметры модели — объясняем простыми словами

Представьте себе нейронную сеть, которую обучают распознавать изображения кошек и собак. Системе показывают тысячи фотографий, и она постепенно учится выделять характерные признаки: форму ушей, пропорции морды, тип шерсти. Чтобы зафиксировать эти закономерности, сеть использует внутренние числовые настройки — их и называют параметрами. Каждый параметр описывает силу связи между двумя «нейронами» внутри модели. В процессе обучения эти числа непрерывно корректируются, пока модель не начнёт ошибаться как можно реже.

Когда вы слышите, что у модели 7 миллиардов параметров, это означает буквально следующее: внутри неё хранится 7 000 000 000 чисел, совокупность которых и определяет логику её «мышления». Нейронная сеть состоит из множества слоёв, в каждом — тысячи нейронов, связанных между собой. Одни отвечают за грамматику, другие — за смысл, третьи — за улавливание связей между далеко расположенными частями текста. Когда модель встречает новый запрос, она не ищет его в базе данных, а пропускает через всю систему параметров, извлекая из них релевантные паттерны.

По сути, параметры — это кристаллизованный опыт модели. Аналогия с человеком: если бы мы хранили воспоминания не как образы и эмоции, а как численные зависимости — «яблоко близко к понятию "фрукт"», «яблоко далеко от понятия "автомобиль"» — вот это и было бы аналогом параметров.

Технически параметры делятся на веса (weights) и смещения (biases). Веса определяют, насколько один нейрон влияет на другой, смещения — смещают порог активации. Вместе они формируют всю «внутреннюю карту знаний» модели.

Почему параметров должно быть миллиарды

Возникает закономерный вопрос: почему не обойтись миллионом параметров? Ответ кроется в природе языка. Текст — невероятно сложная структура. Чтобы понять смысл одного предложения, модель должна учитывать грамматику, синтаксис, тематический контекст, культурные отсылки и многое другое. Для этого нужно множество слоёв абстракции.

Первые слои улавливают отдельные символы и базовые сочетания.
Средние слои начинают различать слова, фразы, части речи.
Глубокие слои работают со смыслом, намерением, логическими связями.

Каждый переход требует новых связей, а каждая связь — своего набора параметров. Именно поэтому счёт идёт на миллиарды.

Вот как практически соотносятся масштабы моделей с реальными возможностями:

3B — компактная модель: пишет тексты, отвечает на простые вопросы, выполняет базовые задачи. Контекст короткий, сложные рассуждения даются с трудом. Работает на смартфоне или слабом ПК.
7B — уверенно ориентируется в более длинных диалогах, понимает нюансы смысла, способна рассуждать. Достаточно хорошей игровой видеокарты или мощного ноутбука.
70B — полноценные многошаговые рассуждения, глубокий анализ, качественная генерация кода и технических текстов. Требует нескольких GPU.
405B — выходит за рамки буквального понимания, анализирует намерения, контекст и подтекст. Нужен полноценный GPU-сервер.

Чем больше параметров — тем богаче «словарь» ассоциаций и тем сложнее цепочки логических связей, которые модель умеет выстраивать.

Почему «больше параметров» — не всегда «умнее»

Казалось бы, решение очевидно: добавить триллион параметров и получить идеальный ИИ. Но реальность сложнее.

Крупная модель может «тонуть» в избытке информации — теряет фокус, генерирует красивые, но неточные ответы. Маленькие же модели (7B, 13B), специализированно дообученные на конкретных задачах, нередко превосходят гигантов в своей нише: анализе кода, написании текстов определённого стиля, работе в ограниченном предметном домене.

Современная архитектурная мысль развивается именно в этом направлении. Модели семейств Qwen, Granite, GPT-OSS демонстрируют: важно не накопить параметры, а правильно ими распорядиться. Хрестоматийный пример — GPT-3.5 с 175 миллиардами параметров уступает по качеству ответов DeepSeek R1 с 70 миллиардами. Технологии Mixture of Experts (MoE) и multi-head attention позволяют задействовать лишь нужную часть параметров для каждого запроса, многократно повышая эффективность.

Аналогия из биологии: человек умнее дельфина не потому, что у нас больше нейронов (у дельфинов их больше), а потому, что наши нейроны связаны принципиально иначе. Хорошо «организованная» архитектура позволяет использовать параметры эффективно — как тренированный спортсмен, который тратит меньше усилий и достигает лучшего результата.

Характерный пример крайности — модель Ling-1T от InclusionAI (дочерняя компания Alibaba) с триллионом параметров. Для её запуска требуется около 2 ТБ видеопамяти. Результат: модель существует, но её никто не использует на практике.

Почему параметры требуют столько памяти

Каждый параметр — не абстракция, а конкретное число, хранящееся в оперативной или видеопамяти. Обычно это 16-битное значение (float16) или 8-битное (int8). Умножьте количество параметров на размер одного числа — и получите объём памяти:

7B параметров при float16 → ~14 ГБ VRAM
70B параметров → ~140 ГБ VRAM
405B параметров → ~810 ГБ только под веса модели

Это объясняет, почему для инференса крупных языковых моделей нужны GPU-ускорители с 80–141 ГБ видеопамяти, объединённые в кластеры через NVLink или AMD Infinity Fabric. Современные ускорители — NVIDIA GB300, AMD Instinct MI355X — разработаны именно с расчётом на такие нагрузки: они позволяют объединять несколько карт в единое адресное пространство памяти, чтобы вся модель помещалась целиком и эффективно использовалась.

В СервакМастер мы уделяем особое внимание именно этому вопросу при подборе серверов под задачи ИИ: расположению GPU по слотам, топологии NVLink, пропускной способности шины PCIe и энергетическому балансу стойки. Без правильно спроектированной инфраструктуры даже самая продвинутая модель остаётся набором чисел, которому просто некуда поместиться.

Как параметры влияют на инференс

В момент работы модели — когда она отвечает на вопрос, пишет код или решает задачу — никакого дополнительного обучения не происходит. Все миллиарды параметров зафиксированы. Инференс — это процесс вычисления очередного токена (слова, символа) на основании уже имеющихся параметров и текущего контекста.

Модель как будто обращается к своей внутренней библиотеке: просматривает параметры, находит наиболее релевантные паттерны и формирует ответ. Ключевое здесь — скорость доступа к памяти. Именно поэтому видеопамять важнее вычислительной мощности GPU: параметры нужно не только хранить, но и молниеносно считывать.

Специальные техники ускоряют этот процесс:

KV-Cache — кэшированние вычисленных ключей и значений внимания, чтобы не пересчитывать весь контекст при генерации каждого нового токена.
FlashAttention — оптимизированный алгоритм механизма внимания, сокращающий потребление памяти и увеличивающий пропускную способность.
Квантизация — перевод весов из float16 в int8 или int4, что вдвое-четырежды снижает объём занимаемой VRAM при приемлемых потерях качества.

Если использовать метафору: параметры — это фонды библиотеки, а инференс — скорость, с которой библиотекарь находит нужную книгу. Чем богаче фонды и быстрее поиск — тем ценнее такая библиотека.

Практические выводы для выбора оборудования

Понимание природы параметров напрямую влияет на выбор серверного железа. Приведём ориентиры:

Модель	Параметры	Минимальная VRAM	Рекомендуемое железо
DeepSeek 7B	7B	14 ГБ	1× NVIDIA RTX 4090 / A10G
DeepSeek 70B	70B	140 ГБ	2× NVIDIA A100 80G или H100
DeepSeek 405B	405B	810+ ГБ	Кластер из 8–16× H100/H200
DeepSeek 671B (MoE)	671B (активно ~37B)	~350 ГБ	4–8× H100 благодаря MoE

Архитектура MoE у DeepSeek 671B — отличный пример того, как грамотная инженерия сокращает реальные требования: активируется лишь часть параметров, что снижает потребление VRAM примерно вдвое по сравнению с «плотными» моделями аналогичного размера.

Итог

Параметры языковой модели — это её накопленный опыт, закодированный в миллиардах чисел. Каждый параметр хранит крошечный фрагмент знания, а вместе они формируют способность понимать язык и генерировать осмысленный текст. При этом количество параметров само по себе не гарантирует качество: архитектура, данные для обучения и техники дообучения не менее важны.

С практической точки зрения рост числа параметров означает рост требований к серверной инфраструктуре: объёму видеопамяти, межпроцессорной пропускной способности, системе охлаждения и электропитания. Именно поэтому в СервакМастер мы рассматриваем параметры не как абстрактные цифры, а как реальную нагрузку на железо. Мы поможем подобрать конфигурацию GPU-сервера, которая позволит вашей модели думать быстрее, хранить больше и отвечать точнее. Свяжитесь с нами — и мы рассчитаем оптимальное решение под ваши задачи.

В блоге СервакМастер вы найдёте другие материалы о внутреннем устройстве нейросетей: токены, KV-Cache, FlashAttention, квантизация — и всё это в связке с реальным серверным оборудованием.