Введение

Современные крупные языковые и мультимодальные модели раздвигают границы возможного, однако за этим стоит экспоненциальный рост числа параметров. Сотни миллиардов и даже триллионы параметров порождают колоссальные вычислительные издержки, огромное энергопотребление и серьёзные трудности при обучении и развёртывании. Индустрия активно ищет архитектурные альтернативы, способные удержать высокое качество моделей-гигантов, одновременно снизив их «вес» и ресурсоёмкость.

Одним из самых перспективных ответов на этот вызов стала архитектура Mixture of Experts (MoE) — подход, предлагающий элегантный маршрут к созданию масштабируемых и экономичных систем ИИ. В этой статье команда СервакМастер разбирает, как работает MoE, какие задачи она решает и в каких флагманских моделях уже применяется сегодня.


Принцип работы Mixture of Experts: специализация вместо монолита

Основная идея

Классическая (плотная, или dense) нейронная сеть обрабатывает каждый входной токен, задействуя все свои параметры. MoE предлагает принципиально иное устройство: вместо единого монолита создаётся коллектив специализированных подмодулей — экспертов.

При обработке каждого токена активируется не весь набор параметров, а лишь небольшое подмножество экспертов — как правило, 2–4. Остальные эксперты в этот момент не участвуют в вычислениях, что резко снижает фактическую вычислительную нагрузку.

Кто такие «эксперты»

Каждый эксперт — это самостоятельная нейронная сеть (обычно feed-forward блок) со своим набором параметров. По архитектуре они похожи друг на друга, однако в ходе обучения каждый неявно специализируется на определённых типах данных или концепциях:

  • один эксперт может специализироваться на научной и технической терминологии;
  • другой — на разговорной и неформальной речи;
  • третий — на финансовых или математических данных;
  • четвёртый — на синтаксических структурах и грамматических паттернах.

Специализация возникает органически в процессе обучения — без явных меток или ручного назначения ролей.

Динамическая активация: не все сразу

Ключевой механизм MoE — разреженная (sparse) активация. При обработке каждого токена задействуется лишь топ-K экспертов (K = 2, 3 или 4 в большинстве реализаций). Это означает, что реальные вычисления проходят лишь через крошечную долю всех параметров модели — даже если их суммарное число достигает сотен миллиардов.

Роль маршрутизатора (Router Layer)

Выбором активных экспертов управляет специальный компонент — слой-маршрутизатор. Его работа выглядит так:

  1. Маршрутизатор получает векторное представление текущего токена с учётом контекста.
  2. Для каждого из доступных экспертов вычисляется оценка «полезности» — насколько данный эксперт подходит для обработки именно этого токена.
  3. Отбираются топ-K экспертов с максимальными оценками.
  4. Только выбранные эксперты обрабатывают токен, выполняя вычисления независимо друг от друга.
  5. Результаты взвешенно агрегируются на основе оценок маршрутизатора и передаются дальше по сети.

Преимущества архитектуры MoE

Экономия вычислительных ресурсов

  • Разреженная активация: вместо всех параметров на каждый токен тратится только малая их доля. Например, в Mixtral 8x7B при общем объёме 47B параметров на токен реально задействуется около 12,9B активных параметров — инференс ускоряется примерно в 4 раза по сравнению с плотными моделями сопоставимого качества.
  • Снижение FLOPs: вычислительная сложность пропорциональна активным, а не общим параметрам. DeepSeek R1 при 671B суммарных параметров использует ~37B активных на токен.

Масштабируемость без роста затрат

  • MoE позволяет наращивать общее число параметров до триллионов, не увеличивая стоимость инференса. Switch Transformer от Google масштабирован до 1,6T параметров при скорости предобучения на 400% выше, чем у плотных аналогов.
  • Эксперты неявно специализируются на разных доменах (математика, лингвистика, код), что улучшает качество решения сложных задач без усложнения единой модели.

Сложности и способы их решения

Нестабильность обучения

Дисбаланс нагрузки («перекос»): маршрутизатор может систематически активировать одни и те же популярные эксперты, оставляя остальных без данных. Это создаёт порочный круг: «популярные» эксперты продолжают улучшаться, остальные деградируют.

Решения:

  • Noisy Top-k Gating — добавление гауссова шума перед выбором топ-K экспертов. Случайная составляющая не даёт маршрутизатору «залипать» на одних и тех же экспертах.
  • Auxiliary Loss (потеря балансировки) — специальный штраф в функции потерь, поощряющий равномерное использование всех экспертов.
  • Ограничение ёмкости эксперта (Expert Capacity) — лимит токенов на одного эксперта за шаг. Токены сверх лимита перенаправляются к резервным экспертам или пропускаются.

Высокие требования к памяти

Несмотря на разреженную активацию, все эксперты должны одновременно находиться в VRAM — хранятся все 47B параметров Mixtral 8x7B, даже если в каждый момент используется только 12,9B. Это ограничивает применимость крупных MoE-моделей на потребительском оборудовании.

Архитектурные инновации для повышения стабильности

  • Switch Transformer (k=1) — «жёсткий» выбор единственного эксперта упрощает маршрутизацию и снижает накладные расходы. В связке с ограничением ёмкости это ускоряет предобучение в 4 раза.
  • Иерархическая маршрутизация (DeepSeek-V2) — часть экспертов объявляется «общими» (shared, активируются всегда), остальные — специализированными. Такая схема улучшает стабильность и интерпретируемость.

MoE в современных флагманских моделях

Пройдя путь от теоретических работ 1990-х до фундамента актуальных production-систем, архитектура MoE сегодня используется в ряде наиболее мощных языковых моделей.

Llama 4 Scout (16×17B)

Meta положила MoE в основу линейки Llama 4:

  • 16 экспертов, каждый объёмом ~6,8B параметров.
  • Общие параметры: 109B.
  • Активные параметры на инференсе: ~17B (1 маршрутизированный эксперт + 1 shared-эксперт на токен).
  • Ключевое преимущество: контекстное окно 10 млн токенов — рекорд для анализа больших кодовых баз или многодокументного суммирования.

Llama 4 Maverick (128×17B)

  • 128 экспертов с узкой специализацией (математика, лингвистика, программирование).
  • Общие параметры: ~400B.
  • Активные параметры: ~34B на токен (1 маршрутизированный + 1 shared-эксперт).
  • Производительность: ELO 1417 на LMArena, превосходит GPT-4o в мультимодальных бенчмарках при затратах на инференс в 9 раз ниже.

Семейство Llama 4 включает более крупную модель Behemoth, которая служит «учителем» для Scout и Maverick через дистилляцию знаний.

Почему «N×M» — это не простое умножение

В обозначении «128×17B» цифра 17B описывает активные параметры на токен, а не размер одного эксперта. Полные 400B параметров Maverick распределены по 128 экспертам, однако благодаря shared-слоям и динамической маршрутизации инференс требует ресурсов, сопоставимых с моделью ~34B.

DeepSeek-V2 (236B общих параметров)

  • 160 специализированных + 2 shared-эксперта.
  • Активация 8 экспертов на токен; активные параметры: 21B — в 11 раз меньше суммарных.

Qwen2-MoE (Alibaba)

  • Гибридная архитектура с экспертами под конкретные задачи (кодинг, математика).
  • Балансировка нагрузки через параметр Capacity Factor.

Mixtral 8x7B (Mistral)

  • 8 экспертов, активация 2 на токен.
  • Активные параметры: 12,9B из 47B общих.
  • Скорость инференса примерно в 4 раза выше, чем у плотных моделей аналогичного качества.

Контраст: плотные (Dense) архитектуры

Не все ведущие модели используют MoE. Плотные трансформеры сохраняют свою нишу там, где важна предсказуемость задержек или требования к развёртыванию минимальны:

  • Llama 3 (Meta*): до 405B параметров, все активируются на каждом токене.
  • Gemma 2/3 (Google): оптимизированы для мобильных устройств, 2B–7B параметров.
  • Phi-3 (Microsoft): 3,8B параметров, работает на iPhone 14; на MMLU обгоняет Llama 3 8B (69% против 66%).

Ключевое отличие: плотные модели проще в обучении и развёртывании, однако масштабировать «знания» в них без кратного роста вычислений практически невозможно.


Вывод

Mixture of Experts перестала быть экзотической концепцией и прочно заняла место в арсенале современных production-LLM. Разреженная активация — всего 2–4 эксперта на токен — позволяет создавать модели с триллионами параметров, не переплачивая за инференс. Плотные архитектуры (Llama 3, Gemma, Phi-3) сохранят свою нишу — особенно на edge-устройствах и в задачах с жёсткими требованиями к задержкам. Но для флагманских систем, где на первом месте стоит качество при разумных затратах, MoE уже сегодня является архитектурой выбора.

Открытый вопрос, который обсуждает вся индустрия: станет ли Mixture of Experts де-факто стандартом для всех крупных языковых моделей будущего, или её место займут ещё более совершенные гибриды на её же основе? Как бы то ни было, роль MoE в революции эффективности ИИ уже неоспорима — и СервакМастер продолжает следить за развитием этой архитектуры.


*LLAMA — проект Meta Platforms Inc., деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.