Архитектура MoE (Mixture of Experts): принцип работы, преимущества и современные модели

Введение

Современные крупные языковые и мультимодальные модели раздвигают границы возможного, однако за этим стоит экспоненциальный рост числа параметров. Сотни миллиардов и даже триллионы параметров порождают колоссальные вычислительные издержки, огромное энергопотребление и серьёзные трудности при обучении и развёртывании. Индустрия активно ищет архитектурные альтернативы, способные удержать высокое качество моделей-гигантов, одновременно снизив их «вес» и ресурсоёмкость.

Одним из самых перспективных ответов на этот вызов стала архитектура Mixture of Experts (MoE) — подход, предлагающий элегантный маршрут к созданию масштабируемых и экономичных систем ИИ. В этой статье команда СервакМастер разбирает, как работает MoE, какие задачи она решает и в каких флагманских моделях уже применяется сегодня.

Принцип работы Mixture of Experts: специализация вместо монолита

Основная идея

Классическая (плотная, или dense) нейронная сеть обрабатывает каждый входной токен, задействуя все свои параметры. MoE предлагает принципиально иное устройство: вместо единого монолита создаётся коллектив специализированных подмодулей — экспертов.

При обработке каждого токена активируется не весь набор параметров, а лишь небольшое подмножество экспертов — как правило, 2–4. Остальные эксперты в этот момент не участвуют в вычислениях, что резко снижает фактическую вычислительную нагрузку.

Кто такие «эксперты»

Каждый эксперт — это самостоятельная нейронная сеть (обычно feed-forward блок) со своим набором параметров. По архитектуре они похожи друг на друга, однако в ходе обучения каждый неявно специализируется на определённых типах данных или концепциях:

один эксперт может специализироваться на научной и технической терминологии;
другой — на разговорной и неформальной речи;
третий — на финансовых или математических данных;
четвёртый — на синтаксических структурах и грамматических паттернах.

Специализация возникает органически в процессе обучения — без явных меток или ручного назначения ролей.

Динамическая активация: не все сразу

Ключевой механизм MoE — разреженная (sparse) активация. При обработке каждого токена задействуется лишь топ-K экспертов (K = 2, 3 или 4 в большинстве реализаций). Это означает, что реальные вычисления проходят лишь через крошечную долю всех параметров модели — даже если их суммарное число достигает сотен миллиардов.

Роль маршрутизатора (Router Layer)

Выбором активных экспертов управляет специальный компонент — слой-маршрутизатор. Его работа выглядит так:

Маршрутизатор получает векторное представление текущего токена с учётом контекста.
Для каждого из доступных экспертов вычисляется оценка «полезности» — насколько данный эксперт подходит для обработки именно этого токена.
Отбираются топ-K экспертов с максимальными оценками.
Только выбранные эксперты обрабатывают токен, выполняя вычисления независимо друг от друга.
Результаты взвешенно агрегируются на основе оценок маршрутизатора и передаются дальше по сети.

Преимущества архитектуры MoE

Экономия вычислительных ресурсов

Разреженная активация: вместо всех параметров на каждый токен тратится только малая их доля. Например, в Mixtral 8x7B при общем объёме 47B параметров на токен реально задействуется около 12,9B активных параметров — инференс ускоряется примерно в 4 раза по сравнению с плотными моделями сопоставимого качества.
Снижение FLOPs: вычислительная сложность пропорциональна активным, а не общим параметрам. DeepSeek R1 при 671B суммарных параметров использует ~37B активных на токен.

Масштабируемость без роста затрат

MoE позволяет наращивать общее число параметров до триллионов, не увеличивая стоимость инференса. Switch Transformer от Google масштабирован до 1,6T параметров при скорости предобучения на 400% выше, чем у плотных аналогов.
Эксперты неявно специализируются на разных доменах (математика, лингвистика, код), что улучшает качество решения сложных задач без усложнения единой модели.

Сложности и способы их решения

Нестабильность обучения

Дисбаланс нагрузки («перекос»): маршрутизатор может систематически активировать одни и те же популярные эксперты, оставляя остальных без данных. Это создаёт порочный круг: «популярные» эксперты продолжают улучшаться, остальные деградируют.

Решения:

Noisy Top-k Gating — добавление гауссова шума перед выбором топ-K экспертов. Случайная составляющая не даёт маршрутизатору «залипать» на одних и тех же экспертах.
Auxiliary Loss (потеря балансировки) — специальный штраф в функции потерь, поощряющий равномерное использование всех экспертов.
Ограничение ёмкости эксперта (Expert Capacity) — лимит токенов на одного эксперта за шаг. Токены сверх лимита перенаправляются к резервным экспертам или пропускаются.

Высокие требования к памяти

Несмотря на разреженную активацию, все эксперты должны одновременно находиться в VRAM — хранятся все 47B параметров Mixtral 8x7B, даже если в каждый момент используется только 12,9B. Это ограничивает применимость крупных MoE-моделей на потребительском оборудовании.

Архитектурные инновации для повышения стабильности

Switch Transformer (k=1) — «жёсткий» выбор единственного эксперта упрощает маршрутизацию и снижает накладные расходы. В связке с ограничением ёмкости это ускоряет предобучение в 4 раза.
Иерархическая маршрутизация (DeepSeek-V2) — часть экспертов объявляется «общими» (shared, активируются всегда), остальные — специализированными. Такая схема улучшает стабильность и интерпретируемость.

MoE в современных флагманских моделях

Пройдя путь от теоретических работ 1990-х до фундамента актуальных production-систем, архитектура MoE сегодня используется в ряде наиболее мощных языковых моделей.

Llama 4 Scout (16×17B)

Meta положила MoE в основу линейки Llama 4:

16 экспертов, каждый объёмом ~6,8B параметров.
Общие параметры: 109B.
Активные параметры на инференсе: ~17B (1 маршрутизированный эксперт + 1 shared-эксперт на токен).
Ключевое преимущество: контекстное окно 10 млн токенов — рекорд для анализа больших кодовых баз или многодокументного суммирования.

Llama 4 Maverick (128×17B)

128 экспертов с узкой специализацией (математика, лингвистика, программирование).
Общие параметры: ~400B.
Активные параметры: ~34B на токен (1 маршрутизированный + 1 shared-эксперт).
Производительность: ELO 1417 на LMArena, превосходит GPT-4o в мультимодальных бенчмарках при затратах на инференс в 9 раз ниже.

Семейство Llama 4 включает более крупную модель Behemoth, которая служит «учителем» для Scout и Maverick через дистилляцию знаний.

Почему «N×M» — это не простое умножение

В обозначении «128×17B» цифра 17B описывает активные параметры на токен, а не размер одного эксперта. Полные 400B параметров Maverick распределены по 128 экспертам, однако благодаря shared-слоям и динамической маршрутизации инференс требует ресурсов, сопоставимых с моделью ~34B.

DeepSeek-V2 (236B общих параметров)

160 специализированных + 2 shared-эксперта.
Активация 8 экспертов на токен; активные параметры: 21B — в 11 раз меньше суммарных.

Qwen2-MoE (Alibaba)

Гибридная архитектура с экспертами под конкретные задачи (кодинг, математика).
Балансировка нагрузки через параметр Capacity Factor.

Mixtral 8x7B (Mistral)

8 экспертов, активация 2 на токен.
Активные параметры: 12,9B из 47B общих.
Скорость инференса примерно в 4 раза выше, чем у плотных моделей аналогичного качества.

Контраст: плотные (Dense) архитектуры

Не все ведущие модели используют MoE. Плотные трансформеры сохраняют свою нишу там, где важна предсказуемость задержек или требования к развёртыванию минимальны:

Llama 3 (Meta*): до 405B параметров, все активируются на каждом токене.
Gemma 2/3 (Google): оптимизированы для мобильных устройств, 2B–7B параметров.
Phi-3 (Microsoft): 3,8B параметров, работает на iPhone 14; на MMLU обгоняет Llama 3 8B (69% против 66%).

Ключевое отличие: плотные модели проще в обучении и развёртывании, однако масштабировать «знания» в них без кратного роста вычислений практически невозможно.

Вывод

Mixture of Experts перестала быть экзотической концепцией и прочно заняла место в арсенале современных production-LLM. Разреженная активация — всего 2–4 эксперта на токен — позволяет создавать модели с триллионами параметров, не переплачивая за инференс. Плотные архитектуры (Llama 3, Gemma, Phi-3) сохранят свою нишу — особенно на edge-устройствах и в задачах с жёсткими требованиями к задержкам. Но для флагманских систем, где на первом месте стоит качество при разумных затратах, MoE уже сегодня является архитектурой выбора.

Открытый вопрос, который обсуждает вся индустрия: станет ли Mixture of Experts де-факто стандартом для всех крупных языковых моделей будущего, или её место займут ещё более совершенные гибриды на её же основе? Как бы то ни было, роль MoE в революции эффективности ИИ уже неоспорима — и СервакМастер продолжает следить за развитием этой архитектуры.

*LLAMA — проект Meta Platforms Inc., деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.