DiffusionGemma-26B-A4B-it от Google: диффузионный подход к генерации текста и более 1000 токенов в секунду

DiffusionGemma-26B-A4B-it: как Google переосмыслила генерацию текста с помощью диффузии

~ 2 мин

Введение

Google DeepMind выпустила DiffusionGemma — экспериментальную открытую языковую модель с 26 миллиардами параметров, которая впервые в семействе Gemma использует диффузионный подход вместо классического авторегрессионного. В отличие от стандартных моделей, генерирующих текст пословно, DiffusionGemma формирует сразу целые блоки по 256 токенов за один прямой проход, итеративно превращая случайный шум в осмысленный текст. Результат — четырёхкратный прирост скорости при локальном инференсе: более 1000 токенов/с на одном NVIDIA H100 и более 700 токенов/с на потребительской GeForce RTX 5090. Веса опубликованы под лицензией Apache 2.0 на Hugging Face.

Архитектура и принцип работы

DiffusionGemma-26B-A4B-it построена по схеме Mixture of Experts: 26 млрд общих параметров, однако в момент инференса задействуются только 3,8 млрд. После квантования модель занимает около 18 ГБ видеопамяти, благодаря чему она работает как на мощных потребительских видеокартах, так и на профессиональных ИИ-ускорителях.

Процесс генерации напоминает работу диффузионных моделей для изображений:

Стартовая точка — последовательность случайных токенов.
Несколько итераций «очистки»: на каждой правильные токены фиксируются и служат контекстом для исправления остальных.
Финальный проход выдаёт готовый 256-токеновый блок текста.

В основе лежит двунаправленное внимание: каждый токен одновременно взаимодействует со всеми остальными в пределах окна, что особенно полезно в задачах с нелинейными зависимостями — редактировании кода, работе с математическими выражениями, последовательностями аминокислот и многоуровневыми текстовыми структурами.

Производительность: цифры и контекст

Ключевые показатели скорости DiffusionGemma-26B-A4B-it:

Ускоритель	Скорость генерации
NVIDIA H100	> 1000 токенов/с
GeForce RTX 5090	> 700 токенов/с

Такой результат достигается за счёт переноса нагрузки с пропускной способности памяти на вычислительные ресурсы. Классические авторегрессионные модели вынуждены последовательно подгружать веса для каждого нового токена, что создаёт узкое место. DiffusionGemma обрабатывает сразу большой текстовый блок целиком, не простаивая в ожидании данных.

Важный нюанс: преимущество в скорости максимально раскрывается при локальном развёртывании на одном ускорителе с небольшим батчем. В облачных системах с высоким параллелизмом авторегрессионные модели по-прежнему эффективнее утилизируют оборудование — Google не скрывает этого в технической документации.

Качество vs. скорость: честный компромисс

Google открыто признаёт: по качеству генерации DiffusionGemma уступает стандартной Gemma 4. Это сознательный выбор в пользу интерактивности. Модель позиционируется для сценариев, где время отклика важнее абсолютной точности:

Живые редакторы кода с мгновенной обратной связью.
Совместная работа в режиме реального времени.
Быстрая итерация и черновая генерация контента.
Нелинейные текстовые структуры и граф-зависимые задачи.

Заложенный механизм итеративной самокоррекции частично компенсирует потери точности — модель видит весь блок сразу и правит ошибки «на лету». Файнтюн под конкретную предметную область позволяет дополнительно поднять качество до конкурентного уровня.

Экосистема и инструменты для работы

Веса DiffusionGemma-26B-A4B-it доступны на Hugging Face. Поддерживаемые фреймворки:

MLX — для локального запуска на Apple Silicon (если нужна кросс-платформенность).
vLLM с официальной поддержкой от Red Hat.
Hugging Face Transformers — стандартный Python-интерфейс.
llama.cpp — поддержка анонсирована, скоро появится.

Для тонкой настройки Google выпустила руководство по файнтюну с использованием Hackable Diffusion — модульного JAX-набора, спроектированного для максимальной компонуемости. Особое внимание уделено оптимизации под ускорители NVIDIA:

Поддержка 4-битного квантования NVFP4 — ускорение вычислений без существенных потерь точности.
Протестирована на потребительских GeForce RTX 5090 и RTX 4090.
Оптимизирована для корпоративных ускорителей Hopper и Blackwell.
Совместима с десктопными системами DGX Spark и DGX Station, а также с RTX PRO для AI-специалистов.

Аппаратная база: что нужно для запуска

Если вас интересует локальный инференс DiffusionGemma, ориентируйтесь на следующие минимальные требования:

18 ГБ видеопамяти (после применения NVFP4-квантования).
GPU-архитектура NVIDIA Ampere и новее (RTX 3090/4090/5090 или A/H-серия для корпоративных задач).
Достаточный объём оперативной памяти и быстрый NVMe для загрузки весов.

В каталоге СервакМастер представлены серверные платформы и рабочие станции с поддержкой NVIDIA H100, A100, RTX 4090 и RTX 5090, подходящие для развёртывания подобных моделей. Если нужна консультация по подбору оборудования — свяжитесь с нами.

Выводы

DiffusionGemma — первая масштабная попытка перенести диффузионный подход с генерации изображений на текст, и эксперимент можно считать успешным: более 1000 токенов/с на H100 и более 700 токенов/с на RTX 5090 — показатели, которых не достигает большинство классических LLM сопоставимого размера. Модель не претендует на замену авторегрессионных решений в задачах с жёсткими требованиями к точности, однако открывает отдельную нишу: мгновенная интерактивность, нелинейные структуры и быстрая итерация. Полностью открытая лицензия Apache 2.0 и широкая интеграция с экосистемой NVIDIA превращают DiffusionGemma в готовый инструмент для исследований и ряда продакшн-сценариев.