DiffusionGemma-26B-A4B-it: как Google переосмыслила генерацию текста с помощью диффузии
~ 2 мин
Введение
Google DeepMind выпустила DiffusionGemma — экспериментальную открытую языковую модель с 26 миллиардами параметров, которая впервые в семействе Gemma использует диффузионный подход вместо классического авторегрессионного. В отличие от стандартных моделей, генерирующих текст пословно, DiffusionGemma формирует сразу целые блоки по 256 токенов за один прямой проход, итеративно превращая случайный шум в осмысленный текст. Результат — четырёхкратный прирост скорости при локальном инференсе: более 1000 токенов/с на одном NVIDIA H100 и более 700 токенов/с на потребительской GeForce RTX 5090. Веса опубликованы под лицензией Apache 2.0 на Hugging Face.
Архитектура и принцип работы
DiffusionGemma-26B-A4B-it построена по схеме Mixture of Experts: 26 млрд общих параметров, однако в момент инференса задействуются только 3,8 млрд. После квантования модель занимает около 18 ГБ видеопамяти, благодаря чему она работает как на мощных потребительских видеокартах, так и на профессиональных ИИ-ускорителях.
Процесс генерации напоминает работу диффузионных моделей для изображений:
- Стартовая точка — последовательность случайных токенов.
- Несколько итераций «очистки»: на каждой правильные токены фиксируются и служат контекстом для исправления остальных.
- Финальный проход выдаёт готовый 256-токеновый блок текста.
В основе лежит двунаправленное внимание: каждый токен одновременно взаимодействует со всеми остальными в пределах окна, что особенно полезно в задачах с нелинейными зависимостями — редактировании кода, работе с математическими выражениями, последовательностями аминокислот и многоуровневыми текстовыми структурами.
Производительность: цифры и контекст
Ключевые показатели скорости DiffusionGemma-26B-A4B-it:
| Ускоритель | Скорость генерации |
|---|---|
| NVIDIA H100 | > 1000 токенов/с |
| GeForce RTX 5090 | > 700 токенов/с |
Такой результат достигается за счёт переноса нагрузки с пропускной способности памяти на вычислительные ресурсы. Классические авторегрессионные модели вынуждены последовательно подгружать веса для каждого нового токена, что создаёт узкое место. DiffusionGemma обрабатывает сразу большой текстовый блок целиком, не простаивая в ожидании данных.
Важный нюанс: преимущество в скорости максимально раскрывается при локальном развёртывании на одном ускорителе с небольшим батчем. В облачных системах с высоким параллелизмом авторегрессионные модели по-прежнему эффективнее утилизируют оборудование — Google не скрывает этого в технической документации.
Качество vs. скорость: честный компромисс
Google открыто признаёт: по качеству генерации DiffusionGemma уступает стандартной Gemma 4. Это сознательный выбор в пользу интерактивности. Модель позиционируется для сценариев, где время отклика важнее абсолютной точности:
- Живые редакторы кода с мгновенной обратной связью.
- Совместная работа в режиме реального времени.
- Быстрая итерация и черновая генерация контента.
- Нелинейные текстовые структуры и граф-зависимые задачи.
Заложенный механизм итеративной самокоррекции частично компенсирует потери точности — модель видит весь блок сразу и правит ошибки «на лету». Файнтюн под конкретную предметную область позволяет дополнительно поднять качество до конкурентного уровня.
Экосистема и инструменты для работы
Веса DiffusionGemma-26B-A4B-it доступны на Hugging Face. Поддерживаемые фреймворки:
- MLX — для локального запуска на Apple Silicon (если нужна кросс-платформенность).
- vLLM с официальной поддержкой от Red Hat.
- Hugging Face Transformers — стандартный Python-интерфейс.
- llama.cpp — поддержка анонсирована, скоро появится.
Для тонкой настройки Google выпустила руководство по файнтюну с использованием Hackable Diffusion — модульного JAX-набора, спроектированного для максимальной компонуемости. Особое внимание уделено оптимизации под ускорители NVIDIA:
- Поддержка 4-битного квантования NVFP4 — ускорение вычислений без существенных потерь точности.
- Протестирована на потребительских GeForce RTX 5090 и RTX 4090.
- Оптимизирована для корпоративных ускорителей Hopper и Blackwell.
- Совместима с десктопными системами DGX Spark и DGX Station, а также с RTX PRO для AI-специалистов.
Аппаратная база: что нужно для запуска
Если вас интересует локальный инференс DiffusionGemma, ориентируйтесь на следующие минимальные требования:
- 18 ГБ видеопамяти (после применения NVFP4-квантования).
- GPU-архитектура NVIDIA Ampere и новее (RTX 3090/4090/5090 или A/H-серия для корпоративных задач).
- Достаточный объём оперативной памяти и быстрый NVMe для загрузки весов.
В каталоге СервакМастер представлены серверные платформы и рабочие станции с поддержкой NVIDIA H100, A100, RTX 4090 и RTX 5090, подходящие для развёртывания подобных моделей. Если нужна консультация по подбору оборудования — свяжитесь с нами.
Выводы
DiffusionGemma — первая масштабная попытка перенести диффузионный подход с генерации изображений на текст, и эксперимент можно считать успешным: более 1000 токенов/с на H100 и более 700 токенов/с на RTX 5090 — показатели, которых не достигает большинство классических LLM сопоставимого размера. Модель не претендует на замену авторегрессионных решений в задачах с жёсткими требованиями к точности, однако открывает отдельную нишу: мгновенная интерактивность, нелинейные структуры и быстрая итерация. Полностью открытая лицензия Apache 2.0 и широкая интеграция с экосистемой NVIDIA превращают DiffusionGemma в готовый инструмент для исследований и ряда продакшн-сценариев.
