DiffusionGemma-26B-A4B-it: как Google переосмыслила генерацию текста с помощью диффузии

~ 2 мин


Введение

Google DeepMind выпустила DiffusionGemma — экспериментальную открытую языковую модель с 26 миллиардами параметров, которая впервые в семействе Gemma использует диффузионный подход вместо классического авторегрессионного. В отличие от стандартных моделей, генерирующих текст пословно, DiffusionGemma формирует сразу целые блоки по 256 токенов за один прямой проход, итеративно превращая случайный шум в осмысленный текст. Результат — четырёхкратный прирост скорости при локальном инференсе: более 1000 токенов/с на одном NVIDIA H100 и более 700 токенов/с на потребительской GeForce RTX 5090. Веса опубликованы под лицензией Apache 2.0 на Hugging Face.


Архитектура и принцип работы

DiffusionGemma-26B-A4B-it построена по схеме Mixture of Experts: 26 млрд общих параметров, однако в момент инференса задействуются только 3,8 млрд. После квантования модель занимает около 18 ГБ видеопамяти, благодаря чему она работает как на мощных потребительских видеокартах, так и на профессиональных ИИ-ускорителях.

Процесс генерации напоминает работу диффузионных моделей для изображений:

  • Стартовая точка — последовательность случайных токенов.
  • Несколько итераций «очистки»: на каждой правильные токены фиксируются и служат контекстом для исправления остальных.
  • Финальный проход выдаёт готовый 256-токеновый блок текста.

В основе лежит двунаправленное внимание: каждый токен одновременно взаимодействует со всеми остальными в пределах окна, что особенно полезно в задачах с нелинейными зависимостями — редактировании кода, работе с математическими выражениями, последовательностями аминокислот и многоуровневыми текстовыми структурами.


Производительность: цифры и контекст

Ключевые показатели скорости DiffusionGemma-26B-A4B-it:

Ускоритель Скорость генерации
NVIDIA H100 > 1000 токенов/с
GeForce RTX 5090 > 700 токенов/с

Такой результат достигается за счёт переноса нагрузки с пропускной способности памяти на вычислительные ресурсы. Классические авторегрессионные модели вынуждены последовательно подгружать веса для каждого нового токена, что создаёт узкое место. DiffusionGemma обрабатывает сразу большой текстовый блок целиком, не простаивая в ожидании данных.

Важный нюанс: преимущество в скорости максимально раскрывается при локальном развёртывании на одном ускорителе с небольшим батчем. В облачных системах с высоким параллелизмом авторегрессионные модели по-прежнему эффективнее утилизируют оборудование — Google не скрывает этого в технической документации.


Качество vs. скорость: честный компромисс

Google открыто признаёт: по качеству генерации DiffusionGemma уступает стандартной Gemma 4. Это сознательный выбор в пользу интерактивности. Модель позиционируется для сценариев, где время отклика важнее абсолютной точности:

  • Живые редакторы кода с мгновенной обратной связью.
  • Совместная работа в режиме реального времени.
  • Быстрая итерация и черновая генерация контента.
  • Нелинейные текстовые структуры и граф-зависимые задачи.

Заложенный механизм итеративной самокоррекции частично компенсирует потери точности — модель видит весь блок сразу и правит ошибки «на лету». Файнтюн под конкретную предметную область позволяет дополнительно поднять качество до конкурентного уровня.


Экосистема и инструменты для работы

Веса DiffusionGemma-26B-A4B-it доступны на Hugging Face. Поддерживаемые фреймворки:

  • MLX — для локального запуска на Apple Silicon (если нужна кросс-платформенность).
  • vLLM с официальной поддержкой от Red Hat.
  • Hugging Face Transformers — стандартный Python-интерфейс.
  • llama.cpp — поддержка анонсирована, скоро появится.

Для тонкой настройки Google выпустила руководство по файнтюну с использованием Hackable Diffusion — модульного JAX-набора, спроектированного для максимальной компонуемости. Особое внимание уделено оптимизации под ускорители NVIDIA:

  • Поддержка 4-битного квантования NVFP4 — ускорение вычислений без существенных потерь точности.
  • Протестирована на потребительских GeForce RTX 5090 и RTX 4090.
  • Оптимизирована для корпоративных ускорителей Hopper и Blackwell.
  • Совместима с десктопными системами DGX Spark и DGX Station, а также с RTX PRO для AI-специалистов.

Аппаратная база: что нужно для запуска

Если вас интересует локальный инференс DiffusionGemma, ориентируйтесь на следующие минимальные требования:

  • 18 ГБ видеопамяти (после применения NVFP4-квантования).
  • GPU-архитектура NVIDIA Ampere и новее (RTX 3090/4090/5090 или A/H-серия для корпоративных задач).
  • Достаточный объём оперативной памяти и быстрый NVMe для загрузки весов.

В каталоге СервакМастер представлены серверные платформы и рабочие станции с поддержкой NVIDIA H100, A100, RTX 4090 и RTX 5090, подходящие для развёртывания подобных моделей. Если нужна консультация по подбору оборудования — свяжитесь с нами.


Выводы

DiffusionGemma — первая масштабная попытка перенести диффузионный подход с генерации изображений на текст, и эксперимент можно считать успешным: более 1000 токенов/с на H100 и более 700 токенов/с на RTX 5090 — показатели, которых не достигает большинство классических LLM сопоставимого размера. Модель не претендует на замену авторегрессионных решений в задачах с жёсткими требованиями к точности, однако открывает отдельную нишу: мгновенная интерактивность, нелинейные структуры и быстрая итерация. Полностью открытая лицензия Apache 2.0 и широкая интеграция с экосистемой NVIDIA превращают DiffusionGemma в готовый инструмент для исследований и ряда продакшн-сценариев.