DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии

Обычная языковая модель — как машинистка: один символ, потом следующий. Google DeepMind выпустила DiffusionGemma — 26B MoE-модель, которая штампует 256 токенов разом, сдвигая узкое место с памяти на вычисления и выдавая 1000+ токенов/с на H100 и 700+ на RTX 5090.

Почему это быстро и для кого. Авторегрессивные модели при локальном инференсе на одного пользователя держат GPU полуголодным: он ждёт следующего токена. DiffusionGemma загружает тензорные ядра параллельной задачей на 256 токенов сразу — и узкое место смещается с памяти на вычисления. Результат: до 4× быстрее на выделенных GPU. Целевой сценарий — локальная работа с малым batch: инлайн-редактирование, быстрая итерация, заполнение кода. В облаке с высоким QPS авторегрессия по-прежнему эффективнее: там можно батчить тысячи запросов, и параллельное декодирование теряет преимущество.

Доступность и компромиссы. При 26B суммарных параметрах во время инференса активируется только 3.8B — модель влезает в 18 ГБ VRAM в квантизованном виде на RTX 4090 и 5090. Лицензия Apache 2.0, веса на Hugging Face. Поддерживаемые инструменты:

vLLM — с интеграцией Red Hat.
MLX — для локального запуска.
Hugging Face Transformers, Unsloth, NVIDIA NeMo — файн-тюнинг и эксперименты.
llama.cpp — поддержка ожидается в ближайшее время.

Честный минус от самого Google: общее качество ниже Gemma 4, для продакшна рекомендуют стандартную Gemma 4. Apple Silicon ускорения не получает — там узкое место память, а не вычисления, поэтому архитектурный выигрыш не реализуется.

Нелинейные задачи как отдельное преимущество. Диффузионный подход использует двунаправленное внимание: каждый токен в блоке «видит» все остальные ещё в процессе генерации. Это структурно удобно для заполнения кода, математических графов, задач вроде судоку — там, где правильный токен зависит от того, что стоит после него. Авторегрессивные модели проигрывают на таких задачах архитектурно, а не только по скорости.

DiffusionGemma — первый крупный открытый MoE, где текстовая диффузия перестала быть лабораторным экспериментом и стала инструментом с конкретными цифрами на потребительском железе. Связка «скорость + Apache 2.0 + 18 ГБ VRAM» делает её интересной для локальных интерактивных инструментов прямо сейчас. Честный пробел: Google не раскрыла сравнительные бенчмарки качества DiffusionGemma против Gemma 4 на стандартных задачах — насколько велик разрыв в качестве, остаётся неизвестным.

DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии daily

Дополнительные источники

Источники

Оценить материал