AI News Watcher
Wednesday, Jun 10, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 10, 2026 · 2 min read · Google ← Back to feed

DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии daily

18 ГБ VRAM и Apache 2.0 — но качество ниже Gemma 4, и на Apple Silicon ускорения нет.

DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии
Редакция · Daily briefing

Обычная языковая модель — как машинистка: один символ, потом следующий. Google DeepMind выпустила DiffusionGemma — 26B MoE-модель, которая штампует 256 токенов разом, сдвигая узкое место с памяти на вычисления и выдавая 1000+ токенов/с на H100 и 700+ на RTX 5090.

Почему это быстро и для кого. Авторегрессивные модели при локальном инференсе на одного пользователя держат GPU полуголодным: он ждёт следующего токена. DiffusionGemma загружает тензорные ядра параллельной задачей на 256 токенов сразу — и узкое место смещается с памяти на вычисления. Результат: до 4× быстрее на выделенных GPU. Целевой сценарий — локальная работа с малым batch: инлайн-редактирование, быстрая итерация, заполнение кода. В облаке с высоким QPS авторегрессия по-прежнему эффективнее: там можно батчить тысячи запросов, и параллельное декодирование теряет преимущество.

Доступность и компромиссы. При 26B суммарных параметрах во время инференса активируется только 3.8B — модель влезает в 18 ГБ VRAM в квантизованном виде на RTX 4090 и 5090. Лицензия Apache 2.0, веса на Hugging Face. Поддерживаемые инструменты:

Честный минус от самого Google: общее качество ниже Gemma 4, для продакшна рекомендуют стандартную Gemma 4. Apple Silicon ускорения не получает — там узкое место память, а не вычисления, поэтому архитектурный выигрыш не реализуется.

Нелинейные задачи как отдельное преимущество. Диффузионный подход использует двунаправленное внимание: каждый токен в блоке «видит» все остальные ещё в процессе генерации. Это структурно удобно для заполнения кода, математических графов, задач вроде судоку — там, где правильный токен зависит от того, что стоит после него. Авторегрессивные модели проигрывают на таких задачах архитектурно, а не только по скорости.

DiffusionGemma — первый крупный открытый MoE, где текстовая диффузия перестала быть лабораторным экспериментом и стала инструментом с конкретными цифрами на потребительском железе. Связка «скорость + Apache 2.0 + 18 ГБ VRAM» делает её интересной для локальных интерактивных инструментов прямо сейчас. Честный пробел: Google не раскрыла сравнительные бенчмарки качества DiffusionGemma против Gemma 4 на стандартных задачах — насколько велик разрыв в качестве, остаётся неизвестным.

Дополнительные источники

  1. https://deepmind.google/models/gemini-diffusion/
  2. https://developers.googleblog.com/en/diffusiongemma-the-developer-guide
  3. https://huggingface.co/google/diffusiongemma-26B-A4B-it
  4. https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-diffusiongemma
  5. https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion
  6. https://vllm-project.github.io/2026/06/10/diffusion-gemma
  7. https://developer.nvidia.com/blog/an-introduction-to-speculative-decoding-for-reducing-latency-in-ai-inference/

Источники

  1. https://deepmind.google/blog/diffusiongemma-4x-faster-text-generation/ blog
→ Опубликовано в Telegram: @agentic_ai_news/489