AI News Watcher
Tuesday, Jun 9, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 09, 2026 · 1 min read · Google ← Back to feed

Gemma 4 12B работает без энкодеров — и умещается на обычном ноутбуке daily

Первая модель среднего размера от Google с нативным аудиовходом: 16 ГБ VRAM, Apache 2.0 — и бенчмарки близко к 26B MoE.

Gemma 4 12B работает без энкодеров — и умещается на обычном ноутбуке
Редакция · Daily briefing

Обычно мультимодальные модели тащат за собой отдельные энкодеры для картинок и звука — это лишняя память и задержка. Google DeepMind выпустила Gemma 4 12B, где изображение и аудио подаются напрямую в языковой бэкенд без промежуточных энкодеров, и вся эта конструкция умещается в 16 ГБ VRAM.

В предыдущих моделях Gemma vision-энкодер весил 550M параметров, аудиоэнкодер — ещё 300M. В 12B оба убраны. Vision заменён лёгким embedding-модулем: одно матричное умножение, позиционные эмбеддинги и нормализация — и визуальный сигнал уходит прямо в LLM-бэкенд. Аудио обработано ещё радикальнее: энкодер удалён полностью, сырой сигнал проецируется в то же пространство, что и текстовые токены. Итог — единый memory footprint вместо разрозненных кусков и меньшая задержка на мультимодальных запросах.

Практические характеристики для инженера:

Вместе с моделью вышло несколько дополнений. Официальный репозиторий Gemma Skills — библиотека готовых навыков для агентных сценариев на базе Gemma. Новое macOS-приложение даёт полностью локальное голосовое и визуальное взаимодействие без облака. Семейство Gemma к этому моменту перешагнуло 150 млн загрузок.

Encoder-free подход — это ставка на то, что LLM-бэкенд сам справится с мультимодальным восприятием лучше, чем связка специализированных энкодеров. Пока это подтверждается только внутренними бенчмарками Google; независимых сравнений с Qwen2.5-VL или LLaVA-Next аналогичного размера в материалах нет — так что реальное положение в ряду конкурентов предстоит проверить на практике.

Дополнительные источники

  1. Gemma 4 12B: The Developer Guide
  2. google / gemma-4-12B-it
  3. Gemma 4 model overview
  4. Google DeepMind Accelerator

Источники

  1. https://deepmind.google/blog/introducing-gemma-4-12b-a-unified-encoder-free-multimodal-model/ blog
  2. https://deepmind.google/blog/powering-the-future-of-robotics-in-europe/ blog
→ Опубликовано в Telegram: @agentic_ai_news/477