Обычно мультимодальные модели тащат за собой отдельные энкодеры для картинок и звука — это лишняя память и задержка. Google DeepMind выпустила Gemma 4 12B, где изображение и аудио подаются напрямую в языковой бэкенд без промежуточных энкодеров, и вся эта конструкция умещается в 16 ГБ VRAM.
В предыдущих моделях Gemma vision-энкодер весил 550M параметров, аудиоэнкодер — ещё 300M. В 12B оба убраны. Vision заменён лёгким embedding-модулем: одно матричное умножение, позиционные эмбеддинги и нормализация — и визуальный сигнал уходит прямо в LLM-бэкенд. Аудио обработано ещё радикальнее: энкодер удалён полностью, сырой сигнал проецируется в то же пространство, что и текстовые токены. Итог — единый memory footprint вместо разрозненных кусков и меньшая задержка на мультимодальных запросах.
Практические характеристики для инженера:
- Память — 16 ГБ VRAM или unified memory; работает на потребительских GPU-ноутбуках и Apple Silicon.
- Контекст — 256K токенов.
- Скорость — MTP-драфтеры (Multi-Token Prediction) для ускорения инференса локально.
- Бенчмарки — по заявлению Google, близко к 26B MoE при вдвое меньшем объёме памяти.
- Лицензия — Apache 2.0.
- Инструменты — llama.cpp, MLX, vLLM, SGLang, Ollama, Unsloth, Hugging Face Transformers.
Вместе с моделью вышло несколько дополнений. Официальный репозиторий Gemma Skills — библиотека готовых навыков для агентных сценариев на базе Gemma. Новое macOS-приложение даёт полностью локальное голосовое и визуальное взаимодействие без облака. Семейство Gemma к этому моменту перешагнуло 150 млн загрузок.
Encoder-free подход — это ставка на то, что LLM-бэкенд сам справится с мультимодальным восприятием лучше, чем связка специализированных энкодеров. Пока это подтверждается только внутренними бенчмарками Google; независимых сравнений с Qwen2.5-VL или LLaVA-Next аналогичного размера в материалах нет — так что реальное положение в ряду конкурентов предстоит проверить на практике.