А в том же окне, тихо одной строкой в release notes, Google назначил дату вывода своему же платному середняку — Gemini 2.5. Каждый жест по отдельности — рутина. Вместе они читаются как сообщение о том, куда вас подталкивают.
Стоит читать если: гоняете Gemini 2.5 в продакшене или присматриваетесь к self-hosted / edge-модели под свои данные. Можно пропустить если: не используете модели Google и не планируете open-weights.
Что за модель и почему о ней говорят
Те места в рейтинге — не случайность и не маркетинговая формулировка. Gemma 4 построена на той же исследовательской базе, что закрытая Gemini 3, и опирается на большой задел: первые поколения Gemma скачали свыше 400 млн раз, вокруг них выросло больше 100 000 производных моделей. Этот опыт и лёг в четвёртую версию — отсюда и результат на лидерборде.
Четыре размера под разное железо:
- E2B и E4B — edge-модели, на инференсе активируют эффективно 2 и 4 млрд параметров (экономия RAM и батареи).
- 26B Mixture of Experts — активны только 3,8 млрд из всех параметров, ставка на скорость.
- 31B Dense — максимум качества и основа для дообучения.
Что именно выпущено: gemma-4-26b-a4b-it и gemma-4-31b-it — в AI Studio и через Gemini API; 26B также добавлена в Vertex AI Model Garden как managed API.
Что она умеет
- Рассуждение — многошаговое планирование и логика, рост на math- и instruction-following бенчмарках.
- Агентные сценарии — нативный function-calling, структурированный JSON-вывод, системные инструкции; для автономных агентов с инструментами и API.
- Код — офлайн-генерация, локальный code-ассистент без облака.
- Зрение и аудио — все модели обрабатывают видео и изображения переменного разрешения (OCR, понимание графиков); E2B и E4B дополнительно принимают аудиовход.
- Контекст — 128K у edge-моделей, до 256K у крупных: репозиторий целиком в один промпт.
- Языки — обучение на 140+ языках.
Где это запускается — в этом и весь смысл
Открытые веса интересны не сами по себе, а тем, где их можно запускать без облака. Главное здесь — диапазон: одна и та же линейка тянется от телефона до серверной видеокарты.
- Крупные модели — на одной видеокарте. Неквантованные веса bfloat16 умещаются на одной NVIDIA H100 (80 ГБ), квантованные версии запускаются на потребительских GPU. То есть 31B можно держать локально, без кластера.
- Edge-модели — офлайн на устройстве. E2B и E4B работают полностью без сети, с почти нулевой задержкой, на телефонах, Raspberry Pi и мини-платах вроде Jetson Orin Nano. Их оптимизировали вместе с командой Google Pixel и производителями мобильных чипов; Android-разработчикам открыт ранний доступ, совместимый наперёд со следующим Gemini Nano.
- Инструменты — со дня выхода. Модель сразу поддерживается основными фреймворками. Из заметных — Hugging Face, vLLM, llama.cpp, Ollama, MLX, LM Studio; полный список ещё длиннее. Смысл не в перечне, а в том, что искать обходной путь не придётся: ваш текущий стек почти наверняка уже в нём.
- Облако — когда упёрлись в потолок локально. Если on-device не хватает, те же модели разворачиваются в Vertex AI, Cloud Run, GKE или на TPU; из железа поддержаны и NVIDIA вплоть до Blackwell, и AMD, и TPU Google.
На практике это база для дообучения, а не чат общего назначения. Видно по двум примерам: на Gemma собрали болгарско-ориентированную модель BgGPT, а вместе с Йельским университетом — систему для поиска новых путей терапии рака.
Тихая часть: дедлайн на Gemini 2.5
Та самая строка из вступления — теперь конкретно. Gemini 2.5 Pro, Gemini 2.5 Flash-Lite и Gemini 2.5 Flash выводятся из эксплуатации 16 октября 2026 года — около полугода на миграцию.
Контекст из changelog: gemini-2.5-flash-lite-preview-09-2025 уже отключён (замена — gemini-3.1-flash-lite-preview), а 1 апреля введены inference-тиры Flex и Priority — рычаг «стоимость или задержка» на время перехода.
Вывод 2.5 и одновременный выход бесплатной Gemma 4 — согласованный сигнал: Google предпочитает, чтобы вы перешли на линейку Gemini 3 либо взяли self-hosted Gemma, а не оставались на 2.5.
Veo 3.1 Lite — коротко и честно
Две фразы, потому что в источниках больше ничего нет: veo-3.1-lite-generate-preview доступна в public preview, заявлена как самая экономичная модель Veo, под быстрые итерации и высоконагруженные приложения. Спецификаций, цен и лимитов на эту дату нет — додумывать не будем. Release notes Vertex AI.
Что это значит
«Интеллект на параметр» плюс Apache 2.0 меняет арифметику build-vs-rent для команд с требованиями к резидентности данных: 31B Dense держится на одной H100 и дообучается под задачу.
Сложите это с зафиксированным дедлайном на Gemini 2.5 — и рациональный шаг не «мигрировать в октябре», а уже сейчас прогнать Gemma 4 31B как кандидата в fine-tune-базу против Gemini 3 на своей задаче, пока есть запас по времени.