Gemma 4 отдают даром — и в тот же день ставят таймер на Gemini 2.5

Hero illustration: Gemma 4 отдают даром — и в тот же день ставят таймер на Gemini 2.5.

А в том же окне, тихо одной строкой в release notes, Google назначил дату вывода своему же платному середняку — Gemini 2.5. Каждый жест по отдельности — рутина. Вместе они читаются как сообщение о том, куда вас подталкивают.

Стоит читать если: гоняете Gemini 2.5 в продакшене или присматриваетесь к self-hosted / edge-модели под свои данные. Можно пропустить если: не используете модели Google и не планируете open-weights.

Что за модель и почему о ней говорят

Те места в рейтинге — не случайность и не маркетинговая формулировка. Gemma 4 построена на той же исследовательской базе, что закрытая Gemini 3, и опирается на большой задел: первые поколения Gemma скачали свыше 400 млн раз, вокруг них выросло больше 100 000 производных моделей. Этот опыт и лёг в четвёртую версию — отсюда и результат на лидерборде.

Четыре размера под разное железо:

E2B и E4B — edge-модели, на инференсе активируют эффективно 2 и 4 млрд параметров (экономия RAM и батареи).
26B Mixture of Experts — активны только 3,8 млрд из всех параметров, ставка на скорость.
31B Dense — максимум качества и основа для дообучения.

Что именно выпущено: gemma-4-26b-a4b-it и gemma-4-31b-it — в AI Studio и через Gemini API; 26B также добавлена в Vertex AI Model Garden как managed API.

Что она умеет

Рассуждение — многошаговое планирование и логика, рост на math- и instruction-following бенчмарках.
Агентные сценарии — нативный function-calling, структурированный JSON-вывод, системные инструкции; для автономных агентов с инструментами и API.
Код — офлайн-генерация, локальный code-ассистент без облака.
Зрение и аудио — все модели обрабатывают видео и изображения переменного разрешения (OCR, понимание графиков); E2B и E4B дополнительно принимают аудиовход.
Контекст — 128K у edge-моделей, до 256K у крупных: репозиторий целиком в один промпт.
Языки — обучение на 140+ языках.

Где это запускается — в этом и весь смысл

Открытые веса интересны не сами по себе, а тем, где их можно запускать без облака. Главное здесь — диапазон: одна и та же линейка тянется от телефона до серверной видеокарты.

Крупные модели — на одной видеокарте. Неквантованные веса bfloat16 умещаются на одной NVIDIA H100 (80 ГБ), квантованные версии запускаются на потребительских GPU. То есть 31B можно держать локально, без кластера.
Edge-модели — офлайн на устройстве. E2B и E4B работают полностью без сети, с почти нулевой задержкой, на телефонах, Raspberry Pi и мини-платах вроде Jetson Orin Nano. Их оптимизировали вместе с командой Google Pixel и производителями мобильных чипов; Android-разработчикам открыт ранний доступ, совместимый наперёд со следующим Gemini Nano.
Инструменты — со дня выхода. Модель сразу поддерживается основными фреймворками. Из заметных — Hugging Face, vLLM, llama.cpp, Ollama, MLX, LM Studio; полный список ещё длиннее. Смысл не в перечне, а в том, что искать обходной путь не придётся: ваш текущий стек почти наверняка уже в нём.
Облако — когда упёрлись в потолок локально. Если on-device не хватает, те же модели разворачиваются в Vertex AI, Cloud Run, GKE или на TPU; из железа поддержаны и NVIDIA вплоть до Blackwell, и AMD, и TPU Google.

На практике это база для дообучения, а не чат общего назначения. Видно по двум примерам: на Gemma собрали болгарско-ориентированную модель BgGPT, а вместе с Йельским университетом — систему для поиска новых путей терапии рака.

Тихая часть: дедлайн на Gemini 2.5

Та самая строка из вступления — теперь конкретно. Gemini 2.5 Pro, Gemini 2.5 Flash-Lite и Gemini 2.5 Flash выводятся из эксплуатации 16 октября 2026 года — около полугода на миграцию.

Контекст из changelog: gemini-2.5-flash-lite-preview-09-2025 уже отключён (замена — gemini-3.1-flash-lite-preview), а 1 апреля введены inference-тиры Flex и Priority — рычаг «стоимость или задержка» на время перехода.

Вывод 2.5 и одновременный выход бесплатной Gemma 4 — согласованный сигнал: Google предпочитает, чтобы вы перешли на линейку Gemini 3 либо взяли self-hosted Gemma, а не оставались на 2.5.

Veo 3.1 Lite — коротко и честно

Две фразы, потому что в источниках больше ничего нет: veo-3.1-lite-generate-preview доступна в public preview, заявлена как самая экономичная модель Veo, под быстрые итерации и высоконагруженные приложения. Спецификаций, цен и лимитов на эту дату нет — додумывать не будем. Release notes Vertex AI.

Что это значит

«Интеллект на параметр» плюс Apache 2.0 меняет арифметику build-vs-rent для команд с требованиями к резидентности данных: 31B Dense держится на одной H100 и дообучается под задачу.

Сложите это с зафиксированным дедлайном на Gemini 2.5 — и рациональный шаг не «мигрировать в октябре», а уже сейчас прогнать Gemma 4 31B как кандидата в fine-tune-базу против Gemini 3 на своей задаче, пока есть запас по времени.

Gemma 4 отдают даром — и в тот же день ставят таймер на Gemini 2.5 daily