Когда нужно быстро превратить идею в анимированный ролик, приходится использовать несколько инструментов. Google упростила этот процесс, выпустив две специализированные модели: Nano Banana 2 Lite для скоростной и экономичной генерации изображений и Gemini Omni Flash для создания и разговорного редактирования видео.
Модель gemini-3.1-flash-lite-image (Nano Banana 2 Lite) вышла в общий доступ. Это самая быстрая и экономичная модель для работы с изображениями в линейке Gemini Image, оптимизированная для высокой пропускной способности и низкой задержки. Она призвана заменить предыдущую версию Nano Banana (gemini-2.5-flash-image).
Nano Banana 2 Lite генерирует изображения из текста за 4 секунды, а её стоимость составляет $0.034 за 1000 изображений. Модель сохраняет точность следования промпту, единообразие персонажей и читаемость текста на изображениях. Её можно использовать в Google AI Studio, Gemini API, Gemini Enterprise Agent Platform, а также в потребительских продуктах Google, таких как AI Mode в Поиске и приложении Gemini.
gemini-omni-flash-preview (Gemini Omni Flash) доступна в публичном превью. Это высокопроизводительная мультимодальная модель, ориентированная на быструю генерацию и разговорное редактирование видео. Через Interactions API она может создавать видео длительностью от 3 до 10 секунд в разрешении 720p из текстовых описаний или анимировать статичные изображения. Стоимость составляет $0.10 за секунду видео.
Ключевые возможности Gemini Omni Flash:
- Разговорное редактирование — уточняет видео через естественный язык, сохраняя согласованность сцены.
- Мультимодальные ссылки — принимает текст, изображения и видео для контроля над сценой.
- Знание реального мира — использует базу знаний Gemini (история, биология) для создания убедительных видео.
- Синхронизация текста и действий — связывает текстовые описания с видеодействиями.
При этом Omni Flash пока имеет ограничения: видеоролики генерируются только до 10 секунд, загрузка аудиореференсов и расширение сцены не поддерживаются через API, а видео-референсы длительностью более 3 секунд не обрабатываются корректно. Также есть проблемы с консистентностью персонажей при смене сцен.
Настоящая сила новых моделей раскрывается при их совместном использовании. Nano Banana 2 Lite может быстро создавать изображения, которые затем передаются в Gemini Omni Flash для анимации и превращения в видео. Interactions API поддерживает историю сессии, позволяя выполнять до трёх последовательных правок. Google показала это на демо-приложениях, где селфи превращается в анимированное видео достопримечательности, а статичный дизайн комнаты — в кинематографический ролик. Обе модели используют водяные знаки SynthID для проверки подлинности AI-контента.
Google не просто выпускает две новые модели, а предлагает разработчикам готовый конвейер для быстрой итерации мультимедийного контента — от статичного изображения до анимированного видео. Фокус на скорости и разговорном взаимодействии указывает на стремление сделать такие рабочие процессы доступными для широкого круга задач, хотя текущие ограничения по длине видео и точности пока удерживают их от самых сложных сценариев.