Сложный монтаж видео и многоступенчатая ретушь фото обычно требуют специализированных инструментов и навыков. Google упрощает эти задачи, представив две новые мультимодальные модели — Gemini Omni Flash и Nano Banana 2 Lite — которые управляются текстовыми командами через новый API.
Google представила Gemini Omni Flash для видео и Nano Banana 2 Lite для изображений. Эти модели позволяют редактировать медиаконтент, используя текстовые запросы, и, по заявлению компании, обеспечивают одно из лучших соотношений цены и производительности среди решений на рынке.
Ключевую роль в этих возможностях играет Interactions API, который теперь общедоступен. Google рекомендует его для всех новых проектов, поскольку он оптимизирован под агентные рабочие процессы и управление состоянием моделей. Руководитель отдела по работе с разработчиками Торстен Шефф уже продемонстрировал возможности API для многоэтапного редактирования изображений.
Gemini Omni Flash (в статусе публичного превью) предназначен для быстрой генерации и диалогового редактирования видео. Модель позволяет менять персонажей, объекты, освещение или стили сцен по текстовому запросу. Она принимает на вход текст, изображения и видео до 10 секунд для редактирования, а выдаёт готовое видео длиной 3–10 секунд в разрешении 720p при 24 FPS. Контекстное окно модели составляет 1 048 576 токенов.
Nano Banana 2 Lite (общедоступна) — это самая быстрая и экономичная модель для генерации и редактирования изображений в семействе Nano Banana. Она ориентирована на быстрое прототипирование, A/B-тестирование рекламных креативов и масштабирование для социальных приложений.
Эти релизы ясно показывают курс Google на упрощение сложных мультимодальных задач и интеграцию разговорного ИИ в творческие рабочие процессы. Однако, пока Gemini Omni Flash находится в статусе превью, инженерам предстоит оценить его реальную производительность и стабильность в продакшене.