AI News Watcher
Thursday, May 28, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · May 28, 2026 · 7 min read · Google ← Back to feed

Gemini Image Models: видео в картинку, но не для всех daily

Google представила обновленную линейку моделей Nano Banana для генерации и редактирования изображений, а также расширила функции понимания видеоконтента, открывая мультимодальные возможности для разработчиков.

Hero illustration: Gemini Image Models: видео в картинку, но не для всех.

Редакция · Daily briefing

Google значительно расширяет возможности своих моделей Gemini для работы с визуальным контентом. Новая линейка Nano Banana теперь предлагает разработчикам передовые функции для создания и редактирования изображений, а также глубокое понимание видеоконтента, что открывает путь к созданию более интерактивных и мультимодальных ИИ-приложений. Эти обновления подчеркивают стремление Google предоставить комплексные инструменты для работы со сложными визуальными данными.

Модели Nano Banana для генерации изображений: Обзор

Nano Banana — это собственная линейка моделей Google Gemini, разработанная для нативной генерации и обработки изображений. Эти модели позволяют взаимодействовать с визуальным контентом через текст, изображения или их комбинацию, предлагая разработчикам беспрецедентный контроль над созданием и редактированием. Линейка включает в себя несколько версий, каждая из которых оптимизирована для конкретных сценариев использования, от высокоскоростной генерации до профессионального производства активов.

Существуют три основные версии моделей Nano Banana:

Основные функции этих моделей включают возможность генерировать изображения на основе текстовых описаний, редактировать существующие визуальные элементы и работать в режиме реального времени. Разработчики могут использовать Nano Banana для создания прототипов UI, профессиональных снимков продуктов, иконок и стикеров, а также для создания изображений с точным текстом на основе поисковых запросов. Каждая версия Nano Banana предлагает свои уникальные преимущества, позволяя выбрать наиболее подходящий инструмент для конкретной задачи генерации изображений. В источниках нет конкретных подробностей ценообразования для каждой версии модели Nano Banana, что может затруднить планирование затрат для разработчиков.

Расширенные возможности генерации и редактирования изображений

Модели Nano Banana позволяют разработчикам создавать изображения, используя текстовые описания (text-to-image), а также выполнять сложное редактирование существующих визуальных элементов. Процесс начинается с текстового запроса, который описывает желаемое изображение, и модель генерирует соответствующий визуальный контент. Это может быть что угодно: от обложки журнала с определенным шрифтом и композицией до детального трехмерного мультяшного пейзажа Лондона с учетом текущих погодных условий.

Разработчики могут использовать Nano Banana для различных задач:

Кроме того, модели поддерживают редактирование изображений, включая сохранение высокой точности деталей при изменении элементов и возможность применять различные стили. Например, можно попросить модель разместить логотип на флаконе духов так, чтобы он был идеально интегрирован в бутылку, или изменить стиль персонажей на фотографии кафе. Все сгенерированные изображения моделей Nano Banana включают цифровой водяной знак SynthID. Это означает, что любое изображение, созданное с помощью этих моделей, будет содержать невидимую метку, которая позволяет идентифицировать его как сгенерированное ИИ. Эта функция обеспечивает прозрачность и помогает отличить синтетический контент от оригинального.

Понимание видеоконтента моделями Gemini

Модели Gemini способны обрабатывать видеоконтент, открывая широкий спектр применений для разработчиков, которые ранее требовали специализированных моделей. Эти возможности включают в себя описание, сегментацию и извлечение информации из видеороликов, ответы на вопросы о содержимом видео и даже ссылки на конкретные временные метки внутри видео.

Gemini понимает видеоконтент, анализируя его кадры и аудиодорожку, чтобы выявить события, объекты, действия и контекст. Разработчики могут загружать видео разными способами: через File API для больших файлов (до 20 ГБ), Cloud Storage Registration для многократного использования, Inline Data для небольших видео (до 100 МБ) или напрямую указывать URL-адреса YouTube для публичных видео. File API рекомендуется для большинства случаев, особенно для файлов более 100 МБ или при необходимости повторного использования видео в нескольких запросах.

С помощью функций понимания видео можно решать следующие задачи:

Понимание видеоконтента отличается от его генерации. Если понимание видео фокусируется на анализе существующих видеоматериалов для извлечения информации, то генерация видео (например, с использованием моделей Veo) занимается созданием нового видеоконтента. Модели Gemini действуют как мощные аналитические инструменты, позволяющие извлекать смысл из сложных визуальных и аудиоданных.

Генерация видео из изображений с Veo 3.1

Google продолжает расширять свои возможности в области генерации медиа, представляя модели Veo 3.1 для создания видео. Эти модели, включая Veo 3.1 Preview и Veo 3.1 Lite Preview, представляют собой значительный шаг вперед в области генерации видеоконтента.

Veo 3.1 Lite Preview (veo-3.1-lite-generate-preview), выпущенная 31 марта 2026 года, является наиболее экономичной моделью для генерации видео, разработанной для быстрой итерации и создания высокообъемных приложений. В то время как Veo 3.1 Preview предлагает возможности кинематографической генерации видео с расширенными творческими элементами управления.

Ключевая особенность моделей Veo 3.1 заключается в их способности генерировать видео на основе нескольких изображений. Эта функция, ставшая доступной в публичном превью 15 октября 2025 года, позволяет пользователям ссылаться до на трех изображений для создания видеоролика. Это демонстрирует сложное взаимодействие различных визуальных модальностей и позволяет более гибко подходить к созданию динамического контента, комбинируя статику и движение. Источники не уточняют конкретных ограничений по географическому доступу или квотам для функций Veo, что оставляет вопросы по поводу широкой доступности.

Доступность и позиционирование на рынке

Модели Gemini Image, включая Nano Banana 2 (gemini-3.1-flash-image) и Nano Banana Pro (gemini-3-pro-image), теперь стабильно доступны для разработчиков, предлагая масштабируемые решения для генерации и редактирования изображений. Оригинальная модель Nano Banana (gemini-2.5-flash-image) также продолжает использоваться для быстрых и креативных рабочих процессов. Что касается видеогенерации, модели Veo 3.1 (Veo 3.1 Preview и Veo 3.1 Lite Preview) находятся в публичном превью, что позволяет разработчикам экспериментировать с новыми функциями, такими как создание видео из нескольких изображений.

На рынке генерации изображений модели Google, такие как Imagen 3, активно конкурируют с другими крупными игроками, например, DALL-E 3 от OpenAI. Согласно анализу Rewarx, Imagen 3, построенная на диффузионной архитектуре Google, отличается исключительным фотореализмом и способностью обрабатывать сложное освещение и текстуры. В то время как DALL-E 3, основанная на GPT-4, делает акцент на семантической согласованности и контекстных нюансах, лучше интерпретируя неоднозначные текстовые запросы.

Google позиционирует свои модели Nano Banana как инструменты с акцентом на визуальную точность и глубокую интеграцию в экосистему Google Cloud, включая Vertex AI, что позволяет масштабируемые развертывания и пользовательскую доработку на основе собственных наборов данных. В отличие от DALL-E 3, которая предлагает упрощенный REST API и SDK, решения Google предоставляют более глубокие возможности для корпоративных пользователей с конкретными требованиями к визуальному брендингу. Однако, конкретных подробностей ценообразования для моделей Nano Banana в представленных источниках не указано, что является пробелом для разработчиков при оценке затрат. Также нет данных о конкретных ограничениях по географическому доступу или квотам для некоторых функций Nano Banana или Veo, что может быть важно при планировании глобальных развертываний.

Что это значит

Обновленные модели Gemini, включающие линейку Nano Banana для работы с изображениями и функции понимания видео, теперь поддерживают генерацию, редактирование, анализ визуального контента и создание видео из изображений. Их реальное влияние на разработку приложений покажет широкое внедрение и отзывы сообщества.

Глоссарий — ключевые термины

Nano Banana — Кодовое название линейки моделей Google Gemini для создания и редактирования изображений.

SynthID — Технология Google для невидимой маркировки изображений, сгенерированных искусственным интеллектом, с целью подтверждения их происхождения.

Мультимодальное встраивание — Метод представления данных из разных модальностей (текст, изображения, видео) в едином векторном пространстве для выполнения задач, таких как поиск и сопоставление.

Veo — Серия моделей Google Gemini, разработанных для генерации видеоконтента.

Основная статья

  1. Gemini API — May 28, 2026

Дополнительные источники

  1. https://ai.google.dev/gemini-api/docs/image-generation
  2. https://ai.google.dev/gemini-api/docs/video-understanding
  3. https://ai.google.dev/gemini-api/docs/models
  4. rewarx.com