Стоит читать если: вы работаете с генерацией или редактированием изображений в продакшене и сталкиваетесь с проблемами согласованности стиля, референсов или сложной логики в мультимодальных моделях. Можно пропустить если: ваша работа не связана с высококачественной генерацией изображений или управлением сложным визуальным контентом.
Интеллект, а не «сшивание»: как работает uni-1
Luma AI утверждает, что стандартный подход к генеративному AI, при котором отдельные языковые и графические модели «сшиваются» на этапе инференса, приводит к ограниченному результату. Такая архитектура дает скорее «водопровод», чем «рассуждение». uni-1 решает эту проблему принципиально иначе: это авторегрессивный декодер-only трансформер, где текстовые и графические токены обрабатываются в единой последовательности. Модель не транслирует между модальностями, а одновременно рассуждает по всей входной информации, определяя структурный замысел до генерации пикселей.
Что это дает на практике. Этот подход позволяет uni-1 более точно следовать сложным техническим заданиям с множеством ограничений, лучше удерживать референсы и реагировать на общий замысел, а не на синтаксис промпта. Модель уже используется в продакшене такими компаниями, как Envato, Comfy, Runware, Flora, Krea, Magnific (ранее Freepik), Fal и LovArt. Кроме того, Luma AI сообщает, что uni-1 входит в топ-3 лабораторий по Text-to-Image и Image Edit в Image Arena и занимает первое место в Human Preference Elo по общей оценке, стилю, редактированию и генерации на основе референсов.
Две точки входа для управляемой генерации и редактирования
uni-1-1-api предоставляет разработчикам REST-интерфейс с двумя основными эндпоинтами, которые работают с учетом творческого замысла, а не только промптов.
- Generate Image. Этот эндпоинт предназначен для generate-image и генерации с использованием референсов. Модель позволяет передавать до девяти референсных изображений за один запрос. Это помогает сохранять идентичность, композицию, стиль или любую их комбинацию. При использовании референсных изображений, таких как изображения, стиля или персонажей, можно настроить их влияние с помощью параметра
weight. Для создания согласованных персонажей можно использовать до 4 изображений одного человека для формирования одной идентичности, что улучшает её представление. Важная деталь: uni-1 удерживает визуальную непрерывность между множеством референсных входов, что часто является проблемой в пайплайнах, построенных на «сшитых» моделях. - Modify Image. Этот эндпоинт позволяет выполнять modify-image на естественном языке. Разработчики могут описывать изменения обычным текстом, например, «поменять фон», «сдвинуть освещение», «применить эстетику референса» или вносить локализованные изменения. Это работает без необходимости создавать сложный промпт-скаффолдинг. Следует учитывать, что изменение цветов изображений сложнее, и для достижения желаемого результата рекомендуется использовать меньшее значение
weight(от 0.0 до 0.1).
Управление и SDK. Оба эндпоинта доступны через Python и JavaScript/TypeScript SDK. Доступны следующие соотношения сторон: 1:1, 3:4, 4:3, 9:16 (по умолчанию), 16:9, 9:21, 21:9, а также форматы PNG или JPEG. Для генерации можно выбрать одну из двух версий модели: photon-1 (по умолчанию) или photon-flash-1.
Также API поддерживает систему колбэков, которая позволяет получать асинхронные уведомления о статусе генерации (dreaming, completed, failed) и получать URL готового изображения.
Сценарии использования: от агентов до глобального контента
Благодаря тому, что uni-1 рассуждает до рендеринга, uni-1-1-api открывает новые возможности для творческих рабочих процессов, где визуальный замысел, согласованность бренда и эстетическое суждение удерживаются на уровне модели. Это означает, что не нужно «докручивать» их обходными путями.
- Рабочие процессы, ориентированные на агентов. API включает встроенные возможности для улучшения промптов, исследований и сбора референсов. Это устраняет необходимость в промежуточном ПО, а конечным пользователям не нужно быть инженерами по промптам.
- Масштабируемые брендовые рабочие процессы. Референсные изображения действуют как ограничения на уровне модели, обеспечивая визуальную идентичность по всем каналам и рынкам, при этом их влияние можно точно регулировать с помощью параметра
weight. - Генерация на основе референсов. Можно генерировать согласованных персонажей в разных сценах или переносить эстетику клиента на новый объект, передавая до девяти референсных изображений за запрос. Для создания детализированных персонажей допускается использование до 4 изображений одного человека для формирования его идентичности.
- Редактирование на естественном языке. Локализованные изменения — фоны, освещение, цвет, композиция — описываются простым языком, без сложной промпт-структуры.
- Итеративные творческие пайплайны. Генерируйте первый проход, затем уточняйте с помощью последующих инструкций. Модель сохраняет визуальную непрерывность на протяжении итераций.
- Глобальный контент в масштабе. Нативный многоязычный рендеринг поддерживает нелатинские шрифты, включая китайский, японский и арабский, с учетом региональных эстетических особенностей.
Скорость и доступность. Время генерации составляет примерно 31 секунду на изображение, что, по заявлению Luma AI, обеспечивает вдвое меньшую цену и задержку по сравнению с аналогичными моделями. uni-1-1-api доступен уже сегодня в двух версиях — Uni-1.1 и Uni-1.1 Max.
Лимиты и тарификация
Для работы с uni-1-1-api предусмотрено два уровня доступа: «Build» и «Scale». Уровень «Build» предназначен для интеграции и экспериментов с оплатой по факту использования, а «Scale» — для продакшн-нагрузок с более высокими лимитами и выделенной поддержкой.
На уровне «Build» действуют ограничения для поддержания качества сервиса. Для моделей изображений Photon и Photon Flash установлено 40 одновременных генераций и 80 запросов Create API в минуту. Месячный лимит использования на уровне «Build» составляет $5000. Для более высоких лимитов предлагается план «Scale».
Что это значит
Для инженеров, работающих с генеративным AI, появление uni-1-1-api означает переход от «сшивания» слабо связанных моделей к интегрированному визуальному мышлению. Возможность передавать до девяти референсных изображений и описывать изменения естественным языком существенно упрощает создание согласованного, эстетически выверенного контента в масштабе, снимая часть инженерной нагрузки с разработчиков и перенося её на саму модель.