Стоит читать если: вы работаете с 3D-контентом, VR/AR, симуляциями или ищете решения для генерации реалистичных объектов из изображений. Можно пропустить если: ваша работа не связана с 3D-моделированием и генерацией контента.
От общего к деталям: генерация геометрии
Проблема с предыдущими версиями заключалась в компромиссе между общей формой и мелкими деталями. В Seed3D 1.0 модель генерировала эти аспекты одновременно, что приводило к «смягчению» острых углов и недостаточной точности изогнутых поверхностей. Чтобы преодолеть это, Seed3D 2.0 использует двухэтапную стратегию генерации «от грубого к тонкому» (Coarse-to-Fine).
Новая архитектура разделяет процесс генерации на два независимых этапа:
- Этап 1: создание грубой геометрической структуры. Модель применяет DiT (Diffusion Transformer) с большим масштабом параметров для формирования общей топологии и пространственного расположения объекта на основе входного изображения.
- Этап 2: проработка высокоточных деталей. Используя результаты первого этапа как геометрические якоря, модель фокусируется на восстановлении острых граней и уточненных поверхностей. В этом ей помогают две ключевые технологии:
- Local-aware prior: грубые результаты конвертируются в латентные переменные, обеспечивая стабильную инициализацию для детальной генерации.
- Voxelized positional encoding: точки, сэмплированные на геометрических поверхностях первого этапа, вокселизируются и служат пространственными ограничениями.
Эти улучшения позволили Seed3D 2.0 существенно превзойти существующие методы в рендеринге тонких граней сложных геометрий и создании тонкостенных структур, сохраняя при этом точность по отношению к исходному изображению. Слепые парные сравнения с участием 60 оценщиков, имеющих опыт 3D-моделирования, подтвердили преимущество Seed3D 2.0: модель демонстрирует более высокий процент предпочтения по сравнению с шестью эталонными моделями.
Единая модель для реалистичных текстур (PBR)
Для приложений, где требуется физически корректное отображение, только RGB недостаточно. Seed3D 1.0 использовала каскадную модель для генерации RGB и последующей PBR-декомпозиции, что приводило к накоплению ошибок. Seed3D 2.0 упрощает этот процесс, вводя единую PBR-генеративную модель.
Новая архитектура основана на MMDiT с двухпотоковым подходом и использует проекционные слои для модальностей, что позволяет совместно обрабатывать полный набор текстурных карт PBR в общих DiT-слоях. Для достижения высокой точности материалов при более высоких разрешениях введены два ключевых новшества:
- Архитектура Mixture of Experts (MoE): позволяет увеличить параметры модели и разрешение, одновременно контролируя вычислительные затраты за счет маршрутизации экспертов. Это дает возможность генерировать более богатые детали текстур и точные границы для металлов и шероховатостей.
- Приоритизация VLM для стабильности: для решения проблемы неоднозначности при определении свойств PBR по RGB-изображениям модель использует VLM (Vision-Language Model), чтобы генерировать описания типов материалов и физических свойств исходного изображения. Эти описания служат дополнительными сигналами управления, делая декомпозицию материалов более стабильной и логичной.
Результат — более высокая реалистичность и стабильность PBR-материалов. Например, на объекте вроде кастрюли из нержавеющей стали Seed3D 2.0 обеспечивает более аутентичную металлическую отделку с тонкими вариациями шероховатости и следами износа, в отличие от других методов, которые часто создают слишком однородные или недоэкспонированные поверхности. Человеческая оценка показала, что Seed3D 2.0 является предпочтительным выбором, с доминирующим показателем выигрыша в 69.0% по сравнению с основными отраслевыми бенчмарками.
Декомпозиция по частям и генерация сцен
Современные сценарии часто требуют, чтобы 3D-активы были разложены на функциональные компоненты. Игровые движки нуждаются в независимо управляемых модулях, а симуляционные среды — в шарнирных структурах для кинематического движения. Seed3D 2.0 расширяет гибкость моделирования, позволяя легко собирать и декомпозировать отдельные части.
Модель использует парадигму «понять, затем сгенерировать»:
- Декомпозиция на уровне частей:
Seed3D-PartSeg(модуль 3D-понимания) выполняет сегментацию поверхности 3D-сеток на основе функциональных и других критериев. ЗатемSeed3D-PartDiTиспользует форму, сегментированные облака точек и изображения для завершения формы каждой отдельной части. Например, стул автоматически разбивается на сиденье, спинку и основание, а робот — на конечности. - Шарнирное моделирование: Seed3D 2.0 также включает возможности шарнирного моделирования. Модель использует VLM для декомпозиции частей на кинематические компоненты и идентификации типов соединений (например, вращающиеся против фиксированных структур), а затем оценивает оси соединений с помощью геометрических приоритов. Для правдоподобности движения модель вводит изображение-видео модель для генерации референсов движения, оптимизируя диапазон движения шарнирных частей. Результат — 3D-контент с полной информацией о соединениях в стандартных форматах, таких как URDF, что обеспечивает совместимость с основными физическими симуляционными движками, например, Isaac Sim.
- Генерация сцен: Seed3D 2.0 расширяет свои возможности по генерации одиночных объектов до генерации целых сцен. Для правдоподобного расположения объектов модель адаптирует стратегию компоновки: для текстовых вводов используется дообученная LLM для пространственного рассуждения, а для многовидовых изображений или видео — визуальные сигналы, такие как оценка глубины. После определения компоновки Seed3D 2.0 генерирует 3D-контент индивидуально и собирает его в соответствии с пространственными отношениями для построения сложной и полной сцены. Интеграция генерации на уровне частей и шарнирного моделирования позволяет создавать сцены, в которых объекты могут быть преобразованы в шарнирный 3D-контент, поддерживающий физические взаимодействия.
API Seed3D 2.0 уже доступен на Volcano Engine. Анонс
Что это значит
Для инженеров и разработчиков, работающих с 3D-графикой и симуляциями, Seed3D 2.0 от ByteDance открывает двери к более высококачественному и интерактивному контенту. Улучшенная точность геометрии и реализм PBR-материалов снижают потребность в ручной доработке, а функции декомпозиции на уровне частей и шарнирного моделирования могут существенно ускорить создание сложных виртуальных сред. В долгосрочной перспективе это может ускорить развитие таких областей, как робототехника, VR/AR и симуляции, где качество и физическая корректность 3D-активов играют критическую роль.