Сгенерировать статичную 3D-форму сегодня умеют десятки моделей. Добавить движение — и вычисления взрываются квадратично. Tencent ARC Lab выпустила Sculpt4D: модель берёт видео на вход и выдаёт связный 4D-ассет (трёхмерный объект с динамикой во времени), при этом суммарные вычисления сети сокращены на 56% по сравнению с полным вниманием.
Ключевое архитектурное решение — Block Sparse Attention с time-decaying sparse mask (затухающей разреженной маской). Механизм фиксирует идентичность объекта через привязку к первому кадру, а динамику движения захватывает через маску, которая «затухает» по времени. Это позволяет моделировать сложные пространственно-временны́е зависимости без квадратичных затрат полного self-attention.
Sculpt4D надстроена над претренированным 3D Diffusion Transformer Hunyuan3D 2.1: перенос снижает зависимость от дефицитных 4D-обучающих данных, которых в открытом доступе крайне мало. Авторы заявляют state-of-the-art по временно́й связности 4D-синтеза. Веса модели опубликованы на Hugging Face (TencentARC/Sculpt4D), препринт — arXiv:2604.21592.
Синтез 4D-ассетов из видео востребован в геймдеве, VR и спецэффектах. До сих пор главным барьером была именно вычислительная стоимость, а не качество геометрии — статичные 3D-формы модели уже научились делать хорошо.
Sculpt4D закрывает разрыв между зрелой 3D-генерацией и практически недоступной 4D-генерацией через разреженное внимание поверх уже обученной 3D-базы. Честный пробел: Tencent ARC не раскрыла реальное время инференса на конкретном железе, размер и состав 4D-обучающих данных, а также условия лицензии на коммерческое использование весов — без этого оценить применимость в продакшне не получится.