SAM 3.1: Видео, 3D, и открытый мир — Meta AI ускоряет восприятие

Hero illustration: SAM 3.1: Видео, 3D, и открытый мир — Meta AI ускоряет восприятие.

Стоит читать если: вы работаете с задачами сегментации видео, отслеживания объектов или 3D-реконструкции, особенно на устройствах с ограниченными ресурсами. Можно пропустить если: ваша задача не связана с компьютерным зрением и ИИ-моделями для работы с медиа.

Удвоенная скорость и отслеживание в реальном времени с SAM 3.1

Мультиплексирование для повышения эффективности. Ранее каждый объект требовал отдельного прохода, но теперь sam-3-1 обрабатывает до 16 объектов в одном прямом проходе. Это устраняет избыточные вычисления и узкие места памяти, упрощая архитектуру и снижая задержки. Скорость обработки видео с удвоенной производительностью. Модель ускоряет обработку видео со средним количеством объектов с 16 до 32 кадров в секунду на одном H100 GPU. Это позволяет отслеживать объекты в реальном времени в сложных видео, снижая общие требования к GPU. Режим глобального рассуждения (Global Reasoning). Этот подход повышает точность в сценах с большим количеством объектов, оптимизируя производительность.

Поддержка различных модальностей. sam-3-1 принимает текстовые промпты (короткие фразы), образцовые изображения и визуальные подсказки (маски, рамки, точки), увеличивая гибкость использования для разнообразных задач. Производительность. Модель sam-3-1 превосходит существующие системы в 2 раза на бенчмарке SA-Co для сегментации концептов. В исследованиях пользователи предпочитают результаты sam-3-1 по сравнению с OWLv2 примерно в три раза. Быстрый инференс. На H200 GPU sam-3-1 работает за 30 миллисекунд для одного изображения с более чем 100 обнаруженными объектами.

Новый движок данных с участием ИИ. Для создания высококачественных аннотированных изображений и видео с масками сегментации и текстовыми метками, Meta AI использует масштабируемый движок данных. Ускорение аннотации. Этот гибридный подход с участием sam-3-1, человека и ИИ-моделей позволяет ускорить аннотацию в 5 раз для отрицательных промптов (концептов, отсутствующих в изображении/видео) и на 36% для положительных промптов даже в сложных предметных областях. Архитектура модели. Модель sam-3-1 основана на Meta Perception Encoder для кодировщиков текста и изображений, а компонент детектора — на модели DETR. В качестве трекера используется память и энкодер памяти из SAM 2.

Segment Anything Playground: Песочница для экспериментов

Платформа для экспериментов. Представлен segment-anything-playground, новая платформа, которая позволяет экспериментировать с моделями SAM и творчески изменять медиа без технических навыков. Готовые шаблоны. Playground включает такие функции, как пикселизация лиц, номерных знаков и экранов, а также видеоэффекты, например, добавление точечного освещения, траекторий движения или увеличение определенных объектов. Интеграция с Aria Gen 2. sam-3-1 хорошо работает с материалами, снятыми носимыми устройствами, такими как исследовательские очки Meta Aria Gen 2. Это обеспечивает надежную сегментацию и отслеживание объектов с перспективы первого лица, обрабатывая динамические задачи в сценах, снятых с носимых устройств.

SAM 3D: Объекты и люди в трёх измерениях

Реконструкция 3D объектов. Meta AI также представила SAM 3D — набор моделей с открытым исходным кодом, кода и данных для 3D-объектов и реконструкции человека из одного изображения. Это устанавливает новый стандарт для обоснованной 3D-реконструкции в сценариях физического мира. Приложения в продуктах Meta. SAM 3 и SAM 3D используются в новой функции Facebook Marketplace «View in Room», помогая людям визуализировать стиль и соответствие предметов домашнего декора (например, лампы или стола) в их пространствах перед покупкой. Мониторинг дикой природы. Выпущен публично доступный набор данных SA-FARI для мониторинга дикой природы с использованием sam-3-1, созданный совместно с Conservation X Labs и Osa Conservation. Он включает более 10 000 видео с фотоловушек, аннотированных ограничивающими рамками и масками сегментации для каждого животного.

Boxer: 2D в 3D для открытого мира

2D в 3D для открытого мира. Meta FAIR выпустила boxer — алгоритм для надежного преобразования 2D ограничивающих рамок в 3D. BoxerNet как основа. В его основе лежит boxernet, сеть на основе трансформеров, которая преобразует 2D ограничивающие рамки (2DBB) в 3D. Согласованные 3D рамки. Модель использует многовидовое слияние и геометрическую фильтрацию для получения глобально согласованных, дедуплицированных 3DBB в метрическом мировом пространстве. Алгоритм предназначен для оценки статических 3D ограничивающих рамок (3DBB) на основе 2D обнаружений объектов с открытым словарем, позиционированных изображений и опциональных данных о глубине.

EUPE-ConvNeXt: Эффективные энкодеры для устройств с ограничениями

Эффективные универсальные энкодеры. Meta FAIR выпустила модели eupe-convnext (Efficient Universal Perception Encoder), предназначенные для эффективной обработки на устройствах с ограниченными вычислительными ресурсами и для разнообразных задач. Метод дистилляции. eupe достигает универсально хороших представлений для различных задач за счет дистилляции из нескольких экспертных базовых моделей машинного зрения. Многоцелевые визуальные бэкбоны. Модели EUPE-ConvNeXt-B, EUPE-ConvNeXt-S, EUPE-ConvNeXt-T являются вариантами ConvNeXt, обученными по методу EUPE. Они служат многоцелевыми визуальными бэкбонами, особенно подходящими для многозадачных настроек с ограниченным бюджетом вычислений. Без дообучения. Модели могут использоваться без дообучения с различными модулями для достижения конкурентных результатов в классификации изображений, 3D-ключевых точках, оценке глубины, семантической сегментации и визуальных вопросах и ответах.

Что это значит

Новый шаг в восприятии. Meta AI продолжает фокусироваться на задачах восприятия, делая шаг к более быстрой и точной сегментации и пониманию 3D-пространства. Больше возможностей для разработчиков. Выпуск sam-3-1 с его эффективностью, boxer для 3D-преобразования и eupe-convnext для устройств с ограничениями означает расширение инструментария для создания ИИ-приложений, особенно в областях AR/VR, анализа видео и компьютерного зрения на edge-устройствах.

SAM 3.1: Видео, 3D, и открытый мир — Meta AI ускоряет восприятие daily

Удвоенная скорость и отслеживание в реальном времени с SAM 3.1

Segment Anything Playground: Песочница для экспериментов

SAM 3D: Объекты и люди в трёх измерениях

Boxer: 2D в 3D для открытого мира

EUPE-ConvNeXt: Эффективные энкодеры для устройств с ограничениями

Что это значит

Ссылки

Источники

Оценить материал