Новости AI-стека
Daily · свежие материалы
Grok Build получил встроенный магазин плагинов — MongoDB, Sentry и Vercel с одной команды
Каждый плагин закреплён за конкретным коммитом SHA — xAI верифицирует его при установке.
Инвестиционный агент Tori от eToro теперь читает настроения рынка прямо из X
Тот же поток данных xAI открыл через API — любая команда может подключиться за несколько минут.
ElevenLabs открыл API для разработчиков по всему миру — Grab уже тестирует
Географических ограничений больше нет — и первый публичный кейс пришёл из Юго-Восточной Азии.
Grok теперь собирает корзину в Gopuff до того, как вы открыли приложение
xAI тянет сигналы из X и данные о погоде, чтобы предугадывать заказы — первый публичный кейс Grok-агента в ритейле.
Один API-запрос — и агент ElevenLabs сам снял видео
Агент исследует тему, пишет HTML/CSS и рендерит MP4 через HyperFrames — без ручного монтажа.
Sculpt4D от Tencent ARC генерирует 4D-объекты из видео — на 56% дешевле полного внимания
Модель надстроена над Hunyuan3D 2.1 и уже открыта на Hugging Face — но время инференса и лицензия не раскрыты.
FLUX.2 встроили в ноутбуки ASUS — без интернета и подписки
Модель генерирует изображения прямо на устройстве за 5 секунд — без облака и без платы за каждый запрос.
ElevenLabs показала, как создать приложение голосом
Вы голосом описываете, что хотите, — а система сама собирает готовое приложение под ваш запрос.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Composer 2.5 внутри Grok Build: файн-тюн Kimi K2.5 с 25× больше синтетики
xAI выпустила Composer 2.5 — агентную кодинговую модель на базе open-source чекпоинта Moonshot Kimi K2.5, обученную на синтетических задачах в 25 раз интенсивнее предшественника. Интересно тут не сам релиз, а…
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.
FLUX VTO: виртуальная примерка в масштабе каталога
Black Forest Labs анонсировала FLUX VTO — новую технологию виртуальной примерки одежды, предназначенную для ритейлеров, которая обеспечивает высокую скорость, точность рендеринга и гибкость стилизации для больших…
Gemini 3.5 Flash: помощник для каноэ — за один перелет
Разработчик Google Торстен Шафф приступил к созданию ИИ-помощника для гребли на каноэ с помощью Gemini 3.5 Flash и Antigravity прямо на борту самолета.
Grok в Kilo Code: подписка вместо API-ключа для агентного кодинга
xAI представила прямую подписочную интеграцию моделей Grok, включая Grok Build, в платформу Kilo Code для пользователей X Premium+ и SuperGrok, устраняя необходимость в API-ключах.
Grok Build: агент для кода прямо в терминале
xAI представила раннюю бета-версию Grok Build — мощного агента для кодирования в командной строке, доступного подписчикам SuperGrok и X Premium Plus.
ElevenLabs на Google I/O: «разговор» с базой знаний и агенты в облаке
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, активно участвовал в конференции Google I/O. Он продемонстрировал возможности интеграции multimodal-file-search и vision-agents для создания…
Grok: не только в браузере — теперь через OpenClaw
xAI запустила интеграцию Grok с OpenClaw, позволяя пользователям с подписками SuperGrok или X Premium запускать модели Grok внутри этого open-source локального агента. Этот шаг переносит возможности Grok из облака на…
ElevenLabs: намек на Google I/O и «прогретые TPU»
ElevenLabs, известная своими технологиями синтеза речи, через своего руководителя по работе с разработчиками Торстена Шеффа сделала загадочный анонс в X, подогревая интерес к предстоящему мероприятию Google I/O…
Взгляд изнутри ElevenLabs
Сегодняшний день не принес крупных анонсов или обновлений от ElevenLabs. Вместо этого, фокус сместился на внутренние события и личные наблюдения сотрудников, что дает редкую возможность заглянуть за кулисы повседневной…
FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов
Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…
StereoCrafter2: Tencent ARC Lab обновила модель для иммерсивного видео
Tencent ARC Lab выпустила обновление своей модели StereoCrafter, получившее название StereoCrafter2. Новая версия нацелена на решение ключевой проблемы в производстве иммерсивного видео: достижение высокой точности и…
ElevenLabs: Детализация SIP-звонков, API для RAG-чанков и новые LLM в обновлении 13 мая
ElevenLabs выпустила набор обновлений, затрагивающих как инструментарий для работы с агентами, так и базовые API. Среди наиболее заметных изменений — появление детализированных SIP-логов для отладки, новый API для…
Hy-MT2: многоязычный перевод для сложных сценариев — с оптимизацией для устройств
Tencent Hunyuan выпустила семейство многоязычных моделей перевода Hy-MT2, разработанных для сложных реальных сценариев. Модели доступны в размерах 1.8B, 7B и 30B-A3B (MoE), поддерживают 33 языка и демонстрируют…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
ElevenLabs: прибавление в семействе LLM и доработка ключевых инструментов
ElevenLabs продолжает обновлять свою платформу, интегрируя новые LLM-модели и улучшая инструменты для работы с агентами и креативным контентом. На фоне стремительного развития LLM-экосистемы, компания пополняет свой…
Pixal3D-D от Tencent: 3D-модель представлена без документации
Tencent ARC Lab представила Pixal3D-D — новую модель для 3D-генерации, которая появилась на Hugging Face. Однако, несмотря на релиз, публичной документации или детального описания, как это часто бывает, пока нет.
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени
В последнее время фокус многих вендоров AI-инфраструктуры смещается в сторону более детального управления поведением агентов и прозрачности их работы. ElevenLabs не исключение: набор изменений за прошедший день…
**Формат координат и ответа:**
Точка: (x, y) или [(x1, y1), (x2, y2)] Коробка: [xmin, ymin, xmax, ymax] Координаты нормализованы до целочисленного диапазона (0, 1000). В режиме thinking mode ответы структурированы как…