Новости AI-стека
Daily · свежие материалы
ElevenLabs открыл API для разработчиков по всему миру — Grab уже тестирует
Географических ограничений больше нет — и первый публичный кейс пришёл из Юго-Восточной Азии.
Ray3.2 от Luma: покадровое управление видео и первый полноценный API
До 16 кейфреймов в одном клипе и 16-bit EXR на выходе — впервые всё это доступно через API; 5 секунд в 1080p стоят $1.20.
Один API-запрос — и агент ElevenLabs сам снял видео
Агент исследует тему, пишет HTML/CSS и рендерит MP4 через HyperFrames — без ручного монтажа.
ElevenLabs показала, как создать приложение голосом
Вы голосом описываете, что хотите, — а система сама собирает готовое приложение под ваш запрос.
Stability AI нашла способ экономить память при длинных текстах и видео
Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.
Luma Ray3.14 заменил захват движений на живом выступлении в Париже
Модель в 4 раза быстрее и в 3 раза дешевле предшественника — теперь в руках независимых авторов.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Luma открывает Physical AI Lab: ставка на открытую науку против монополии в робототехнике
Luma объявила об Open Physical AI Lab — исследовательской инициативе с открытым доступом, нацеленной на проблему обобщения в физическом ИИ. Компания считает её главным барьером между нынешними роботами и системами…
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.
Gemini 3.5 Flash: помощник для каноэ — за один перелет
Разработчик Google Торстен Шафф приступил к созданию ИИ-помощника для гребли на каноэ с помощью Gemini 3.5 Flash и Antigravity прямо на борту самолета.
ElevenLabs на Google I/O: «разговор» с базой знаний и агенты в облаке
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, активно участвовал в конференции Google I/O. Он продемонстрировал возможности интеграции multimodal-file-search и vision-agents для создания…
ElevenLabs: намек на Google I/O и «прогретые TPU»
ElevenLabs, известная своими технологиями синтеза речи, через своего руководителя по работе с разработчиками Торстена Шеффа сделала загадочный анонс в X, подогревая интерес к предстоящему мероприятию Google I/O…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Взгляд изнутри ElevenLabs
Сегодняшний день не принес крупных анонсов или обновлений от ElevenLabs. Вместо этого, фокус сместился на внутренние события и личные наблюдения сотрудников, что дает редкую возможность заглянуть за кулисы повседневной…
Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3
Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…
ElevenLabs: Детализация SIP-звонков, API для RAG-чанков и новые LLM в обновлении 13 мая
ElevenLabs выпустила набор обновлений, затрагивающих как инструментарий для работы с агентами, так и базовые API. Среди наиболее заметных изменений — появление детализированных SIP-логов для отладки, новый API для…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
uni-1-1-api: Luma AI запускает управляемый интеллект для продакшена
Luma AI представила uni-1-1-api, REST-интерфейс к своей модели унифицированного интеллекта, который обещает изменить подходы к генерации и редактированию изображений, выводя эти процессы на новый уровень управляемости и…
ElevenLabs: прибавление в семействе LLM и доработка ключевых инструментов
ElevenLabs продолжает обновлять свою платформу, интегрируя новые LLM-модели и улучшая инструменты для работы с агентами и креативным контентом. На фоне стремительного развития LLM-экосистемы, компания пополняет свой…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени
В последнее время фокус многих вендоров AI-инфраструктуры смещается в сторону более детального управления поведением агентов и прозрачности их работы. ElevenLabs не исключение: набор изменений за прошедший день…
Luma AI: гибридное кинопроизводство с ИИ приходит в Голливуд
Luma AI, в партнерстве с Wonder Project и при поддержке AWS, запускает Innovative Dreams — новую производственную компанию, которая интегрирует генеративный ИИ в традиционное кинопроизводство. Цель — преодолеть…
Luma Agents: рекламный ролик Mazda сдан за две недели вместо месяцев — что это меняет?
Luma Agents показали себя в работе над первым рекламным роликом Mazda, полностью созданным с помощью искусственного интеллекта. Кейс южноафриканского агентства Boundless демонстрирует, как новые рабочие процессы могут…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
ElevenLabs делит места в рабочих пространствах на «полные» и «базовые»
ElevenLabs изменила подход к управлению доступом внутри рабочих пространств, введя два различных типа мест: Full Seats и Basic Seats. Это изменение направлено на более гибкое распределение ресурсов для команд…
Perplexity: Агенты и вложения — теперь в релизе для продакшена
Perplexity выпустила в общий доступ (GA) свои Agent API и Embeddings API. Это означает, что разработчики теперь могут использовать инструменты для создания автономных агентов и внедрения продвинутого семантического…
Ray3.14: 1080p, быстрее и дешевле — но без референсов персонажей
Luma AI представила новую модель для генерации видео, Ray3.14, которая обещает существенные улучшения для работы с Dream Machine. Теперь генерация возможна в нативном 1080p, что само по себе делает модель более…
Stable Audio: Warner Music Group и Stability AI создадут этичный AI для музыки
Warner Music Group и Stability AI объявили о партнёрстве, цель которого — разработка нового поколения инструментов для создания музыки с использованием ответственного подхода к искусственному интеллекту. Этот союз…
Foley Control: Звук в видео без переобучения тяжелых моделей
Stability AI представила foley-control, новый метод для генерации реалистичных звуковых эффектов (фоли) на основе видео. Подход позволяет добавлять синхронизированные звуки к видео без необходимости переобучать крупные…