Новости AI-стека
Daily · свежие материалы
ElevenLabs открыл API для разработчиков по всему миру — Grab уже тестирует
Географических ограничений больше нет — и первый публичный кейс пришёл из Юго-Восточной Азии.
Один API-запрос — и агент ElevenLabs сам снял видео
Агент исследует тему, пишет HTML/CSS и рендерит MP4 через HyperFrames — без ручного монтажа.
ElevenLabs показала, как создать приложение голосом
Вы голосом описываете, что хотите, — а система сама собирает готовое приложение под ваш запрос.
Replicate устранил очереди и задержки на кластерах L40S и H200
Конкуренция за модели замедляла запуски — теперь система работает штатно.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Как Together AI запустила 1M-контекст MiniMax M3 в продакшне без деградации throughput
Together AI раскрыла инженерные решения, позволившие обслуживать MiniMax M3 (1M токенов, нативная мультимодальность, MSA-архитектура) с приростом throughput 81–125% на разных уровнях конкурентности. Это первый публичный…
Cog v0.21.0-rc.2 закрывает тихий баг: `cog serve` наконец монтирует веса как `cog run`
В релиз-кандидате Cog v0.21.0-rc.2 исправлена ошибка, из-за которой cog serve не монтировал managed-веса в контейнер, хотя cog run делал это корректно — модели с весами падали при setup без очевидной причины.
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
Together AI: как построить рекордно быстрый Speech-to-Text стек
Together AI представила детальное техническое описание оптимизации всего стека преобразования речи в текст, включая GPU, CPU, память и сетевые протоколы, установив новый мировой рекорд скорости.
Cog: потоки событий для предсказаний и новые предупреждения
Предварительный релиз Cog v0.21.0-rc.1 вводит Server-Sent Events для realtime-обновлений предсказаний, а также объявляет cog weights экспериментальным.
Снижение производительности flux-2-klein-4b
Наблюдалось снижение производительности модели flux-2-klein-4b, проблема была решена, и время ожидания вернулось к норме.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.
Gemini 3.5 Flash: помощник для каноэ — за один перелет
Разработчик Google Торстен Шафф приступил к созданию ИИ-помощника для гребли на каноэ с помощью Gemini 3.5 Flash и Antigravity прямо на борту самолета.
ElevenLabs на Google I/O: «разговор» с базой знаний и агенты в облаке
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, активно участвовал в конференции Google I/O. Он продемонстрировал возможности интеграции multimodal-file-search и vision-agents для создания…
ElevenLabs: намек на Google I/O и «прогретые TPU»
ElevenLabs, известная своими технологиями синтеза речи, через своего руководителя по работе с разработчиками Торстена Шеффа сделала загадочный анонс в X, подогревая интерес к предстоящему мероприятию Google I/O…
Взгляд изнутри ElevenLabs
Сегодняшний день не принес крупных анонсов или обновлений от ElevenLabs. Вместо этого, фокус сместился на внутренние события и личные наблюдения сотрудников, что дает редкую возможность заглянуть за кулисы повседневной…
Gemma-4-31B-it-pearl: как крипто-майнинг удешевляет инференс AI
Together AI объединяет усилия с Pearl Research Labs, чтобы радикально изменить экономику инференса AI. В основе нового партнёрства лежит технология Proof of Useful Work, которая позволяет одновременно с вычислениями для…
violin: Открытый AI-перевод видео, который уважает голоса
Together AI выпустила Violin — полностью открытый инструмент для перевода видео, который разрушает языковые барьеры. Это комплексное решение объединяет распознавание речи, крупномодельный перевод и синтез речи, а также…
ElevenLabs: Детализация SIP-звонков, API для RAG-чанков и новые LLM в обновлении 13 мая
ElevenLabs выпустила набор обновлений, затрагивающих как инструментарий для работы с агентами, так и базовые API. Среди наиболее заметных изменений — появление детализированных SIP-логов для отладки, новый API для…
Voice Finder от Together AI: 600 голосов теперь можно искать по запросу
Together AI представила новый инструмент Voice Finder, который должен упростить процесс подбора подходящего голоса для приложений. Разработчики теперь смогут использовать естественный язык или аудиосэмплы для навигации…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
ElevenLabs: прибавление в семействе LLM и доработка ключевых инструментов
ElevenLabs продолжает обновлять свою платформу, интегрируя новые LLM-модели и улучшая инструменты для работы с агентами и креативным контентом. На фоне стремительного развития LLM-экосистемы, компания пополняет свой…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
ElevenLabs: Больше контроля над агентами и улучшенная транскрипция в реальном времени
В последнее время фокус многих вендоров AI-инфраструктуры смещается в сторону более детального управления поведением агентов и прозрачности их работы. ElevenLabs не исключение: набор изменений за прошедший день…
Agent skills для Replicate: учим ассистентов работать с моделями как про
Replicate представил Agent skills — набор инструкций в формате Markdown, который позволяет кодирующим ассистентам лучше понимать, как искать, сравнивать и запускать модели ИИ на платформе. Это шаг к тому, чтобы сделать…
**Разработчики предлагают несколько советов для получения наилучшего результата:**
Детально описывайте сцену. Вместо «автомобильная погоня» пишите «высокоскоростная ночная погоня по залитым дождём улиц Токио, неоновые отражения на мокром асфальте, фары прорезают туман». Описывайте не только…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
Suno v5.5: модель учится вашему голосу и стилю
Suno выпустила версию модели v5.5, сделав акцент на персонализацию и выразительность. Основные нововведения — функции, которые позволяют пользователям захватывать и использовать собственный голос в генерации музыки…
ElevenLabs делит места в рабочих пространствах на «полные» и «базовые»
ElevenLabs изменила подход к управлению доступом внутри рабочих пространств, введя два различных типа мест: Full Seats и Basic Seats. Это изменение направлено на более гибкое распределение ресурсов для команд…
Perplexity: Агенты и вложения — теперь в релизе для продакшена
Perplexity выпустила в общий доступ (GA) свои Agent API и Embeddings API. Это означает, что разработчики теперь могут использовать инструменты для создания автономных агентов и внедрения продвинутого семантического…