Новости AI-стека
Daily · свежие материалы
ANOLISA от Alibaba: первая ОС, которая работает на ИИ-агентов — сокращает токены и риски
Когда ОС создана для агентов, они тратят меньше токенов и защищены от «потери контроля».
Deepgram починил ошибку 400 при распознавании аудио по URL
Баг с REMOTE_CONTENT_ERROR тихо жил несколько дней — исправлен 17 июня, объявлено 23-го.
ElevenLabs открыл единый API для голосовых агентов всем разработчикам
Один интерфейс покрывает распознавание речи, синтез, LLM и агентную логику — включая собственные модели и сторонние GPT-5, Gemini, Qwen.
Runway Aleph 2.0 в Figma Weave: правишь один кадр — меняется всё видео
Модель трогает только то, что просили; клипы до 30 секунд при 1080p, мультишотовые последовательности — без ручного ретуша покадрово.
Gemini 3.5 Live Translate переводит голос в реальном времени на 70+ языков
Без очерёдности реплик и без поддержки инструментов — чистый переводчик-поток, не ассистент.
Runway добавил встроенный монтаж — резать и склеивать видео теперь прямо там
Раньше для финальной сборки приходилось уходить в сторонний редактор — теперь обрезка, переупорядочивание и экспорт внутри одной платформы.
Gemini Live Translate перевёл голос футбольного комментатора — с эмоциями
VisionAgents.ai показала демо: детектор следит за мячом, Gemini комментирует и переводит, не теряя накала.
Deepgram открыл австралийский эндпоинт — данные не покидают страну
Один URL вместо self-hosted: те же ключи, те же цены — и аудио остаётся в Австралии.
Qwen-Robot Suite: Alibaba научила языковые модели управлять роботами
Три модели — навигация, манипуляция, симуляция мира — обучены только на открытых данных и уже тестируются у корпоративных клиентов.
Qwen Cloud: облачную платформу читают агенты, а не люди
Один API-ключ на шесть модальностей и фиксированная подписка вместо непредсказуемого pay-as-you-go — и флагман вдвое дешевле, чем на Model Studio.
Lionsgate купила долю в Runway и будет снимать сериалы вместе с ним
Из инструмента для пре-продакшна — в со-продюсера: студия и AI-компания запускают совместный slate с новым IP.
Deepgram Batch Diarization V2 — в 3,3 раза чаще побеждает старую версию в слепом тесте
Новый параметр diarize_model даёт явный контроль над версией — старые интеграции не ломаются, цена не меняется.
ElevenLabs открыл API для разработчиков по всему миру — Grab уже тестирует
Географических ограничений больше нет — и первый публичный кейс пришёл из Юго-Восточной Азии.
Один API-запрос — и агент ElevenLabs сам снял видео
Агент исследует тему, пишет HTML/CSS и рендерит MP4 через HyperFrames — без ручного монтажа.
Qwen3.7-Plus видит экран, управляет GUI и пишет код — в одном агентном цикле
Входные токены — $0.40 за миллион, контекст — 1 млн токенов; работает из Claude Code, Cursor и Cline без дополнительной настройки.
Veo 3.1 на Runway перестал генерировать видео
Движок принадлежит Google — Runway только ждёт, пока там починят.
ElevenLabs показала, как создать приложение голосом
Вы голосом описываете, что хотите, — а система сама собирает готовое приложение под ваш запрос.
Stability AI нашла способ экономить память при длинных текстах и видео
Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.
Runway расследует повышенный уровень ошибок в Seedance и Seedream
Сбой бьёт по платным пользователям безлимитного плана, где эти модели — основной инструмент.
Qwen App открылся для сторонних агентов: KFC, Luckin Coffee и Mixue первыми в очереди
100 млн ежедневных взаимодействий и долгосрочная память агентов — что это значит для брендов-интеграторов.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Aleph 2.0 вышел в Runway API: редактирование видео по тексту и ключевым кадрам
Runway открыл API-доступ к Aleph 2.0 — своей flagship-модели video-to-video, которая умеет менять только то, что просят, не трогая остальное. Теперь это можно встроить в продукт.
Runway вложит $100 млн в лондонский хаб по world models
$100 млн за 18 месяцев и удвоение суммы к 2028 году — Runway объявляет Лондон европейской штаб-квартирой и исследовательским центром по general world models. Это первая крупная географическая ставка компании за…
Quick BI против галлюцинирующих агентов: почему данные важнее модели
На конференции Qwen в Сингапуре 26 мая 2026 года Lingyang показала Quick BI с одного конкретного факта: три разных корпоративных агента дают три разных определения «выручки», и никто в компании не решается принять…
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
happyhorse: генерация видео с контролем длительности и формата
HappyHorse 1.0, разработанная Alibaba, стала доступна через API-партнера fal, предлагая расширенный контроль над длительностью и форматом видео.
Nova-3 Medical: точность в медицине растет, но что с остальным?
Deepgram обновила свою специализированную модель Nova-3 Medical, значительно повысив точность распознавания медицинских терминов и сохранив качество для общего языка.
Qwen-VLA: От осмысления к активному вмешательству в реальный мир
Alibaba представила Qwen-VLA — мультимодальную модель, способную не только понимать визуальные данные, но и действовать в физическом мире.
Seedance 2.0 теперь доступен через API Runway
Модель Seedance 2.0, разработанная сторонней командой, теперь доступна через API Runway, предлагая расширенные функции для генерации видео из различных типов данных.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.