Новости AI-стека
Daily · свежие материалы
Voice Agent API: «позвонилка» с LLM-мозгом в один WebSocket
AssemblyAI Voice Agent API — это единый конвейер для создания голосовых агентов, который умеет понимать речь, рассуждать на базе LLM и генерировать голос. Он упакован в один WebSocket и позволяет обойтись без сложной…
Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности
Deepgram выкатил flux-multilingual — свою модель разговорного распознавания речи в общедоступную версию. Это шаг к унификации: теперь одна модель поддерживает 10 языков, автоматически обнаруживает и переключает языки…
Microsoft 365 Copilot: глубина анализа и генерация изображений прямо в офисных приложениях
Microsoft интегрирует две новые модели в microsoft-365-copilot: GPT-5.5 Thinking для углубленного анализа и многоэтапной работы, а также ChatGPT Images 2.0 для визуального создания контента. Эти обновления позволяют…
PII Redaction: два транскрипта в одном запросе — удобно для UI, но не без подвоха
Соблюдение конфиденциальности данных и обеспечение полноты информации часто идут рука об руку с компромиссами. Например, когда PII Redaction скрывает персональные данные в транскриптах, это хорошо для безопасности, но…
Agent skills для Replicate: учим ассистентов работать с моделями как про
Replicate представил Agent skills — набор инструкций в формате Markdown, который позволяет кодирующим ассистентам лучше понимать, как искать, сравнивать и запускать модели ИИ на платформе. Это шаг к тому, чтобы сделать…
Claude Opus 4.7 на LLM Gateway AssemblyAI: доступ к интеллекту Anthropic
AssemblyAI, известный своей платформой для работы с аудио, добавил поддержку новейшей модели Claude Opus 4.7 в свой LLM Gateway. Это значит, что инженеры теперь могут использовать одну из самых интеллектуальных моделей…
**Разработчики предлагают несколько советов для получения наилучшего результата:**
Детально описывайте сцену. Вместо «автомобильная погоня» пишите «высокоскоростная ночная погоня по залитым дождём улиц Токио, неоновые отражения на мокром асфальте, фары прорезают туман». Описывайте не только…
Nano Banana Pro: обходит лимиты Google с резервной моделью
Генерация изображений с помощью nano-banana-pro теперь стала надежнее. Replicate представил механизм резервирования, который позволяет продолжить работу, даже если основной API Google достигнет своих лимитов. Это…
Stable Audio: Warner Music Group и Stability AI создадут этичный AI для музыки
Warner Music Group и Stability AI объявили о партнёрстве, цель которого — разработка нового поколения инструментов для создания музыки с использованием ответственного подхода к искусственному интеллекту. Этот союз…
Foley Control: Звук в видео без переобучения тяжелых моделей
Stability AI представила foley-control, новый метод для генерации реалистичных звуковых эффектов (фоли) на основе видео. Подход позволяет добавлять синхронизированные звуки к видео без необходимости переобучать крупные…