Новости AI-стека
Daily · свежие материалы
Transformers 5.9.0: новые модели и меняющийся интерфейс эмбеддингов
HuggingFace выпустил библиотеку Transformers v5.9.0, добавив три новые модели и внеся важные изменения в обработку текстовых эмбеддингов для ряда моделей компьютерного зрения. Это обновление включает как новые…
Gemini 3.1 Flash Lite: Deepgram обновляет Voice Agent API — пора мигрировать
Deepgram объявил о доступности Gemini 3.1 Flash Lite в своём Voice Agent API, который теперь полностью управляем Google. Это означает, что предварительная версия модели устаревает, и всем пользователям предстоит…
Ettin Reranker: как пересортировать поиск без лишних затрат
Hugging Face представил семейство моделей Ettin Reranker. Это не просто очередной набор инструментов для ранжирования; они спроектированы, чтобы точно переупорядочивать результаты поиска, при этом удерживая контроль над…
Business AI в WhatsApp: Meta дает ИИ-помощников для малого бизнеса — но пока только в Индии
Meta запустила в Индии функцию Business AI для WhatsApp Business App, предлагая малому бизнесу автоматизированные ответы на запросы клиентов и управление продажами прямо в приложении. Это решение, доступное на всех…
Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках
Deepgram представил обновление, которое меняет подход к цензурированию речи в транскрипциях: теперь функция фильтрации ненормативной лексики доступна для 50+ языков, охватывая широкий спектр мировых языков, а не только…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации
HuggingFace Diffusers, библиотека для работы с диффузионными моделями, получила масштабное обновление 0.38.0. В новой версии появились конвейеры для генерации изображений и аудио, среди которых заметны тяжеловесы с…
Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности
Deepgram выкатил flux-multilingual — свою модель разговорного распознавания речи в общедоступную версию. Это шаг к унификации: теперь одна модель поддерживает 10 языков, автоматически обнаруживает и переключает языки…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
Agent skills для Replicate: учим ассистентов работать с моделями как про
Replicate представил Agent skills — набор инструкций в формате Markdown, который позволяет кодирующим ассистентам лучше понимать, как искать, сравнивать и запускать модели ИИ на платформе. Это шаг к тому, чтобы сделать…
**Разработчики предлагают несколько советов для получения наилучшего результата:**
Детально описывайте сцену. Вместо «автомобильная погоня» пишите «высокоскоростная ночная погоня по залитым дождём улиц Токио, неоновые отражения на мокром асфальте, фары прорезают туман». Описывайте не только…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
Muse Spark: Meta AI ставит на мультимодальность и параллельное мышление для «персонального сверхинтеллекта»
Meta AI представила muse-spark, первую модель нового семейства Muse, разработанного Meta Superintelligence Labs. Ключевая особенность — нативная мультимодальность и режим contemplating-mode, который позволяет модели…
SAM 3.1: Видео, 3D, и открытый мир — Meta AI ускоряет восприятие
Meta AI представила sam-3-1, обновленную модель Segment Anything Model, которая меняет подход к обработке видео. Главное нововведение — мультиплексирование объектов, позволяющее отслеживать до 16 целей за один проход и…
Suno v5.5: модель учится вашему голосу и стилю
Suno выпустила версию модели v5.5, сделав акцент на персонализацию и выразительность. Основные нововведения — функции, которые позволяют пользователям захватывать и использовать собственный голос в генерации музыки…
Perplexity: Агенты и вложения — теперь в релизе для продакшена
Perplexity выпустила в общий доступ (GA) свои Agent API и Embeddings API. Это означает, что разработчики теперь могут использовать инструменты для создания автономных агентов и внедрения продвинутого семантического…
Nano Banana Pro: обходит лимиты Google с резервной моделью
Генерация изображений с помощью nano-banana-pro теперь стала надежнее. Replicate представил механизм резервирования, который позволяет продолжить работу, даже если основной API Google достигнет своих лимитов. Это…
Suno Studio: больше контроля над музыкой без выхода из редактора
В мире, где AI-инструменты для создания музыки множатся, главная ставка — на контроль над результатом. Suno Studio, генеративная аудио рабочая станция, доступная подписчикам Suno Premier, сделала шаг именно в этом…
Suno и Warner Music Group: лицензирование музыки ради «интерактивного будущего»
Сервис генерации музыки Suno объявил о заключении партнерства с Warner Music Group (WMG). Этот шаг означает, что Suno получит доступ к лицензированной музыке для обучения своих моделей, что, по заявлению компании…