Новости AI-стека
Daily · свежие материалы
Cog v0.21.0-rc.2 закрывает тихий баг: `cog serve` наконец монтирует веса как `cog run`
В релиз-кандидате Cog v0.21.0-rc.2 исправлена ошибка, из-за которой cog serve не монтировал managed-веса в контейнер, хотя cog run делал это корректно — модели с весами падали при setup без очевидной причины.
Holo3.1: computer-use агент теперь работает локально и на мобильных
Hugging Face выпустила Holo3.1 — первую версию своего computer-use семейства с квантованными весами и поддержкой мобильных сред. Главный сдвиг здесь не в бенчмарках, а в том, что агента теперь можно запустить на железе…
Mellum2: JetBrains делает ставку на «фокальную» MoE-модель для AI-стеков
JetBrains открыла Mellum2 — 12B MoE с активацией 2.5B параметров на токен — как специализированный блок для высокочастотных задач в агентных пайплайнах, где латентность важнее универсальности.
Composer 2.5 внутри Grok Build: файн-тюн Kimi K2.5 с 25× больше синтетики
xAI выпустила Composer 2.5 — агентную кодинговую модель на базе open-source чекпоинта Moonshot Kimi K2.5, обученную на синтетических задачах в 25 раз интенсивнее предшественника. Интересно тут не сам релиз, а…
Выпущен smolagents v1.26.0
В новой версии библиотеки smolagents v1.26.0 добавлены улучшения для веб-поиска через Exa и усилена безопасность за счет удаления удаленного WasmExecutor.
Together AI: как построить рекордно быстрый Speech-to-Text стек
Together AI представила детальное техническое описание оптимизации всего стека преобразования речи в текст, включая GPU, CPU, память и сетевые протоколы, установив новый мировой рекорд скорости.
Cog: потоки событий для предсказаний и новые предупреждения
Предварительный релиз Cog v0.21.0-rc.1 вводит Server-Sent Events для realtime-обновлений предсказаний, а также объявляет cog weights экспериментальным.
Nova-3 Medical: точность в медицине растет, но что с остальным?
Deepgram обновила свою специализированную модель Nova-3 Medical, значительно повысив точность распознавания медицинских терминов и сохранив качество для общего языка.
Снижение производительности flux-2-klein-4b
Наблюдалось снижение производительности модели flux-2-klein-4b, проблема была решена, и время ожидания вернулось к норме.
Выпущена версия v1.17.0 Hugging Face Hub с кросс-репозиторным копированием, SSH в Spaces и улучшенными таблицами CLI
Версия 1.17.0 клиента Hugging Face Hub управления файлами, отладки в Spaces и навигации по моделям.
Deepgram Self-Hosted: майский релиз с фильтром ненормативной лексики и улучшенным корейским
Майский релиз Deepgram Self-Hosted 2026 года привносит расширенную фильтрацию ненормативной лексики и повышенную точность для корейского языка, а также важные изменения для будущих архитектурных обновлений движка.
Gemini 3.5 Flash в Deepgram: быстрее, эффективнее, но пора мигрировать
Deepgram интегрировал модель Gemini 3.5 Flash в Voice Agent API, требуя от пользователей Gemini 2.5 Flash мигрировать до октября из-за предстоящего прекращения поддержки.
Hugging Face: Синхронизация дельта-весов в TRL сокращает передачу данных с терабайта до мегабайт
Hugging Face представила новую функцию в библиотеке TRL, значительно уменьшающую объем данных для синхронизации весов в асинхронном обучении с подкреплением.
Grok в Kilo Code: подписка вместо API-ключа для агентного кодинга
xAI представила прямую подписочную интеграцию моделей Grok, включая Grok Build, в платформу Kilo Code для пользователей X Premium+ и SuperGrok, устраняя необходимость в API-ключах.
Hugging Face Hub: Важный Hotfix устраняет проблемы с typer
Изменения в библиотеке Typer версии 0.26.0 привели к критическим сбоям в работе командной строки Hugging Face Hub, что потребовало незамедлительного выпуска исправления v1.16.3.
Grok Build: агент для кода прямо в терминале
xAI представила раннюю бета-версию Grok Build — мощного агента для кодирования в командной строке, доступного подписчикам SuperGrok и X Premium Plus.
Hugging Face: наводим порядок в терминологии AI-агентов
Hugging Face предлагает стандартизированный глоссарий для устранения путаницы в ключевых понятиях AI-агентов, обеспечивая общее понимание в быстроразвивающейся области.
Специализированные модели: 3B-решения опережают флагманы по всем фронтам
Последние три года в AI-стратегии компаний доминировала простая логика: чем крупнее фронтир-модель, тем безопаснее. Считалось, что возможности масштабируются с числом параметров, а лидеры бенчмарков неизменно предлагают…
Grok: не только в браузере — теперь через OpenClaw
xAI запустила интеграцию Grok с OpenClaw, позволяя пользователям с подписками SuperGrok или X Premium запускать модели Grok внутри этого open-source локального агента. Этот шаг переносит возможности Grok из облака на…
Transformers 5.9.0: новые модели и меняющийся интерфейс эмбеддингов
HuggingFace выпустил библиотеку Transformers v5.9.0, добавив три новые модели и внеся важные изменения в обработку текстовых эмбеддингов для ряда моделей компьютерного зрения. Это обновление включает как новые…
Gemini 3.1 Flash Lite: Deepgram обновляет Voice Agent API — пора мигрировать
Deepgram объявил о доступности Gemini 3.1 Flash Lite в своём Voice Agent API, который теперь полностью управляем Google. Это означает, что предварительная версия модели устаревает, и всем пользователям предстоит…
Ettin Reranker: как пересортировать поиск без лишних затрат
Hugging Face представил семейство моделей Ettin Reranker. Это не просто очередной набор инструментов для ранжирования; они спроектированы, чтобы точно переупорядочивать результаты поиска, при этом удерживая контроль над…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3
Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…
Gemma-4-31B-it-pearl: как крипто-майнинг удешевляет инференс AI
Together AI объединяет усилия с Pearl Research Labs, чтобы радикально изменить экономику инференса AI. В основе нового партнёрства лежит технология Proof of Useful Work, которая позволяет одновременно с вычислениями для…
violin: Открытый AI-перевод видео, который уважает голоса
Together AI выпустила Violin — полностью открытый инструмент для перевода видео, который разрушает языковые барьеры. Это комплексное решение объединяет распознавание речи, крупномодельный перевод и синтез речи, а также…
Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках
Deepgram представил обновление, которое меняет подход к цензурированию речи в транскрипциях: теперь функция фильтрации ненормативной лексики доступна для 50+ языков, охватывая широкий спектр мировых языков, а не только…
Voice Finder от Together AI: 600 голосов теперь можно искать по запросу
Together AI представила новый инструмент Voice Finder, который должен упростить процесс подбора подходящего голоса для приложений. Разработчики теперь смогут использовать естественный язык или аудиосэмплы для навигации…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации
HuggingFace Diffusers, библиотека для работы с диффузионными моделями, получила масштабное обновление 0.38.0. В новой версии появились конвейеры для генерации изображений и аудио, среди которых заметны тяжеловесы с…