Новости AI-стека
Daily · свежие материалы
Transformers v5.10.1 закрыл баг, который тихо ломал квантование BitsAndBytes
В том же релизе — четыре новые архитектуры: кодовый MoE от JetBrains и специализированный OCR от DeepSeek.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Cog v0.21.0-rc.2 закрывает тихий баг: `cog serve` наконец монтирует веса как `cog run`
В релиз-кандидате Cog v0.21.0-rc.2 исправлена ошибка, из-за которой cog serve не монтировал managed-веса в контейнер, хотя cog run делал это корректно — модели с весами падали при setup без очевидной причины.
Holo3.1: computer-use агент теперь работает локально и на мобильных
Hugging Face выпустила Holo3.1 — первую версию своего computer-use семейства с квантованными весами и поддержкой мобильных сред. Главный сдвиг здесь не в бенчмарках, а в том, что агента теперь можно запустить на железе…
Mellum2: JetBrains делает ставку на «фокальную» MoE-модель для AI-стеков
JetBrains открыла Mellum2 — 12B MoE с активацией 2.5B параметров на токен — как специализированный блок для высокочастотных задач в агентных пайплайнах, где латентность важнее универсальности.
Gemini 2.0 Flash отключён — что ставить вместо него
1 июня 2026 г. Google отключила четыре модели Gemini 2.0 Flash в Gemini API — любой вызов к этим эндпоинтам теперь падает, и нужна явная миграция. Примечательно здесь не само отключение, а то, куда ведут замены: не в…
Выпущен smolagents v1.26.0
В новой версии библиотеки smolagents v1.26.0 добавлены улучшения для веб-поиска через Exa и усилена безопасность за счет удаления удаленного WasmExecutor.
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
Cog: потоки событий для предсказаний и новые предупреждения
Предварительный релиз Cog v0.21.0-rc.1 вводит Server-Sent Events для realtime-обновлений предсказаний, а также объявляет cog weights экспериментальным.
Nova-3 Medical: точность в медицине растет, но что с остальным?
Deepgram обновила свою специализированную модель Nova-3 Medical, значительно повысив точность распознавания медицинских терминов и сохранив качество для общего языка.
Снижение производительности flux-2-klein-4b
Наблюдалось снижение производительности модели flux-2-klein-4b, проблема была решена, и время ожидания вернулось к норме.
Выпущена версия v1.17.0 Hugging Face Hub с кросс-репозиторным копированием, SSH в Spaces и улучшенными таблицами CLI
Версия 1.17.0 клиента Hugging Face Hub управления файлами, отладки в Spaces и навигации по моделям.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.
Deepgram Self-Hosted: майский релиз с фильтром ненормативной лексики и улучшенным корейским
Майский релиз Deepgram Self-Hosted 2026 года привносит расширенную фильтрацию ненормативной лексики и повышенную точность для корейского языка, а также важные изменения для будущих архитектурных обновлений движка.
Gemini Image Models: видео в картинку, но не для всех
Google представила обновленную линейку моделей Nano Banana для генерации и редактирования изображений, а также расширила функции понимания видеоконтента, открывая мультимодальные возможности для разработчиков.
Gemini 3.5 Flash: помощник для каноэ — за один перелет
Разработчик Google Торстен Шафф приступил к созданию ИИ-помощника для гребли на каноэ с помощью Gemini 3.5 Flash и Antigravity прямо на борту самолета.
Gemini 3.5 Flash в Deepgram: быстрее, эффективнее, но пора мигрировать
Deepgram интегрировал модель Gemini 3.5 Flash в Voice Agent API, требуя от пользователей Gemini 2.5 Flash мигрировать до октября из-за предстоящего прекращения поддержки.
Hugging Face: Синхронизация дельта-весов в TRL сокращает передачу данных с терабайта до мегабайт
Hugging Face представила новую функцию в библиотеке TRL, значительно уменьшающую объем данных для синхронизации весов в асинхронном обучении с подкреплением.
Vertex AI Extensions уходят: Google переводит фокус на Agent Platform
Google консолидирует все ИИ-сервисы Vertex AI в унифицированной Gemini Enterprise Agent Platform, фокусируясь на комплексной разработке и управлении корпоративными агентами.
Hugging Face Hub: Важный Hotfix устраняет проблемы с typer
Изменения в библиотеке Typer версии 0.26.0 привели к критическим сбоям в работе командной строки Hugging Face Hub, что потребовало незамедлительного выпуска исправления v1.16.3.
Hugging Face: наводим порядок в терминологии AI-агентов
Hugging Face предлагает стандартизированный глоссарий для устранения путаницы в ключевых понятиях AI-агентов, обеспечивая общее понимание в быстроразвивающейся области.
Специализированные модели: 3B-решения опережают флагманы по всем фронтам
Последние три года в AI-стратегии компаний доминировала простая логика: чем крупнее фронтир-модель, тем безопаснее. Считалось, что возможности масштабируются с числом параметров, а лидеры бенчмарков неизменно предлагают…
ElevenLabs на Google I/O: «разговор» с базой знаний и агенты в облаке
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, активно участвовал в конференции Google I/O. Он продемонстрировал возможности интеграции multimodal-file-search и vision-agents для создания…
Google DeepMind Accelerator: AI против климатических рисков в АТР
Google DeepMind запускает Google DeepMind Accelerator — трехмесячную программу, сфокусированную на инициативе «AI for the Planet». Этот акселератор ориентирован на поддержку инноваторов в Азиатско-Тихоокеанском регионе…
Transformers 5.9.0: новые модели и меняющийся интерфейс эмбеддингов
HuggingFace выпустил библиотеку Transformers v5.9.0, добавив три новые модели и внеся важные изменения в обработку текстовых эмбеддингов для ряда моделей компьютерного зрения. Это обновление включает как новые…
ElevenLabs: намек на Google I/O и «прогретые TPU»
ElevenLabs, известная своими технологиями синтеза речи, через своего руководителя по работе с разработчиками Торстена Шеффа сделала загадочный анонс в X, подогревая интерес к предстоящему мероприятию Google I/O…
Gemini 3.1 Flash Lite: Deepgram обновляет Voice Agent API — пора мигрировать
Deepgram объявил о доступности Gemini 3.1 Flash Lite в своём Voice Agent API, который теперь полностью управляем Google. Это означает, что предварительная версия модели устаревает, и всем пользователям предстоит…
Ettin Reranker: как пересортировать поиск без лишних затрат
Hugging Face представил семейство моделей Ettin Reranker. Это не просто очередной набор инструментов для ранжирования; они спроектированы, чтобы точно переупорядочивать результаты поиска, при этом удерживая контроль над…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Взгляд изнутри ElevenLabs
Сегодняшний день не принес крупных анонсов или обновлений от ElevenLabs. Вместо этого, фокус сместился на внутренние события и личные наблюдения сотрудников, что дает редкую возможность заглянуть за кулисы повседневной…