Новости AI-стека
Daily · свежие материалы
Kimi K2.7 Code вышел на OpenRouter — 1T параметров, 30% меньше токенов на размышление
На агентных задачах модель обгоняет Claude Opus 4.8 по одному из ключевых бенчмарков — при цене вчетверо дешевле выхода.
Hugging Face добавил сервисные аккаунты для корпоративных CI/CD-пайплайнов
Не занимают платные места и не влияют на квоты — просто отдельная машинная идентичность.
nn.Linear под профилировщиком: transpose не трогает GPU
Hugging Face разобрал путь от одного слоя до MLP — с трассами и конкретными скриптами на A100.
Цифра «80% работников под угрозой ИИ» устарела — Cohere Labs объясняет почему
Один показатель из 2023 года правит дискуссией в парламентах — хотя три его ограничения накапливаются, а не просто суммируются.
Deepgram Batch Diarization V2 — в 3,3 раза чаще побеждает старую версию в слепом тесте
Новый параметр diarize_model даёт явный контроль над версией — старые интеграции не ломаются, цена не меняется.
OpenRouter Advisor: дешёвая модель советуется с умной только когда застряла
Разрыв в цене — 67x; в типичной сессии из 50 вызовов к дорогой модели обращаются 2–3 раза.
DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии
18 ГБ VRAM и Apache 2.0 — но качество ниже Gemma 4, и на Apple Silicon ускорения нет.
Cohere выпустила North Mini Code — первую открытую модель для кода под Apache 2.0
Маленькая, бесплатная и работает локально — намеренный разворот от корпоративного закрытого AI.
Claude Fable 5 — самая мощная модель Anthropic теперь доступна всем, но с цензурным предохранителем
$10 за млн входящих токенов, контекст 1 млн токенов — и автоматический откат на Opus 4.8 при «опасных» запросах.
Ray3.2 от Luma: покадровое управление видео и первый полноценный API
До 16 кейфреймов в одном клипе и 16-bit EXR на выходе — впервые всё это доступно через API; 5 секунд в 1080p стоят $1.20.
Gemma 4 12B работает без энкодеров — и умещается на обычном ноутбуке
Первая модель среднего размера от Google с нативным аудиовходом: 16 ГБ VRAM, Apache 2.0 — и бенчмарки близко к 26B MoE.
Hugging Face Spaces стали API-блоками для агентов — 3D-галерея Парижа без единой строки интеграции
Файл agents.md отдаёт схему, эндпоинты и инструкцию по загрузке файлов одним curl — агент читает и сразу вызывает Space.
North-Mini-Code-1.0 от Cohere запускается на локальном железе — без облака
30B параметров суммарно, но в работе — только 3B; Apache 2.0, контекст 256K.
Cohere открыла Tiny Aya и Transcribe — модели до 3.3B, работающие без облака
Transcribe в 3× быстрее аналогов по пропускной способности и занял первое место на Open ASR Leaderboard по английскому.
Nex-N2-Pro на OpenRouter: бесплатный агентный ИИ с 256k контекстом обходит Claude Opus на Terminal-Bench
Модель полностью открыта (Apache-2.0) и построена поверх Qwen3.5 — можно развернуть самостоятельно или сразу звать через API.
OpenEnv стал общим стандартом: Meta, NVIDIA, Unsloth и ещё десяток компаний берут проект под совместное управление
Проект сужает зону ответственности — только протокол среды, без логики наград; тренеры и харнессы подключаются как плагины.
Her читает JSONL-логи Claude Code и находит рискованные действия агента
Модель не принимает решений — только пишет текст; все цифры и флаги считает детерминированный движок.
Qwen3-8B научили отбирать вакансии под резюме — и уместили на одну GPU
Учитель — DeepSeek V4 Pro, 2 500 резюме и 10 000 вакансий; итог — модель, которая объясняет, почему одна вакансия лучше другой.
Пять лесных торговцев на Qwen2.5-3B — и настоящие биржевые пузыри
100% валидный JSON, но агент покупал то, что сам производил — пока промпт не починили.
DPO убрал петли повторений в OCR-моделях — минус 59% дегенерации там, где SFT упёрся в потолок
Обучающий сигнал брали из собственных ошибок модели — никаких человеческих разметчиков.
Cohere Labs открыла бесплатный инструмент для построения графиков
Co/plot позволяет быстро менять и уточнять графики без перезапуска скриптов и ручной перерисовки данных.
Luma Ray3.14 заменил захват движений на живом выступлении в Париже
Модель в 4 раза быстрее и в 3 раза дешевле предшественника — теперь в руках независимых авторов.
Transformers v5.10.1 закрыл баг, который тихо ломал квантование BitsAndBytes
В том же релизе — четыре новые архитектуры: кодовый MoE от JetBrains и специализированный OCR от DeepSeek.
На OpenRouter появились голос, транскрипция и генерация изображений от Microsoft
Три модели MAI — через тот же API, что и текстовые LLM; платформа выходит за пределы чата.
Cohere Labs запускает бенчмарк культурных загадок и ищет экспертов со всего мира
Параллельно — дискуссия о том, нужен ли агентам «язык чувств» для координации.
Как Together AI запустила 1M-контекст MiniMax M3 в продакшне без деградации throughput
Together AI раскрыла инженерные решения, позволившие обслуживать MiniMax M3 (1M токенов, нативная мультимодальность, MSA-архитектура) с приростом throughput 81–125% на разных уровнях конкурентности. Это первый публичный…
Holo3.1: computer-use агент теперь работает локально и на мобильных
Hugging Face выпустила Holo3.1 — первую версию своего computer-use семейства с квантованными весами и поддержкой мобильных сред. Главный сдвиг здесь не в бенчмарках, а в том, что агента теперь можно запустить на железе…
OpenRouter: 100 триллионов токенов, $113M и пять новых enterprise-функций за май
OpenRouter закрыл Series B на $113M и достиг 100 трлн токенов в месяц — на этом фоне майский релиз показывает, куда идут деньги: в enterprise-контроль, мультимодельный ансамбль и голосовые API поверх единого ключа…
Mellum2: JetBrains делает ставку на «фокальную» MoE-модель для AI-стеков
JetBrains открыла Mellum2 — 12B MoE с активацией 2.5B параметров на токен — как специализированный блок для высокочастотных задач в агентных пайплайнах, где латентность важнее универсальности.
Gemini 2.0 Flash отключён — что ставить вместо него
1 июня 2026 г. Google отключила четыре модели Gemini 2.0 Flash в Gemini API — любой вызов к этим эндпоинтам теперь падает, и нужна явная миграция. Примечательно здесь не само отключение, а то, куда ведут замены: не в…