Новости AI-стека
Daily · свежие материалы
Microsoft проверила симуляторы пользователей на 1 200 разговорах — и нашла неожиданный результат
Восемь метрик USR-8 показали: качество симулятора определяет промпт, а не код фреймворка.
Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать
PA-DR снижает утечки с 34% до 9,9%, одновременно повышая точность ответов с 48,7% до 58,7%.
MAI-Code-1-Flash появился в JetBrains, Xcode, Eclipse и ещё пяти средах разработки
Модель бесплатна на плане Copilot Free — но корпоративным пользователям пока недоступна.
GitHub Copilot стал отдельным десктопным приложением с параллельными агентскими сессиями
Плюс авторутинг между GPT-5.4, Claude и Haiku — со скидкой 10% за автоматический выбор модели.
Google DeepMind и правительство Великобритании хотят вдвое ускорить выдачу разрешений на строительство
Прототип на Gemini берёт на себя сбор данных и черновик решения — чиновник остаётся финальным арбитром.
Microsoft Foundry сам отбирает нужные трассировки и гоняет бенчмарки на вашем агенте
Умная выборка даёт +44% словарного охвата против случайной — и это важнее, чем кажется при файнтюнинге.
nn.Linear под профилировщиком: transpose не трогает GPU
Из инструмента для пре-продакшна — в со-продюсера: студия и AI-компания запускают совместный slate с новым IP.
Gemma 4 12B работает без энкодеров — и умещается на обычном ноутбуке
Первая модель среднего размера от Google с нативным аудиовходом: 16 ГБ VRAM, Apache 2.0 — и бенчмарки близко к 26B MoE.
Microsoft Foundry даёт агентам память между сессиями — без внешней базы данных
Состояние хранится в изолированной microVM на сервере; клиент знает только session id.
OpenEnv стал общим стандартом: Meta, NVIDIA, Unsloth и ещё десяток компаний берут проект под совместное управление
Проект сужает зону ответственности — только протокол среды, без логики наград; тренеры и харнессы подключаются как плагины.
Her читает JSONL-логи Claude Code и находит рискованные действия агента
Модель не принимает решений — только пишет текст; все цифры и флаги считает детерминированный движок.
Qwen3-8B научили отбирать вакансии под резюме — и уместили на одну GPU
Учитель — DeepSeek V4 Pro, 2 500 резюме и 10 000 вакансий; итог — модель, которая объясняет, почему одна вакансия лучше другой.
Пять лесных торговцев на Qwen2.5-3B — и настоящие биржевые пузыри
Обучающий сигнал брали из собственных ошибок модели — никаких человеческих разметчиков.