Новости AI-стека
Daily · свежие материалы
Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать
PA-DR снижает утечки с 34% до 9,9%, одновременно повышая точность ответов с 48,7% до 58,7%.
Семь способов управлять Claude Code — и когда каждый из них ломается
CLAUDE.md — не свалка: где хранить правила, процедуры и жёсткие запреты, чтобы они реально работали.
GPT-5.5 Instant догнал думающие модели в медицинских вопросах — и это бесплатно
Параллельно o3 Deep Research помог найти диагнозы в 376 нерешённых случаях — исследование вышло в NEJM AI совместно с Harvard и Boston Children's Hospital.
Claude Opus 4.7 запрограммировал робопса в 20 раз быстрее человека
Anthropic фиксирует паттерн: сначала модель помогает людям, потом люди помогают модели, потом модель справляется сама — теперь это работает с физическим железом.
MAI-Code-1-Flash появился в JetBrains, Xcode, Eclipse и ещё пяти средах разработки
Модель бесплатна на плане Copilot Free — но корпоративным пользователям пока недоступна.
Claude Code: семь способов передать инструкцию — и у каждого свои правила выживания в контексте
CLAUDE.md, правила, навыки, субагенты, хуки, стили вывода и флаг append-system-prompt ведут себя по-разному при сжатии — и молча выпавшее правило не предупредит вас об этом.
Grok 4.3 появился на Amazon Bedrock и Databricks — $1.25 за миллион токенов
xAI заявляет о наименьшем уровне галлюцинаций среди топовых моделей — при цене вдвое-втрое ниже конкурентов.
OpenAI o3 нашёл диагнозы в 18 случаях, которые врачи не могли решить годами
Модель не ставила диагнозы сама — она строила гипотезы, которые потом проверяли клиницисты в лаборатории.
98% PEFT-моделей используют LoRA — Hugging Face предлагает это оспорить
При правильно подобранных гиперпараметрах альтернативы дают тот же результат — а значит, монополия LoRA держится на инерции, не на качестве.
GPT-5.4 самостоятельно улучшил реакцию в химии лекарств — и проверил это в лаборатории
OpenAI и Molecule.one опубликовали препринт: модель не просто предложила идею, а довела её до экспериментального результата.
Grok 4.3 появился на Amazon Bedrock — теперь на всех крупных облаках
$1.25 за миллион входных токенов и настраиваемая глубина рассуждений — через стандартный Bedrock API.
ChatGPT теперь сам следит за интернетом по расписанию — и присылает только важное
Появилась отдельная страница управления задачами, но запуск — не чаще раза в час, а при бездействии задача уходит на паузу автоматически.
GitHub Copilot стал отдельным десктопным приложением с параллельными агентскими сессиями
Плюс авторутинг между GPT-5.4, Claude и Haiku — со скидкой 10% за автоматический выбор модели.
Anthropic открыл офис в Сеуле — Claude Code уже у тысяч инженеров NAVER и Samsung
IT-подразделения Samsung, LG и Hanwha развернули Claude внутри — охват может каскадом пройти по всей группе каждого чеболя.
AWS Strands Robots: один код — и симуляция, и реальный робот
LeRobot хранит демонстрации из симулятора и с железа в одном формате — агент не замечает разницы.
Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации
Управление темпом, акцентом и тоном через промпт остаётся — задержка до первого байта падает.
Бухгалтер с Claude Code успевает не хуже программиста — данные 400 тысяч сессий
За семь месяцев ценность типичной задачи выросла на 27%, а доля сессий с отладкой упала вдвое.
Google DeepMind и правительство Великобритании хотят вдвое ускорить выдачу разрешений на строительство
Прототип на Gemini берёт на себя сбор данных и черновик решения — чиновник остаётся финальным арбитром.
OpenAI научилась проверять безопасность модели до релиза — на реальных разговорах
Метод поймал «calculator hacking» в GPT-5.1 до выхода и предсказывает частоту нарушений с медианной ошибкой 1.5×.
Grok теперь работает внутри PowerPoint, Word и Excel
Аддин бесплатно ставится из маркетплейса Microsoft — но полный доступ только на платных планах SuperGrok и выше.
Veo 2.0 и 3.0 отключат 30 июня — до дедлайна две недели
Imagen 4 уходит в августе, а единственная замена для Veo — модели в статусе preview, не GA.
Claude Sonnet 4 и Opus 4 выключены — запросы возвращают ошибку
Замены — Sonnet 4.6 и Opus 4.8; исследователи могут запросить отдельный доступ через специальную программу.
Grok Build теперь запускает несколько агентов-кодировщиков параллельно — из одного экрана
Дашборд сам поднимает наверх сессии, которые ждут ответа, — остальные работают без участия человека.
Microsoft Foundry сам отбирает нужные трассировки и гоняет бенчмарки на вашем агенте
Умная выборка даёт +44% словарного охвата против случайной — и это важнее, чем кажется при файнтюнинге.
OpenAI вложила $150 млн в партнёрскую сеть для корпоративного внедрения
Accenture, McKinsey, BCG, PwC и десятки других — плюс цель в 300 000 сертифицированных консультантов к концу 2026 года.
Документация OpenAI теперь сама пишет гайды под ваш проект и отдаёт их в Codex
Агент на developers.openai.com понимает контекст задачи — генерирует кастомное руководство, а не просто ищет по тексту.
США принудительно отключили Fable 5 и Mythos 5 — Anthropic не согласна
Компания выполнила директиву, но заявила: тот же трюк работает на GPT-5.5, и по такому стандарту придётся остановить весь рынок.
AI-компаниям доверяют меньше, чем правительству — опрос 52 000 американцев
Семь из десяти американцев хотят госрегулирования AI — и это мнение не делится по партиям.
Hugging Face добавил сервисные аккаунты для корпоративных CI/CD-пайплайнов
Не занимают платные места и не влияют на квоты — просто отдельная машинная идентичность.
GPT-5.5 в Codex упал в прод — и тем самым подтвердил своё существование
Параллельно лежала половина API OpenAI — от Batch до Sora.