Новости AI-стека
Daily · свежие материалы
Runway Seedance 2.0 генерирует видео сразу в 4K — без апскейла
Шесть новых соотношений сторон для 4K — и 150 кредитов в секунду за премиальное качество.
NeMo AutoModel от Hugging Face и NVIDIA: MoE-модели обучаются в 3.7 раза быстрее — без смены кода
Библиотека сокращает расход памяти GPU на 32% — это упрощает работу с MoE-моделями.
Google открыл Computer Use для Gemini 3.5 Flash: теперь модель кликает за вас по экрану
Модель автоматизирует задачи в браузере, на телефоне и ПК — и объясняет каждый шаг.
Microsoft Talos: ИИ сам перепроверяет геномы на редкие болезни
Возвращает 90% диагнозов, выдавая всего 1.3 кандидата на вариант для экспертной проверки.
Deepgram починил ошибку 400 при распознавании аудио по URL
Баг с REMOTE_CONTENT_ERROR тихо жил несколько дней — исправлен 17 июня, объявлено 23-го.
ParallelKernelBench: лучшие LLM решают меньше трети задач на многогпу CUDA-ядра
Несколько сгенерированных ядер обогнали все публичные реализации — но воспроизводимость пока случайная.
Azure Copilot Observability Agent вышел в общий доступ — расследует инциденты вместо инженера
KPMG сообщает об экономии 250 инженерных часов в месяц — агент сам сшивает логи, метрики и трейсы и объясняет причину сбоя по-человечески.
Meta Glasses с Muse Spark: ИИ-ассистент, который понимает, что вы видите — за $299
Meta считает умные очки идеальным устройством для ИИ-ассистента на весь день, который понимает мир с вашей точки зрения.
huggingface_hub выходит каждую неделю — без закрытых API и платных платформ
Весь стек скопируем: GitHub Actions, open-weights GLM-5.2 и HF Inference Providers — ничего проприетарного.
ElevenLabs открыл единый API для голосовых агентов всем разработчикам
Один интерфейс покрывает распознавание речи, синтез, LLM и агентную логику — включая собственные модели и сторонние GPT-5, Gemini, Qwen.
Runway Aleph 2.0 в Figma Weave: правишь один кадр — меняется всё видео
Модель трогает только то, что просили; клипы до 30 секунд при 1080p, мультишотовые последовательности — без ручного ретуша покадрово.
Microsoft строит дата-центр на 2 ГВт в Техасе — один из крупнейших в истории компании
Microsoft сама финансирует генерацию энергии на площадке — чтобы не перегружать местную сеть.
PP-OCRv6 на 34,5M параметрах обогнала GPT-5.5 и Qwen3-VL-235B в распознавании текста
Специализированная OCR в тысячи раз компактнее флагманских мультимодальных моделей — и точнее на их же задаче.
Microsoft проверила симуляторы пользователей на 1 200 разговорах — и нашла неожиданный результат
Восемь метрик USR-8 показали: качество симулятора определяет промпт, а не код фреймворка.
Исследовательский агент сливает корпоративные секреты через поисковые запросы — даже когда его просят молчать
PA-DR снижает утечки с 34% до 9,9%, одновременно повышая точность ответов с 48,7% до 58,7%.
Gemini 3.5 Live Translate переводит голос в реальном времени на 70+ языков
Без очерёдности реплик и без поддержки инструментов — чистый переводчик-поток, не ассистент.
Runway добавил встроенный монтаж — резать и склеивать видео теперь прямо там
Раньше для финальной сборки приходилось уходить в сторонний редактор — теперь обрезка, переупорядочивание и экспорт внутри одной платформы.
MAI-Code-1-Flash появился в JetBrains, Xcode, Eclipse и ещё пяти средах разработки
Модель бесплатна на плане Copilot Free — но корпоративным пользователям пока недоступна.
98% PEFT-моделей используют LoRA — Hugging Face предлагает это оспорить
При правильно подобранных гиперпараметрах альтернативы дают тот же результат — а значит, монополия LoRA держится на инерции, не на качестве.
Gemini Live Translate перевёл голос футбольного комментатора — с эмоциями
VisionAgents.ai показала демо: детектор следит за мячом, Gemini комментирует и переводит, не теряя накала.
GitHub Copilot стал отдельным десктопным приложением с параллельными агентскими сессиями
Плюс авторутинг между GPT-5.4, Claude и Haiku — со скидкой 10% за автоматический выбор модели.
Deepgram открыл австралийский эндпоинт — данные не покидают страну
Один URL вместо self-hosted: те же ключи, те же цены — и аудио остаётся в Австралии.
Envato сгенерировала 51 млн изображений через FLUX — и запустила FLUX.2 в первый день релиза
FLUX.2 загружают на 16% чаще среднего по платформе — и он обгоняет конкурентов на 10% в фотореалистичных сценах.
AWS Strands Robots: один код — и симуляция, и реальный робот
LeRobot хранит демонстрации из симулятора и с железа в одном формате — агент не замечает разницы.
Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации
Управление темпом, акцентом и тоном через промпт остаётся — задержка до первого байта падает.
Google DeepMind и правительство Великобритании хотят вдвое ускорить выдачу разрешений на строительство
Прототип на Gemini берёт на себя сбор данных и черновик решения — чиновник остаётся финальным арбитром.
Veo 2.0 и 3.0 отключат 30 июня — до дедлайна две недели
Imagen 4 уходит в августе, а единственная замена для Veo — модели в статусе preview, не GA.
Microsoft Foundry сам отбирает нужные трассировки и гоняет бенчмарки на вашем агенте
Умная выборка даёт +44% словарного охвата против случайной — и это важнее, чем кажется при файнтюнинге.
Facebook запустил AI Mode — поиск теперь отвечает через посты людей, а не ссылки
За режимом стоит Muse Spark — мультимодальная модель Meta, которая вышла только в апреле 2026-го.
Meta бесплатно раздаст Ray-Ban AI-очки 130 000 слепым ветеранам США
Аналогичные устройства конкурентов стоят до $5 000 — здесь цена для ветерана равна нулю.