Новости AI-стека
Daily · свежие материалы
Gemini 3.1 Flash TTS отдаёт аудио потоком, не дожидаясь конца генерации
Управление темпом, акцентом и тоном через промпт остаётся — задержка до первого байта падает.
Qwen-Robot Suite: Alibaba научила языковые модели управлять роботами
Три модели — навигация, манипуляция, симуляция мира — обучены только на открытых данных и уже тестируются у корпоративных клиентов.
Google DeepMind и правительство Великобритании хотят вдвое ускорить выдачу разрешений на строительство
Прототип на Gemini берёт на себя сбор данных и черновик решения — чиновник остаётся финальным арбитром.
Veo 2.0 и 3.0 отключат 30 июня — до дедлайна две недели
Imagen 4 уходит в августе, а единственная замена для Veo — модели в статусе preview, не GA.
Facebook запустил AI Mode — поиск теперь отвечает через посты людей, а не ссылки
За режимом стоит Muse Spark — мультимодальная модель Meta, которая вышла только в апреле 2026-го.
Qwen Cloud: облачную платформу читают агенты, а не люди
Один API-ключ на шесть модальностей и фиксированная подписка вместо непредсказуемого pay-as-you-go — и флагман вдвое дешевле, чем на Model Studio.
Meta бесплатно раздаст Ray-Ban AI-очки 130 000 слепым ветеранам США
Аналогичные устройства конкурентов стоят до $5 000 — здесь цена для ветерана равна нулю.
DiffusionGemma 26B: 1000 токенов в секунду на H100 без авторегрессии
18 ГБ VRAM и Apache 2.0 — но качество ниже Gemma 4, и на Apple Silicon ускорения нет.
Meta арендует у Reliance дата-центр на 168 МВт — первый ИИ-объект компании в Индии
Плюс почти 1 ГВт новых контрактов на возобновляемую энергию — инфраструктурный и энергетический вопрос закрыты разом.
ElevenLabs открыл API для разработчиков по всему миру — Grab уже тестирует
Географических ограничений больше нет — и первый публичный кейс пришёл из Юго-Восточной Азии.
Gemma 4 12B работает без энкодеров — и умещается на обычном ноутбуке
Первая модель среднего размера от Google с нативным аудиовходом: 16 ГБ VRAM, Apache 2.0 — и бенчмарки близко к 26B MoE.
Один API-запрос — и агент ElevenLabs сам снял видео
Агент исследует тему, пишет HTML/CSS и рендерит MP4 через HyperFrames — без ручного монтажа.
Meta вложила $115 млн в обучение электриков и сварщиков — с гарантией трудоустройства
Программа покрывает все расходы участников: учёбу, перелёт, жильё и суточные — без студенческих долгов.
Qwen3.7-Plus видит экран, управляет GUI и пишет код — в одном агентном цикле
Входные токены — $0.40 за миллион, контекст — 1 млн токенов; работает из Claude Code, Cursor и Cline без дополнительной настройки.
ElevenLabs показала, как создать приложение голосом
Вы голосом описываете, что хотите, — а система сама собирает готовое приложение под ваш запрос.
Stability AI нашла способ экономить память при длинных текстах и видео
Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.
Meta Business Agent: AI-агент для бизнеса уже на WhatsApp и Instagram
Старт бесплатный, но в ближайшие месяцы — платная подписка; более 1 млн бизнесов уже используют раннюю версию.
Qwen App открылся для сторонних агентов: KFC, Luckin Coffee и Mixue первыми в очереди
100 млн ежедневных взаимодействий и долгосрочная память агентов — что это значит для брендов-интеграторов.
Reachy Mini заговорил без облака: Parakeet + Gemma 4 E4B + Qwen3TTS на борту
Как три open-source модели складываются в полный голосовой цикл на $300 роботе.
Gemini 2.0 Flash отключён — что ставить вместо него
1 июня 2026 г. Google отключила четыре модели Gemini 2.0 Flash в Gemini API — любой вызов к этим эндпоинтам теперь падает, и нужна явная миграция. Примечательно здесь не само отключение, а то, куда ведут замены: не в…
Quick BI против галлюцинирующих агентов: почему данные важнее модели
На конференции Qwen в Сингапуре 26 мая 2026 года Lingyang показала Quick BI с одного конкретного факта: три разных корпоративных агента дают три разных определения «выручки», и никто в компании не решается принять…
@thorwebdev (Thorsten Schaeff, руководитель отдела по работе с разработчиками): Удивительно, насколько хорошо Gemini Omni справляется с отражениями 🤯
Торстен Шефф, руководитель отдела по работе с разработчиками ElevenLabs, отметил в своем посте X впечатляющую способность Gemini Omni обрабатывать отражения.
Qwen-VLA: От осмысления к активному вмешательству в реальный мир
Alibaba представила Qwen-VLA — мультимодальную модель, способную не только понимать визуальные данные, но и действовать в физическом мире.
Глава отдела по работе с разработчиками ElevenLabs Торстен Шефф разрабатывает ИИ-помощника для формирования составов команд на лодках-аутригерах, используя Gemini 3.5 Flash.
Торстен Шефф разрабатывает прототип решения для формирования команд на аутригерах прямо во время полета, демонстрируя потенциал быстрой разработки с агентивными ИИ-инструментами.
Gemini Image Models: видео в картинку, но не для всех
Google представила обновленную линейку моделей Nano Banana для генерации и редактирования изображений, а также расширила функции понимания видеоконтента, открывая мультимодальные возможности для разработчиков.
qwen-cloud: облако, где агенты говорят на одном языке
Alibaba Cloud представила Qwen Cloud 26 мая в Сингапуре, создав AI-нативную платформу для работы с агентами и мультимодальными моделями.
Gemini 3.5 Flash: помощник для каноэ — за один перелет
Разработчик Google Торстен Шафф приступил к созданию ИИ-помощника для гребли на каноэ с помощью Gemini 3.5 Flash и Antigravity прямо на борту самолета.
Alibaba Cloud: комплексная экосистема для агентного ИИ и глобального масштаба
На первой международной конференции Qwen в Сингапуре Alibaba Cloud представила новые модели, инфраструктуру и инструменты для построения и управления ИИ-агентами.
Vertex AI Extensions уходят: Google переводит фокус на Agent Platform
Google консолидирует все ИИ-сервисы Vertex AI в унифицированной Gemini Enterprise Agent Platform, фокусируясь на комплексной разработке и управлении корпоративными агентами.
qwen3: гибридные рассуждения и сотни миллионов загрузок
Alibaba представила Qwen3 — новое поколение своих открытых больших языковых моделей, вводя гибридные режимы рассуждений и расширяя возможности агентов и многоязычной поддержки.