Новости AI-стека
Daily · свежие материалы
Gemini 2.0 Flash отключён — что ставить вместо него
1 июня 2026 г. Google отключила четыре модели Gemini 2.0 Flash в Gemini API — любой вызов к этим эндпоинтам теперь падает, и нужна явная миграция. Примечательно здесь не само отключение, а то, куда ведут замены: не в…
Luma открывает Physical AI Lab: ставка на открытую науку против монополии в робототехнике
Luma объявила об Open Physical AI Lab — исследовательской инициативе с открытым доступом, нацеленной на проблему обобщения в физическом ИИ. Компания считает её главным барьером между нынешними роботами и системами…
happyhorse: генерация видео с контролем длительности и формата
HappyHorse 1.0, разработанная Alibaba, стала доступна через API-партнера fal, предлагая расширенный контроль над длительностью и форматом видео.
Cog: потоки событий для предсказаний и новые предупреждения
Предварительный релиз Cog v0.21.0-rc.1 вводит Server-Sent Events для realtime-обновлений предсказаний, а также объявляет cog weights экспериментальным.
Nova-3 Medical: точность в медицине растет, но что с остальным?
Deepgram обновила свою специализированную модель Nova-3 Medical, значительно повысив точность распознавания медицинских терминов и сохранив качество для общего языка.
Seedance 2.0 теперь доступен через API Runway
Модель Seedance 2.0, разработанная сторонней командой, теперь доступна через API Runway, предлагая расширенные функции для генерации видео из различных типов данных.
Снижение производительности flux-2-klein-4b
Наблюдалось снижение производительности модели flux-2-klein-4b, проблема была решена, и время ожидания вернулось к норме.
FLUX VTO: виртуальная примерка в масштабе каталога
Black Forest Labs анонсировала FLUX VTO — новую технологию виртуальной примерки одежды, предназначенную для ритейлеров, которая обеспечивает высокую скорость, точность рендеринга и гибкость стилизации для больших…
Deepgram Self-Hosted: майский релиз с фильтром ненормативной лексики и улучшенным корейским
Майский релиз Deepgram Self-Hosted 2026 года привносит расширенную фильтрацию ненормативной лексики и повышенную точность для корейского языка, а также важные изменения для будущих архитектурных обновлений движка.
Gemini Image Models: видео в картинку, но не для всех
Google представила обновленную линейку моделей Nano Banana для генерации и редактирования изображений, а также расширила функции понимания видеоконтента, открывая мультимодальные возможности для разработчиков.
Gemini 3.5 Flash в Deepgram: быстрее, эффективнее, но пора мигрировать
Deepgram интегрировал модель Gemini 3.5 Flash в Voice Agent API, требуя от пользователей Gemini 2.5 Flash мигрировать до октября из-за предстоящего прекращения поддержки.
Runway Seedance: инцидент с генерациями быстро устранен
На платформе Runway 27 мая 2026 года произошел кратковременный инцидент с генерациями Seedance, который был устранен за 33 минуты.
Vertex AI Extensions уходят: Google переводит фокус на Agent Platform
Google консолидирует все ИИ-сервисы Vertex AI в унифицированной Gemini Enterprise Agent Platform, фокусируясь на комплексной разработке и управлении корпоративными агентами.
Project Luxo: AI-видео перестает быть демонстрацией технологий и начинает рассказывать истории
Runway ML утверждает, что модель Aleph 2.0 позволила AI-генерированному видео преодолеть "зловещую долину" и фокусироваться на эмоциональном повествовании.
Runway: Сбои в генерации GPT Image 2 устранены, но Veo 3.1 пока нестабилен
Платформа Runway оперативно решила проблемы с генерацией изображений GPT Image 2, однако сбои в работе Veo 3.1 также были зафиксированы и устранены.
Google DeepMind Accelerator: AI против климатических рисков в АТР
Google DeepMind запускает Google DeepMind Accelerator — трехмесячную программу, сфокусированную на инициативе «AI for the Planet». Этот акселератор ориентирован на поддержку инноваторов в Азиатско-Тихоокеанском регионе…
Gemini 3.1 Flash Lite: Deepgram обновляет Voice Agent API — пора мигрировать
Deepgram объявил о доступности Gemini 3.1 Flash Lite в своём Voice Agent API, который теперь полностью управляем Google. Это означает, что предварительная версия модели устаревает, и всем пользователям предстоит…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3
Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…
Business AI в WhatsApp: Meta дает ИИ-помощников для малого бизнеса — но пока только в Индии
Meta запустила в Индии функцию Business AI для WhatsApp Business App, предлагая малому бизнесу автоматизированные ответы на запросы клиентов и управление продажами прямо в приложении. Это решение, доступное на всех…
Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках
Deepgram представил обновление, которое меняет подход к цензурированию речи в транскрипциях: теперь функция фильтрации ненормативной лексики доступна для 50+ языков, охватывая широкий спектр мировых языков, а не только…
FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов
Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…
Runway Agent: видео целиком за один диалог
Runway представила Runway Agent, креативного ИИ-партнера, который призван упростить процесс создания готового к публикации видеоконтента. От первоначальной идеи до финального ролика с несколькими сценами, озвучкой и…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Gemini Interactions API ломается второй раз за полгода — и снова срочно
Google анонсировал ломающее изменение в Gemini Interactions API: схема outputs→steps и response_format меняются, новая дефолтная 26 мая, старую удаляют 8 июня. И это не первый раз — API ломали ещё в декабре. Рядом …
uni-1-1-api: Luma AI запускает управляемый интеллект для продакшена
Luma AI представила uni-1-1-api, REST-интерфейс к своей модели унифицированного интеллекта, который обещает изменить подходы к генерации и редактированию изображений, выводя эти процессы на новый уровень управляемости и…
Gemini 3 Pro Image: когда промпт — это полотно, а референсов полдюжины
Runway выпустил новую модель для генерации изображений — Gemini 3 Pro Image. Она же Nano Banana Pro, или gemini_image3_pro в API. Модель заточена под детализированные текстовые запросы и множество референсных…
Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности
Deepgram выкатил flux-multilingual — свою модель разговорного распознавания речи в общедоступную версию. Это шаг к унификации: теперь одна модель поддерживает 10 языков, автоматически обнаруживает и переключает языки…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
Gemini-embedding-2: модель внедрения в GA, что это значит для масштабирования LLM
Модель внедрения gemini-embedding-2 достигла статуса общей доступности (GA), что делает её готовой для продакшен-нагрузок и интеграции в полноценные приложения. Это событие совпало с презентацией Google DeepMind новой…