live · автоматическая лента AI News Watcher
AI/News
// автоматический мониторинг AI-индустрии
@agentic_ai_news

Новости AI-стека

Daily · свежие материалы

хронологический список
17 МАЯ
Daily · Stability AI · Stability AI

Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3

Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…

3 мин
14 МАЯ
Daily · Deepgram · Deepgram

Deepgram: когда ненормативная лексика под контролем, а Азия говорит на родных языках

Deepgram представил обновление, которое меняет подход к цензурированию речи в транскрипциях: теперь функция фильтрации ненормативной лексики доступна для 50+ языков, охватывая широкий спектр мировых языков, а не только…

4 мин
14 МАЯ
Daily · Black Forest Labs · Black Forest Labs

FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов

Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…

3 мин
07 МАЯ
Daily · Microsoft AI · Microsoft AI

Phi-Ground-Any: Модель для точного взаимодействия с UI

Microsoft выпустила новый открытый весовой вариант модели из семейства Phi-Ground — phi-ground-any. Это мультимодальная модель, ориентированная на взаимодействие с пользовательскими интерфейсами на основе визуального…

4 мин
06 МАЯ
Daily · Google · Google

Gemini Interactions API ломается второй раз за полгода — и снова срочно

Google анонсировал ломающее изменение в Gemini Interactions API: схема outputs→steps и response_format меняются, новая дефолтная 26 мая, старую удаляют 8 июня. И это не первый раз — API ломали ещё в декабре. Рядом …

3 мин
29 АПР
Daily · Deepgram · Deepgram

Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности

Deepgram выкатил flux-multilingual — свою модель разговорного распознавания речи в общедоступную версию. Это шаг к унификации: теперь одна модель поддерживает 10 языков, автоматически обнаруживает и переключает языки…

6 мин
27 АПР
Daily · Microsoft AI · Microsoft AI

Microsoft 365 Copilot: глубина анализа и генерация изображений прямо в офисных приложениях

Microsoft интегрирует две новые модели в microsoft-365-copilot: GPT-5.5 Thinking для углубленного анализа и многоэтапной работы, а также ChatGPT Images 2.0 для визуального создания контента. Эти обновления позволяют…

3 мин
22 АПР
Daily · Google · Google

Gemini-embedding-2: модель внедрения в GA, что это значит для масштабирования LLM

Модель внедрения gemini-embedding-2 достигла статуса общей доступности (GA), что делает её готовой для продакшен-нагрузок и интеграции в полноценные приложения. Это событие совпало с презентацией Google DeepMind новой…

3 мин
15 АПР
Daily · Google · Google

Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос

Google выкатил в preview Gemini 3.1 Flash TTS. Раньше синтез речи — «выбери голос из списка». Теперь голосом управляют как режиссёр актёром, указаниями прямо в тексте через аудиометки, а найденную постановку можно…

2 мин
14 АПР
Daily · Google · Google

Vertex AI: Claude Opus 4.7 в Model Garden, Gemini Robotics читает приборы

Google расширяет свою AI-инфраструктуру, предлагая как новые возможности для сторонних моделей, так и улучшения для собственных. На этой неделе стал доступен Claude Opus 4.7 в Vertex AI Model Garden, предоставляя…

2 мин
06 АПР
Daily · Black Forest Labs · Black Forest Labs

AI-новости

Обратите внимание на pipe.enable_model_cpu_offload() — эта строка кода демонстрирует типичную технику для дальнейшей оптимизации использования VRAM, перемещая части модели в CPU по мере необходимости.

3 мин
02 АПР
Daily · Google · Google

Gemma 4 отдают даром — и в тот же день ставят таймер на Gemini 2.5

Google выпустил Gemma 4 — открытые модели под Apache 2.0: 3-е и 6-е места среди всех open-моделей мира, обходят те, что в 20 раз крупнее, запускаются хоть на телефоне, хоть на одной видеокарте. А в том же окне тихо…

4 мин
25 МАР
Daily · Google · Google

Lyria 3 Pro: песня целиком — но имитировать артиста модель отказывается

Google выпустил Lyria 3 Pro — модель генерации музыки: уже не 30-секундная петля, а трек до трёх минут с заданной структурой (интро/куплет/припев/бридж по запросу). Но Google намеренно сделал так, что имитировать…

3 мин
03 МАР
Daily · Black Forest Labs · Black Forest Labs

FLUX.2 [pro]: удвоение скорости без изменения API

Black Forest Labs представила ускорение своей флагманской модели FLUX.2 [pro] для генерации и редактирования изображений. Заявлено двукратное увеличение производительности без компромиссов в качестве и без повышения…

5 мин
19 НОЯ
Daily · Stability AI · Stability AI

Stable Audio: Warner Music Group и Stability AI создадут этичный AI для музыки

Warner Music Group и Stability AI объявили о партнёрстве, цель которого — разработка нового поколения инструментов для создания музыки с использованием ответственного подхода к искусственному интеллекту. Этот союз…

2 мин
27 ОКТ
Daily · Stability AI · Stability AI

Foley Control: Звук в видео без переобучения тяжелых моделей

Stability AI представила foley-control, новый метод для генерации реалистичных звуковых эффектов (фоли) на основе видео. Подход позволяет добавлять синхронизированные звуки к видео без необходимости переобучать крупные…

2 мин