Новости AI-стека
Daily · свежие материалы
FLUX.2 встроили в ноутбуки ASUS — без интернета и подписки
Модель генерирует изображения прямо на устройстве за 5 секунд — без облака и без платы за каждый запрос.
Stability AI нашла способ экономить память при длинных текстах и видео
Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.
FLUX VTO: виртуальная примерка в масштабе каталога
Black Forest Labs анонсировала FLUX VTO — новую технологию виртуальной примерки одежды, предназначенную для ритейлеров, которая обеспечивает высокую скорость, точность рендеринга и гибкость стилизации для больших…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3
Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…
FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов
Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…
AssemblyAI: когда JSON самоисправляется, а голоса чётко делятся по словам
Работа с моделями в продакшене всегда подразумевает компромиссы: LLM могут «глючить» с JSON-форматом, а аудиомодели — неточно разделять голоса в потоке. На этой неделе AssemblyAI показала два обновления, которые решают…
Voice Agent API: «позвонилка» с LLM-мозгом в один WebSocket
AssemblyAI Voice Agent API — это единый конвейер для создания голосовых агентов, который умеет понимать речь, рассуждать на базе LLM и генерировать голос. Он упакован в один WebSocket и позволяет обойтись без сложной…
PII Redaction: два транскрипта в одном запросе — удобно для UI, но не без подвоха
Соблюдение конфиденциальности данных и обеспечение полноты информации часто идут рука об руку с компромиссами. Например, когда PII Redaction скрывает персональные данные в транскриптах, это хорошо для безопасности, но…
Claude Opus 4.7 на LLM Gateway AssemblyAI: доступ к интеллекту Anthropic
AssemblyAI, известный своей платформой для работы с аудио, добавил поддержку новейшей модели Claude Opus 4.7 в свой LLM Gateway. Это значит, что инженеры теперь могут использовать одну из самых интеллектуальных моделей…
AI-новости
Обратите внимание на pipe.enable_model_cpu_offload() — эта строка кода демонстрирует типичную технику для дальнейшей оптимизации использования VRAM, перемещая части модели в CPU по мере необходимости.
FLUX.2 [pro]: удвоение скорости без изменения API
Black Forest Labs представила ускорение своей флагманской модели FLUX.2 [pro] для генерации и редактирования изображений. Заявлено двукратное увеличение производительности без компромиссов в качестве и без повышения…
Stable Audio: Warner Music Group и Stability AI создадут этичный AI для музыки
Warner Music Group и Stability AI объявили о партнёрстве, цель которого — разработка нового поколения инструментов для создания музыки с использованием ответственного подхода к искусственному интеллекту. Этот союз…
Foley Control: Звук в видео без переобучения тяжелых моделей
Stability AI представила foley-control, новый метод для генерации реалистичных звуковых эффектов (фоли) на основе видео. Подход позволяет добавлять синхронизированные звуки к видео без необходимости переобучать крупные…