Новости AI-стека
Daily · свежие материалы
Sculpt4D от Tencent ARC генерирует 4D-объекты из видео — на 56% дешевле полного внимания
Модель надстроена над Hunyuan3D 2.1 и уже открыта на Hugging Face — но время инференса и лицензия не раскрыты.
FLUX.2 встроили в ноутбуки ASUS — без интернета и подписки
Модель генерирует изображения прямо на устройстве за 5 секунд — без облака и без платы за каждый запрос.
Stability AI нашла способ экономить память при длинных текстах и видео
Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.
Replicate устранил очереди и задержки на кластерах L40S и H200
Конкуренция за модели замедляла запуски — теперь система работает штатно.
Cog v0.21.0-rc.2 закрывает тихий баг: `cog serve` наконец монтирует веса как `cog run`
В релиз-кандидате Cog v0.21.0-rc.2 исправлена ошибка, из-за которой cog serve не монтировал managed-веса в контейнер, хотя cog run делал это корректно — модели с весами падали при setup без очевидной причины.
Recraft V4.1 Utility Pro стал самым высокорейтинговым моделью text-to-image за пределами Google и OpenAI
Recraft V4.1 Utility Pro заняла третье место в глобальном рейтинге Artificial Analysis Image Arena, став самой высокорейтинговой моделью text-to-image от независимой лаборатории.
Cog: потоки событий для предсказаний и новые предупреждения
Предварительный релиз Cog v0.21.0-rc.1 вводит Server-Sent Events для realtime-обновлений предсказаний, а также объявляет cog weights экспериментальным.
Снижение производительности flux-2-klein-4b
Наблюдалось снижение производительности модели flux-2-klein-4b, проблема была решена, и время ожидания вернулось к норме.
FLUX VTO: виртуальная примерка в масштабе каталога
Black Forest Labs анонсировала FLUX VTO — новую технологию виртуальной примерки одежды, предназначенную для ритейлеров, которая обеспечивает высокую скорость, точность рендеринга и гибкость стилизации для больших…
DeepSeek-V4-Pro: дисконт, ставший бессрочным
DeepSeek объявила, что скидка на использование модели DeepSeek-V4-Pro теперь действует постоянно. Это не временная акция, а фундаментальное изменение в ценовой политике, позволяющее разработчикам с большей уверенностью…
Stable Audio 3: открытая модель для музыки и звуков с инпейнтингом
Stability AI выпустила Stable Audio 3 — новую открытую модель для генерации и редактирования аудио. Эта модель представляет собой семейство быстрых латентных диффузионных моделей, способных создавать аудио переменной…
Stability AI: Как новый автоэнкодер SAME ускоряет генерацию аудио в Stable Audio 3
Stability AI представила SAME (Semantically-Aligned Music Autoencoder) — открытый автоэнкодер, который призван изменить подходы к работе с музыкальными и общими аудиоданными. Его основная задача — эффективное сжатие…
Fal: Безопасность на скорости мысли — подход к доверию в AI
Fal, как поставщик инфраструктуры для искусственного интеллекта, активно выстраивает свою стратегию доверия и безопасности. Шон Бонавиц, руководитель этого направления в компании, делится философией и конкретными шагами…
FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов
Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…
Recraft V4.1: Фотореализм стал естественнее, промты — короче
Recraft представил V4.1 — обновление своей модели, которое меняет подход к генерации изображений. Теперь фотореализм выглядит более живым и естественным, а для достижения желаемой эстетики требуются заметно более…
StereoCrafter2: Tencent ARC Lab обновила модель для иммерсивного видео
Tencent ARC Lab выпустила обновление своей модели StereoCrafter, получившее название StereoCrafter2. Новая версия нацелена на решение ключевой проблемы в производстве иммерсивного видео: достижение высокой точности и…
Hy-MT2: многоязычный перевод для сложных сценариев — с оптимизацией для устройств
Tencent Hunyuan выпустила семейство многоязычных моделей перевода Hy-MT2, разработанных для сложных реальных сценариев. Модели доступны в размерах 1.8B, 7B и 30B-A3B (MoE), поддерживают 33 языка и демонстрируют…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Pixal3D-D от Tencent: 3D-модель представлена без документации
Tencent ARC Lab представила Pixal3D-D — новую модель для 3D-генерации, которая появилась на Hugging Face. Однако, несмотря на релиз, публичной документации или детального описания, как это часто бывает, пока нет.
Fal: централизованная аналитика для Serverless-приложений
Fal представил новую панель мониторинга для Serverless-приложений, которая агрегирует метрики производительности, трафика и активности. Это позволяет инженерам, работающим с Fal, получить единую картину состояния своих…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
DeepSeek: V4-модели с контекстом 1M токенов и деприкация старых API
DeepSeek обновил свой API, представив новое поколение моделей с увеличенным контекстом и объявив о скором прекращении поддержки старых версий. Разработчикам, использующим DeepSeek, предстоит запланировать миграцию.
**Формат координат и ответа:**
Точка: (x, y) или [(x1, y1), (x2, y2)] Коробка: [xmin, ymin, xmax, ymax] Координаты нормализованы до целочисленного диапазона (0, 1000). В режиме thinking mode ответы структурированы как…
DeepSeek-V4: Контекст в 1M токенов и гибридная архитектура внимания
DeepSeek AI представила новую серию моделей DeepSeek-V4, включая DeepSeek-V4-Pro и DeepSeek-V4-Flash. Главная особенность обеих версий — поддержка контекстного окна в один миллион токенов, что переводит их в лигу…
Agent skills для Replicate: учим ассистентов работать с моделями как про
Replicate представил Agent skills — набор инструкций в формате Markdown, который позволяет кодирующим ассистентам лучше понимать, как искать, сравнивать и запускать модели ИИ на платформе. Это шаг к тому, чтобы сделать…
**Разработчики предлагают несколько советов для получения наилучшего результата:**
Детально описывайте сцену. Вместо «автомобильная погоня» пишите «высокоскоростная ночная погоня по залитым дождём улиц Токио, неоновые отражения на мокром асфальте, фары прорезают туман». Описывайте не только…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
PATINA: Fal генерирует PBR-карты из изображений для CGI, минуя «запеченные» проблемы
AI-модели показывают впечатляющие результаты в генерации изображений, имитирующих различные материалы — от камня до металла. Однако эти изображения зачастую непригодны для традиционных 3D-рабочих процессов из-за…
AI-новости
Обратите внимание на pipe.enable_model_cpu_offload() — эта строка кода демонстрирует типичную технику для дальнейшей оптимизации использования VRAM, перемещая части модели в CPU по мере необходимости.
Recraft V4: как перестать «переинжиниривать» промпты и начать исследовать
Обычно работа с генеративными моделями изображений начинается с кропотливого подбора промпта: больше слов, больше уточнений, надежда на идеальный результат. Но креативный процесс редко так работает; обычно это…