Новости AI-стека
Daily · свежие материалы
Voice Finder от Together AI: 600 голосов теперь можно искать по запросу
Together AI представила новый инструмент Voice Finder, который должен упростить процесс подбора подходящего голоса для приложений. Разработчики теперь смогут использовать естественный язык или аудиосэмплы для навигации…
Phi-Ground-Any: Модель для точного взаимодействия с UI
Microsoft выпустила новый открытый весовой вариант модели из семейства Phi-Ground — phi-ground-any. Это мультимодальная модель, ориентированная на взаимодействие с пользовательскими интерфейсами на основе визуального…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации
HuggingFace Diffusers, библиотека для работы с диффузионными моделями, получила масштабное обновление 0.38.0. В новой версии появились конвейеры для генерации изображений и аудио, среди которых заметны тяжеловесы с…
Flux Multilingual: единая модель для глобальных голосовых агентов — без компромиссов в скорости и точности
Deepgram выкатил flux-multilingual — свою модель разговорного распознавания речи в общедоступную версию. Это шаг к унификации: теперь одна модель поддерживает 10 языков, автоматически обнаруживает и переключает языки…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
Microsoft 365 Copilot: глубина анализа и генерация изображений прямо в офисных приложениях
Microsoft интегрирует две новые модели в microsoft-365-copilot: GPT-5.5 Thinking для углубленного анализа и многоэтапной работы, а также ChatGPT Images 2.0 для визуального создания контента. Эти обновления позволяют…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
Muse Spark: Meta AI ставит на мультимодальность и параллельное мышление для «персонального сверхинтеллекта»
Meta AI представила muse-spark, первую модель нового семейства Muse, разработанного Meta Superintelligence Labs. Ключевая особенность — нативная мультимодальность и режим contemplating-mode, который позволяет модели…
AI-новости
Обратите внимание на pipe.enable_model_cpu_offload() — эта строка кода демонстрирует типичную технику для дальнейшей оптимизации использования VRAM, перемещая части модели в CPU по мере необходимости.
SAM 3.1: Видео, 3D, и открытый мир — Meta AI ускоряет восприятие
Meta AI представила sam-3-1, обновленную модель Segment Anything Model, которая меняет подход к обработке видео. Главное нововведение — мультиплексирование объектов, позволяющее отслеживать до 16 целей за один проход и…
Perplexity: Агенты и вложения — теперь в релизе для продакшена
Perplexity выпустила в общий доступ (GA) свои Agent API и Embeddings API. Это означает, что разработчики теперь могут использовать инструменты для создания автономных агентов и внедрения продвинутого семантического…
FLUX.2 [pro]: удвоение скорости без изменения API
Black Forest Labs представила ускорение своей флагманской модели FLUX.2 [pro] для генерации и редактирования изображений. Заявлено двукратное увеличение производительности без компромиссов в качестве и без повышения…