Новости AI-стека
Daily · свежие материалы
Vertex AI Extensions уходят: Google переводит фокус на Agent Platform
Google консолидирует все ИИ-сервисы Vertex AI в унифицированной Gemini Enterprise Agent Platform, фокусируясь на комплексной разработке и управлении корпоративными агентами.
Hugging Face Hub: Важный Hotfix устраняет проблемы с typer
Изменения в библиотеке Typer версии 0.26.0 привели к критическим сбоям в работе командной строки Hugging Face Hub, что потребовало незамедлительного выпуска исправления v1.16.3.
Grok Build: агент для кода прямо в терминале
xAI представила раннюю бета-версию Grok Build — мощного агента для кодирования в командной строке, доступного подписчикам SuperGrok и X Premium Plus.
Hugging Face: наводим порядок в терминологии AI-агентов
Hugging Face предлагает стандартизированный глоссарий для устранения путаницы в ключевых понятиях AI-агентов, обеспечивая общее понимание в быстроразвивающейся области.
Специализированные модели: 3B-решения опережают флагманы по всем фронтам
Последние три года в AI-стратегии компаний доминировала простая логика: чем крупнее фронтир-модель, тем безопаснее. Считалось, что возможности масштабируются с числом параметров, а лидеры бенчмарков неизменно предлагают…
Grok: не только в браузере — теперь через OpenClaw
xAI запустила интеграцию Grok с OpenClaw, позволяя пользователям с подписками SuperGrok или X Premium запускать модели Grok внутри этого open-source локального агента. Этот шаг переносит возможности Grok из облака на…
Google DeepMind Accelerator: AI против климатических рисков в АТР
Google DeepMind запускает Google DeepMind Accelerator — трехмесячную программу, сфокусированную на инициативе «AI for the Planet». Этот акселератор ориентирован на поддержку инноваторов в Азиатско-Тихоокеанском регионе…
Transformers 5.9.0: новые модели и меняющийся интерфейс эмбеддингов
HuggingFace выпустил библиотеку Transformers v5.9.0, добавив три новые модели и внеся важные изменения в обработку текстовых эмбеддингов для ряда моделей компьютерного зрения. Это обновление включает как новые…
Ettin Reranker: как пересортировать поиск без лишних затрат
Hugging Face представил семейство моделей Ettin Reranker. Это не просто очередной набор инструментов для ранжирования; они спроектированы, чтобы точно переупорядочивать результаты поиска, при этом удерживая контроль над…
FLUX Outpainting: ИИ-расширение изображений в один API-вызов, без промтов
Black Forest Labs представила новую возможность для своей линейки FLUX Tools — FLUX Outpainting. Инструмент позволяет расширять любое изображение за его исходные границы, автоматически сохраняя при этом целостность…
StereoCrafter2: Tencent ARC Lab обновила модель для иммерсивного видео
Tencent ARC Lab выпустила обновление своей модели StereoCrafter, получившее название StereoCrafter2. Новая версия нацелена на решение ключевой проблемы в производстве иммерсивного видео: достижение высокой точности и…
Hy-MT2: многоязычный перевод для сложных сценариев — с оптимизацией для устройств
Tencent Hunyuan выпустила семейство многоязычных моделей перевода Hy-MT2, разработанных для сложных реальных сценариев. Модели доступны в размерах 1.8B, 7B и 30B-A3B (MoE), поддерживают 33 языка и демонстрируют…
Perplexity Agent API: Finance Search теперь выдаёт структурированные финданные
Perplexity интегрировала инструмент Finance Search прямо в свой Agent API. Это значит, что теперь агенты могут напрямую запрашивать и получать структурированные финансовые и рыночные данные по публичным компаниям и…
Gemini Interactions API ломается второй раз за полгода — и снова срочно
Google анонсировал ломающее изменение в Gemini Interactions API: схема outputs→steps и response_format меняются, новая дефолтная 26 мая, старую удаляют 8 июня. И это не первый раз — API ломали ещё в декабре. Рядом …
Pixal3D-D от Tencent: 3D-модель представлена без документации
Tencent ARC Lab представила Pixal3D-D — новую модель для 3D-генерации, которая появилась на Hugging Face. Однако, несмотря на релиз, публичной документации или детального описания, как это часто бывает, пока нет.
Diffusers 0.38.0: Больше изображений, больше звука — и новые «мозги» для генерации
HuggingFace Diffusers, библиотека для работы с диффузионными моделями, получила масштабное обновление 0.38.0. В новой версии появились конвейеры для генерации изображений и аудио, среди которых заметны тяжеловесы с…
Perplexity API: новые модели, безопасные ключи и список доступных через /v1/models
Perplexity обновила свой API, сосредоточившись на расширении возможностей Agent API, улучшении безопасности ключей и упрощении обнаружения доступных моделей. Теперь разработчики могут интегрировать новейшие модели…
**Формат координат и ответа:**
Точка: (x, y) или [(x1, y1), (x2, y2)] Коробка: [xmin, ymin, xmax, ymax] Координаты нормализованы до целочисленного диапазона (0, 1000). В режиме thinking mode ответы структурированы как…
Grok Voice Think Fast 1.0: Не просто слушает, но и думает без пауз
xAI представила свою новую флагманскую голосовую модель Grok Voice Think Fast 1.0, разработанную для сложных и многоэтапных диалогов. Эта модель позиционируется как ключевой инструмент для автоматизации клиентской…
Gemini-embedding-2: модель внедрения в GA, что это значит для масштабирования LLM
Модель внедрения gemini-embedding-2 достигла статуса общей доступности (GA), что делает её готовой для продакшен-нагрузок и интеграции в полноценные приложения. Это событие совпало с презентацией Google DeepMind новой…
Agent skills для Replicate: учим ассистентов работать с моделями как про
Replicate представил Agent skills — набор инструкций в формате Markdown, который позволяет кодирующим ассистентам лучше понимать, как искать, сравнивать и запускать модели ИИ на платформе. Это шаг к тому, чтобы сделать…
**Разработчики предлагают несколько советов для получения наилучшего результата:**
Детально описывайте сцену. Вместо «автомобильная погоня» пишите «высокоскоростная ночная погоня по залитым дождём улиц Токио, неоновые отражения на мокром асфальте, фары прорезают туман». Описывайте не только…
Gemini 3.1 Flash TTS: озвучку теперь режиссируют, а не выбирают голос
Google выкатил в preview Gemini 3.1 Flash TTS. Раньше синтез речи — «выбери голос из списка». Теперь голосом управляют как режиссёр актёром, указаниями прямо в тексте через аудиометки, а найденную постановку можно…
Vertex AI: Claude Opus 4.7 в Model Garden, Gemini Robotics читает приборы
Google расширяет свою AI-инфраструктуру, предлагая как новые возможности для сторонних моделей, так и улучшения для собственных. На этой неделе стал доступен Claude Opus 4.7 в Vertex AI Model Garden, предоставляя…
Agent API Perplexity: новые модели и прощание со старыми Gemini
Perplexity обновила свой Agent API, добавив поддержку сторонних моделей, таких как GPT-5.4, NVIDIA Nemotron и Claude Sonnet 4.6, одновременно прекратив поддержку нескольких версий Gemini. Это изменение перестраивает…
AI-новости
Обратите внимание на pipe.enable_model_cpu_offload() — эта строка кода демонстрирует типичную технику для дальнейшей оптимизации использования VRAM, перемещая части модели в CPU по мере необходимости.
Gemma 4 отдают даром — и в тот же день ставят таймер на Gemini 2.5
Google выпустил Gemma 4 — открытые модели под Apache 2.0: 3-е и 6-е места среди всех open-моделей мира, обходят те, что в 20 раз крупнее, запускаются хоть на телефоне, хоть на одной видеокарте. А в том же окне тихо…
Lyria 3 Pro: песня целиком — но имитировать артиста модель отказывается
Google выпустил Lyria 3 Pro — модель генерации музыки: уже не 30-секундная петля, а трек до трёх минут с заданной структурой (интро/куплет/припев/бридж по запросу). Но Google намеренно сделал так, что имитировать…
Perplexity: Агенты и вложения — теперь в релизе для продакшена
Perplexity выпустила в общий доступ (GA) свои Agent API и Embeddings API. Это означает, что разработчики теперь могут использовать инструменты для создания автономных агентов и внедрения продвинутого семантического…
FLUX.2 [pro]: удвоение скорости без изменения API
Black Forest Labs представила ускорение своей флагманской модели FLUX.2 [pro] для генерации и редактирования изображений. Заявлено двукратное увеличение производительности без компромиссов в качестве и без повышения…