Hugging Face выпустила Holo3.1 — первую версию своего computer-use семейства с квантованными весами и поддержкой мобильных сред. Главный сдвиг здесь не в бенчмарках, а в том, что агента теперь можно запустить на железе пользователя без облачной зависимости.
Квантованные веса появились в Holo впервые. Для флагманского чекпоинта 35B-A3B выходят три формата:
- FP8 — стандартный квантованный формат для современных GPU.
- Q4 GGUF — для запуска через llama.cpp и совместимые рантаймы на потребительском железе.
- NVFP4 (W4A16) — через NVIDIA Model Optimizer, ориентирован на устройства с поддержкой FP4-инференса.
Это первый релиз семейства, где локальный деплой без облака — штатный сценарий, а не эксперимент.
На мобильных средах модель прибавила заметно: 35B-A3B на AndroidWorld вырос с 67% до 79.3%, варианты 4B и 9B — с 58% до 72%. Параллельно добавлен нативный function-calling в дополнение к уже существующему JSON-выводу. Внутри сторонних agent-стеков function-calling и нативное исполнение теперь дают near-parity по качеству; на Holotab-харнессе прирост превышает 25% относительно Holo3.
Линейка размеров расширилась до четырёх вариантов: 0.8B, 4B, 9B и 35B-A3B. Малые модели закрывают cost-sensitive и приватные сценарии, где облачный инференс неприемлем. Вся линейка построена на архитектуре Qwen.
Holo3.1 одновременно закрывает три production-проблемы — среды, фреймворки и деплой, — что редко случается в одном релизе. Честный пробел: Hugging Face не опубликовала цифры деградации качества при квантовании (FP8/Q4 против BF16) на ключевых бенчмарках. Без этих данных оценить реальную цену локального запуска невозможно — придётся мерить самостоятельно.