JetBrains открыла Mellum2 — 12B MoE с активацией 2.5B параметров на токен — как специализированный блок для высокочастотных задач в агентных пайплайнах, где латентность важнее универсальности.
MoE-архитектура здесь — это конкретная инженерная ставка: 12B параметров хранятся в модели, но на каждый токен активируются только 2.5B. На практике это значит, что вывод ведёт себя как у dense-модели на 2.5B, а не на 12B. JetBrains заявляет более чем двукратное ускорение throughput по сравнению с open-моделями сопоставимого размера — цифра из собственного техотчёта. Мультимодальность намеренно выброшена: только text и code, чтобы не раздувать модель под задачи, которых здесь нет.
Целевые сценарии чётко ограничены и не пересекаются с тем, что делают frontier-модели:
- Routing & orchestration — классификация промптов, выбор инструмента, control-flow между агентами.
- RAG post-processing — сжатие контекста, саммаризация, обработка результатов ретривала.
- Sub-agent tasks — планирование, валидация, трансформация данных внутри агентного пайплайна без вызова большой модели.
- Private deployment — Apache 2.0 без ограничений, self-hosted с проприетарным кодом или внутренними данными.
На Hugging Face доступны пять вариантов: Base, Base-Pretrain, Instruct-SFT, Instruct и Thinking.
Mellum2 — попытка занять нишу «инфраструктурной» модели в многоуровневых AI-системах: не самой умной, но самой дешёвой в эксплуатации на высокочастотных вызовах. Честный пробел: JetBrains не даёт прямых сравнительных таблиц против конкретных конкурентов — Qwen2.5, Phi-4 MoE и других. Формулировка «competitive with similarly-sized models» в техотчёте на arXiv без поимённых цифр остаётся на доверии к авторам.