Агентные кодинг-модели обычно требуют серверного GPU: слишком много параметров активно одновременно. Cohere выпустила North-Mini-Code-1.0 с MoE-архитектурой (Mixture of Experts — смесь специализированных подсетей), где из 30B параметров в каждый момент задействованы лишь 3B. Именно это делает локальный запуск реальным.
MoE здесь не маркетинговый трюк, а инженерное решение: модель хранит 30B параметров, но на каждый токен активирует только нужные 3B. Вычислительная нагрузка соответствует модели в 3B, а не 30B — отсюда и возможность запускать её на потребительском железе, а не на кластере.
Для инженера практические характеристики выглядят так:
- Контекст — 256K токенов на вход, 64K на выход.
- Лицензия — Apache 2.0, коммерческое использование без ограничений.
- Веса — открыты на Hugging Face.
- API — доступна через Chat V2 API; для продакшн-деплоя поддерживается Model Vault.
Модель обучена специально под агентное кодирование — то есть не просто дополняет код по контексту, а умеет выполнять многошаговые задачи: читать файлы, вызывать инструменты, итерировать по результату.
Cohere делает ставку на то, что агентное кодирование должно работать там, где живут данные — локально, без передачи кода в облако. Пробел пока существенный: публичных независимых бенчмарков North-Mini-Code-1.0 в сравнении с Qwen-Coder, DeepSeek-Coder и аналогами нет. Реальное качество агентного поведения придётся проверять самостоятельно.