Длинные агентные сессии дорожают прежде всего из-за thinking-токенов: чем дольше модель «думает», тем больше счёт. MoonshotAI выпустил Kimi K2.7 Code с заявленным сокращением этих токенов на ~30% по сравнению с предшественником. Модель доступна на OpenRouter с контекстом 256K токенов и поддержкой изображений и видео.
Архитектура — Mixture-of-Experts: 1T параметров суммарно, 32B активных на токен, 384 эксперта, из которых выбирается 8. Контекстное окно — 256K токенов. Сокращение thinking-токенов на ~30% — это не просто скоростная метрика: в длинных агентных сессиях оно напрямую уменьшает стоимость, поскольку выходные токены тарифицируются по $4.00/MTok.
На бенчмарках картина неоднородная:
- Kimi Code Bench v2 — 62.0 против GPT-5.5 (69.0) и Claude Opus 4.8 (67.4): модель уступает обоим.
- MCP Mark Verified — 81.1, выше Opus 4.8 (76.4), но заметно ниже GPT-5.5 (92.9).
- Program Bench — 53.6 против 69.1 у GPT-5.5 и 63.8 у Opus 4.8.
Цена: $0.95/MTok на вход, $4.00/MTok на выход — против более высоких тарифов у Opus 4.8 и GPT-5.5.
Встроенный энкодер MoonViT (400M параметров) позволяет подавать изображения и видео прямо в кодинговый пайплайн. На практике это означает сценарии «скриншот UI → код» или «запись экрана с багом → патч» без предварительной конвертации в текст.
K2.7 Code практически интересен тем, кто строит агентные пайплайны с длинным контекстом и хочет сократить счёт за thinking без перехода на более слабые модели. Бенчмарки показывают конкурентный результат на агентных задачах при цене на порядок ниже топ-моделей. Два пробела: MoonshotAI не публикует данные о скорости инференса, а доступность thinking-режима с возможностью его отключения через OpenRouter — не уточнена.