Большинство моделей оценивают на бенчмарках — и на этом всё. ByteDance пошла дальше: Seed2.1 не только проходит тесты, но и сама пишет код для своего обучения, синтезирует данные и оптимизирует RL-фреймворк. 23 июня компания официально выпустила семейство Seed2.1 — набор агентских моделей, заточенных под реальные рабочие сценарии.
Главная заявка — не точечные способности, а агентская надёжность: довести многошаговую задачу до конца. Seed2.1 оптимизирована под планирование проектов, работу с документами и переключение между GUI и инструментами. На MobileWorld benchmark модель занимает первое место; Seed2.1 Pro берёт верхнюю строчку на GDPVal — бенчмарке, который меряет экономическую ценность выполненных задач, а не просто точность ответа. Среднее число шагов для завершения задачи сократилось на 16% за счёт RL-оптимизации.
Интереснее всего для инженера — инициатива «Seed for Seed». Seed2.1 встроена в собственный R&D-пайплайн ByteDance как активный участник: разрабатывает оценочные системы, синтезирует SFT-данные (данные для дообучения с учителем), оптимизирует RL-фреймворк. Задачи длятся от нескольких часов до нескольких десятков дней. Для сложных задач несколько агентов работают в связке с разделением ролей — исполнение, оценка, диагностика, оптимизация. Результат напрямую ускоряет следующий виток итераций модели.
Мультимодальность и кодинг выступают поддерживающим слоем для агентских сценариев. По визуальному и видеопониманию Seed2.1 Pro занимает первые места на:
- CharXiv-RQ и MeasureBench — сложное понимание документов, графиков и точное распознавание чисел;
- TVBench и TOMATO — понимание временны́х изменений и физической динамики в видео.
В кодинге: 8-е место на Code Arena Frontend с результатом 1539 очков, топ-10 в 5 из 7 подкатегорий. На ProgramBench — конкурентный результат по системному инжинирингу с нуля.
ByteDance строит замкнутый цикл: модель участвует в собственном обучении, что потенциально ускоряет итерации быстрее классического pipeline. Честный пробел: публичных данных о размере модели, архитектуре и условиях лицензирования нет. Непонятно, насколько Seed2.1 доступна за пределами экосистемы Doubao и Volcano Engine — или это по-прежнему история только для их пользователей.