Cohere Labs открыла фазу бенчмаркинга для набора культурных загадок (v0), собранного 37 группами контрибьюторов, — и одновременно опубликовала дискуссию о роли феноменального словаря во внутренней коммуникации долгоживущих агентов. Два события в один день, и оба — исследовательские, без продуктового анонса.
Культурный бенчмарк перешёл в фазу оценки: v0-набор загадок готов, теперь Labs ищет два типа участников. Первые — культурные эксперты, которые заполнят пробелы в картах данных. Вторые — разработчики моделей, готовые прогнать свои системы через разнородный культурный датасет. Присоединиться можно через Discord проекта.
Контекст объясняет, почему такой бенчмарк вообще нужен. CulturalBench (ICLR 2025) — 1 227 вопросов по 45 регионам — показал: GPT-4o на сложной версии набирает лишь 61,5%, тогда как люди справляются на 92,6%. Модели особенно слабы на вопросах о Южной Америке и Ближнем Востоке. Если v0 от Cohere Labs устроен похоже, пространство для измерений там большое.
Исследовательская нить про агентов — отдельный разговор. Фил Бодуэн и Нухад Зири обсудили, почему модели обучают избегать «feeling»-лексики, и поставили вопрос: может ли феноменальный словарь функционально помогать долгоживущим агентам передавать внутреннее состояние и координироваться в мультиагентных системах? Это не анонс фичи — это постановка вопроса, который определяет, в какую сторону смотрит Labs.
Культурная репрезентация в данных и философия внутренних состояний агентов — темы, которые не конвертируются в релизы за квартал. Неизвестно, когда бенчмарк станет публичным, сколько культур покрывает v0 и как его результаты соотнесутся с CulturalBench. Пока это заявка на направление, а не измеримый результат.