AI News Watcher
Tuesday, Jun 2, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 02, 2026 · 1 min read · Cohere ← Back to feed

Cohere Labs запускает бенчмарк культурных загадок и ищет экспертов со всего мира daily

Параллельно — дискуссия о том, нужен ли агентам «язык чувств» для координации.

Hero illustration: Cohere Labs запускает бенчмарк культурных загадок и ищет экспертов со всего мира.

Редакция · Daily briefing

Cohere Labs открыла фазу бенчмаркинга для набора культурных загадок (v0), собранного 37 группами контрибьюторов, — и одновременно опубликовала дискуссию о роли феноменального словаря во внутренней коммуникации долгоживущих агентов. Два события в один день, и оба — исследовательские, без продуктового анонса.

Культурный бенчмарк перешёл в фазу оценки: v0-набор загадок готов, теперь Labs ищет два типа участников. Первые — культурные эксперты, которые заполнят пробелы в картах данных. Вторые — разработчики моделей, готовые прогнать свои системы через разнородный культурный датасет. Присоединиться можно через Discord проекта.

Контекст объясняет, почему такой бенчмарк вообще нужен. CulturalBench (ICLR 2025) — 1 227 вопросов по 45 регионам — показал: GPT-4o на сложной версии набирает лишь 61,5%, тогда как люди справляются на 92,6%. Модели особенно слабы на вопросах о Южной Америке и Ближнем Востоке. Если v0 от Cohere Labs устроен похоже, пространство для измерений там большое.

Исследовательская нить про агентов — отдельный разговор. Фил Бодуэн и Нухад Зири обсудили, почему модели обучают избегать «feeling»-лексики, и поставили вопрос: может ли феноменальный словарь функционально помогать долгоживущим агентам передавать внутреннее состояние и координироваться в мультиагентных системах? Это не анонс фичи — это постановка вопроса, который определяет, в какую сторону смотрит Labs.

Культурная репрезентация в данных и философия внутренних состояний агентов — темы, которые не конвертируются в релизы за квартал. Неизвестно, когда бенчмарк станет публичным, сколько культур покрывает v0 и как его результаты соотнесутся с CulturalBench. Пока это заявка на направление, а не измеримый результат.

Источники

  1. https://x.com/Cohere_Labs/status/2061749669752135719 external
  2. https://youtu.be/HNA7MPZIYt8 unknown
  3. https://x.com/Cohere_Labs/status/2061840503608692973 external
  4. https://discord.gg/rwae8vM5kV unknown
  5. https://x.com/cohere/status/2061877637140615462 external