Один показатель из статьи 2023 года цитируют МВФ, Европарламент и Сенат США — хотя он измерял возможности GPT-4 трёхлетней давности на американской классификации профессий. Cohere Labs выпустила доклад, разбирающий, почему эта цифра не отвечает на вопросы, которые ей задают, и что нужно вместо неё.
Проблема — цифра путешествует дальше своих границ. Показатель из «GPTs are GPTs» (Eloundou et al., 2023): 80% работников США имеют не менее 10% задач, доступных LLM, а 19% — более половины. Три ограничения не просто суммируются, они накапливаются. Первое: модель GPT-4-эпохи, разрыв с нынешними возможностями — около 26 процентных пунктов по одному из индексов. Второе: американская таксономия O*NET, которая не переносится на другие рынки даже при переводе. Третье: работа дробится на дискретные задачи — теряются суждение, контекст и отношения, которые часто и составляют суть профессии. Авторы оригинальной статьи сами признавали эти ограничения, но за пределами статьи они исчезают.
Что уже работает лучше. Исследователи не стояли на месте, и Cohere Labs собирает альтернативы:
- Динамические индексы — привязывают оценку к реальным данным занятости. Одно из первых эмпирических свидетельств: рост экспозиции на 10 п.п. связан со снижением занятости на 5,6–8,5 п.п.
- Ансамблевые подходы — комбинируют несколько фреймворков, взвешивая каждый по информативности. Одиночные индексы слабо или даже отрицательно коррелируют между собой: они измеряют разные измерения риска.
- Расширения таксономии задач — учитывают не только долю экспонированных задач, но и их последовательность внутри профессии. Смежность задач меняет то, какие профессии выглядят наиболее уязвимыми.
- Работнико-центричные метрики — добавляют то, чего нет в остальных: часть задач, которые AI мог бы выполнять, работники автоматизировать не хотят.
Параллельно Cohere Labs запустила интерактивный инструмент labormap. Из 19 265 задач O*NET, оценённых в 2023 году, 23,3% с тех пор переоценены, 2,7% удалены, 59 добавлены. В цифрах, на которые опираются политики, этих изменений нет.
Практический вывод. Использовать один индекс экспозиции как прокси для «уязвимости» методологически некорректно — индексы измеряют разные вещи и не согласуются между собой. Cohere Labs призывает строить инструменты, которые обновляются вместе с возможностями моделей и выходят за рамки американского рынка.
Доклад ценен тем, что переводит абстрактную критику («цифра устарела») в конкретные методологические претензии с альтернативами — это редкость в жанре. Честный пробел, который авторы оставили за кадром: Cohere Labs не объясняет, как их собственные модели влияют на те самые показатели экспозиции, которые они критикуют. Конфликт интересов вендора-исследователя в докладе не обозначен.