Обычно, чтобы сравнить две AI-модели, приходилось искать десятки бенчмарков в разных местах — и каждый раз сомневаться в их точности. Hugging Face решил эту проблему, интегрировав результаты Every Eval Ever (EEE) прямо на страницы моделей, что призвано унифицировать и стандартизировать отчётность и сравнение оценок.
Проект Every Eval Ever (EEE), запущенный в феврале 2026 года коалицией EvalEval, и Hugging Face Community Evals, вышедшие в тот же месяц, теперь полностью совместимы. Они позволяют взаимно публиковать и интерпретировать результаты оценок, связывая их с открытыми моделями, лидерами рейтингов и единым стандартизированным хранилищем метаданных. Ранее оценки моделей были разрознены: они встречались в статьях, блогах и логах, часто в разных форматах. Из-за этого одна и та же модель на одном бенчмарке могла показывать разные результаты, например, LLaMA 65B на MMLU оценивали как в 63.7, так и в 48.8.
EEE предлагает JSON-схему для результатов оценки, которая фиксирует ключевые данные:
- кто провёл оценку;
- какая модель использовалась;
- как модель была доступна;
- настройки генерации;
- что именно означает метрика;
- (рекомендуется) JSONL-файл с побитовыми выводами.
Схема разработана с учётом мнения исследователей и политиков. Она принимает результаты из любых источников, будь то логи, данные с таблиц лидеров или показатели из научных работ. На сегодняшний день 229 000 результатов оценок по более чем 22 000 моделей и 2 200 бенчмаркам были собраны из 31 различных форматов. Воспроизведение этих тестов с нуля обошлось бы в сотни тысяч долларов.
Теперь Hugging Face предлагает конвертер, который преобразует записи EEE в формат YAML, ожидаемый Hugging Face Community Evals. Это исключает необходимость вручную поддерживать одни и те же результаты в двух форматах. Авторы могут отправлять результаты EEE в Community Evals, а при публикации данных через официальный аккаунт Hugging Face, результаты получают верифицированную отметку на EvalEval.
В дополнение к этому, на странице моделей Hugging Face появился новый фильтр по аппаратному обеспечению. Он позволяет пользователям отбирать модели, совместимые с конкретными GPU, CPU или чипами Apple Silicon (например, Apple M4 Max). Настройки оборудования можно задать в разделе «Hardware settings», и фильтр работает в сочетании с другими параметрами.
Объединение тысяч разрозненных оценок в один стандарт и возможность фильтрации по железу делают выбор моделей на Hugging Face более прозрачным и простым. Это шаг к решению давней проблемы доверия к бенчмаркам, но его успех напрямую зависит от того, насколько активно сообщество будет использовать предложенные инструменты для стандартизированной отчётности.