AI News Watcher
Tuesday, Jun 30, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 30, 2026 · 2 min read · HuggingFace ← Back to feed

Hugging Face собрал оценки AI-моделей в одном месте — и сделал их надёжнее daily

Тысячи бенчмарков из разных источников теперь в едином формате — с фильтром по железу.

Hugging Face собрал оценки AI-моделей в одном месте — и сделал их надёжнее
Редакция · Daily briefing

Обычно, чтобы сравнить две AI-модели, приходилось искать десятки бенчмарков в разных местах — и каждый раз сомневаться в их точности. Hugging Face решил эту проблему, интегрировав результаты Every Eval Ever (EEE) прямо на страницы моделей, что призвано унифицировать и стандартизировать отчётность и сравнение оценок.

Проект Every Eval Ever (EEE), запущенный в феврале 2026 года коалицией EvalEval, и Hugging Face Community Evals, вышедшие в тот же месяц, теперь полностью совместимы. Они позволяют взаимно публиковать и интерпретировать результаты оценок, связывая их с открытыми моделями, лидерами рейтингов и единым стандартизированным хранилищем метаданных. Ранее оценки моделей были разрознены: они встречались в статьях, блогах и логах, часто в разных форматах. Из-за этого одна и та же модель на одном бенчмарке могла показывать разные результаты, например, LLaMA 65B на MMLU оценивали как в 63.7, так и в 48.8.

EEE предлагает JSON-схему для результатов оценки, которая фиксирует ключевые данные:

Схема разработана с учётом мнения исследователей и политиков. Она принимает результаты из любых источников, будь то логи, данные с таблиц лидеров или показатели из научных работ. На сегодняшний день 229 000 результатов оценок по более чем 22 000 моделей и 2 200 бенчмаркам были собраны из 31 различных форматов. Воспроизведение этих тестов с нуля обошлось бы в сотни тысяч долларов.

Теперь Hugging Face предлагает конвертер, который преобразует записи EEE в формат YAML, ожидаемый Hugging Face Community Evals. Это исключает необходимость вручную поддерживать одни и те же результаты в двух форматах. Авторы могут отправлять результаты EEE в Community Evals, а при публикации данных через официальный аккаунт Hugging Face, результаты получают верифицированную отметку на EvalEval.

В дополнение к этому, на странице моделей Hugging Face появился новый фильтр по аппаратному обеспечению. Он позволяет пользователям отбирать модели, совместимые с конкретными GPU, CPU или чипами Apple Silicon (например, Apple M4 Max). Настройки оборудования можно задать в разделе «Hardware settings», и фильтр работает в сочетании с другими параметрами.

Объединение тысяч разрозненных оценок в один стандарт и возможность фильтрации по железу делают выбор моделей на Hugging Face более прозрачным и простым. Это шаг к решению давней проблемы доверия к бенчмаркам, но его успех напрямую зависит от того, насколько активно сообщество будет использовать предложенные инструменты для стандартизированной отчётности.

Дополнительные источники

  1. https://evalevalai.com/every_eval_ever/hf-community-evals
  2. https://github.com/evaleval/every_eval_ever
  3. arxiv.org
  4. ycombinator.com
  5. silextechnology.com

Источники

  1. https://huggingface.co/blog/eee-community-evals external
  2. https://huggingface.co/changelog/filter-models-by-hardware external
→ Опубликовано в Telegram: @agentic_ai_news/601