Стоит читать если: вы используете библиотеку HuggingFace Transformers, работаете с новыми моделями Cohere2Moe, Parakeet tdt, HRM-Text или затронуты изменениями в обработке
text_embeds. Можно пропустить если: вы не работаете с библиотекой Transformers и не следите за новыми архитектурами моделей.
Transformers v5.9.0: новые модели и важные изменения
В релизе v5.9.0 появились три новые модели. Эти архитектуры расширяют возможности библиотеки в различных областях:
- Cohere2Moe — новая языковая модель Mixture-of-Experts (MoE) от Cohere. Она использует гибридный паттерн внимания и поддерживает большое контекстное окно, что может быть полезно для задач с объемными входными данными.
- Parakeet tdt — еще одна добавленная модель, детали которой можно изучить в документации HuggingFace.
- HRM-Text — представляет собой улучшенный авторегрессивный вариант языкового моделирования Hierarchical Reasoning Model (HRM). Модель отличается иерархическим рекуррентным прямым проходом и использует два стека трансформеров для более сложной обработки информации.
Изменение в обработке text_embeds может быть ломающим. Для моделей SAM3, EdgeTAM и SAM3-Lite-Text вход text_embeds теперь ожидает полные текстовые эмбеддинги вместо только выходов пулера. Это означает, что код, который ранее передавал только выходы пулера, потребует адаптации для корректной работы с новой версией библиотеки.
В релиз включены различные исправления и улучшения. Среди них:
- Утечки памяти — исправлены утечки, вызванные декораторами
lruв моделях компьютерного зрения. - Расширенная поддержка аудио — добавлены контрольные точки для модели AudioFlamingoNext, а также улучшена компилируемость аудио- и видеокодировщиков.
- Улучшенная обработка ошибок — теперь сообщения об ошибках при загрузке аудио из видеофайлов стали более информативными. Также добавлена новая документация для аудио- и видеопроцессоров.
- Исправления генерации — устранены проблемы с обработкой
inputs_embedsиper_layer_inputsдля модели Gemma4, а также ошибкаAttributeErrorвRAG generate()из-за отсутствующих полей конфигурации. - Стабильность VLM-генерации — исправлены нестабильные тесты VLM-генерации путем блокировки специальных токенов изображения во время выборки, что повышает надежность работы.
Также за день
Ежедневные научные публикации HuggingFace. HuggingFace представил список из 12 исследовательских работ, набравших более 20 голосов сообщества 20 мая. В подборку вошли: «Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information» (190 голосов), «AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration» (178 голосов) и «When Vision Speaks for Sound» (147 голосов). Список работ.
Фильтрация таблиц лидеров по размеру модели. На HuggingFace появилась возможность фильтровать таблицы лидеров по бенчмаркам датасетов, указывая диапазон количества параметров модели. Результаты ранжирования обновляются в соответствии с выбранным диапазоном, а три лучшие модели в каждой категории отмечены значком. Changelog.
Что это значит
Обновление Transformers v5.9.0 подчеркивает постоянное развитие библиотеки как центральной платформы для работы с новейшими моделями. Для инженеров это означает доступ к передовым архитектурам и улучшенную стабильность, но также требует внимания к потенциальным breaking changes, особенно в части обработки эмбеддингов, чтобы избежать неожиданных ошибок в продакшене. Активное участие в сообществе, в том числе через ознакомление с новыми исследованиями и изменениями в UI, остается ключевым для использования всего потенциала экосистемы HuggingFace.