Квантование 4-бит и 8-бит через BitsAndBytes молча отбрасывало фрагментированные тензоры — без исключения, без предупреждения, просто тихая потеря данных. Hugging Face закрыл этот баг в Transformers v5.10.1, вышедшем 3 июня.
Тихий баг квантования затрагивал потенциально любую модель, запущенную с BitsAndBytes в режиме 4-бит или 8-бит: фрагментированные тензоры отбрасывались без единого сигнала. В том же патче исправлены ещё две смежные проблемы: ошибка обратной подстроки FP8 MoE, ломавшая инициализацию DSv4, и регрессия в инициализации кэша encoder-decoder.
Параллельно релиз добавил поддержку четырёх новых архитектур:
- Mellum — кодовая MoE-модель от JetBrains: 12B параметров всего, 2.5B активных на токен, 64 эксперта с 8 активируемыми, 28 слоёв.
- DeepSeek-OCR-2 — специализированная OCR-модель с гибридным вниманием: двунаправленное внимание по токенам изображения, причинное — по токенам запроса.
- Sapiens2 — семейство vision-трансформеров от 0.4B до 5B параметров, обученных на ~1 млрд изображений людей; нативное разрешение 1K с иерархическими вариантами до 4K.
- Gemma 4 12B Unified — бескодерная мультимодальная модель Google.
На инфраструктурном уровне: добавлена поддержка DeepGEMM BF16, смешанного FP8/FP4 и квантования MegaMoE; переработан менеджер непрерывной пакетной обработки (continuous batching) с исправлением состояний гонки при tensor parallelism; инициализация FSDP теперь доступна через from_pretrained.
Главное в этом релизе — не четыре новые архитектуры, а закрытие бага, который мог незаметно искажать результаты у всех, кто работал с BitsAndBytes. Что осталось за кадром: когда именно появился баг с фрагментированными тензорами и какие модели или сценарии страдали от него чаще всего — Hugging Face этого не уточнил.