PP-OCRv6 на 34,5M параметрах обогнала GPT-5.5 и Qwen3-VL-235B в распознавании текста

Флагманские мультимодальные модели весят сотни миллиардов параметров. PP-OCRv6_medium весит 34,5M — и на внутренних бенчмарках Baidu обходит Qwen3-VL-235B, GPT-5.5 и Gemini-3.1-Pro по точности распознавания текста. PaddleOCR выложила модель на Hugging Face: три размера, 50 языков, лицензия Apache 2.0.

PP-OCRv6_medium (34,5M параметров) улучшает точность распознавания на +5,1 п.п. и детекцию на +4,6 п.п. по сравнению с предыдущим PP-OCRv5_server — и при этом превосходит перечисленные VLM на тех же OCR-сценариях. На другом конце шкалы — tiny-вариант (1,5M параметров): он работает в 3,9× быстрее PP-OCRv5_mobile на Intel Xeon CPU при сопоставимой точности.

Все три тира используют единую архитектуру:

PPLCNetV4 — общий backbone для детекции и распознавания во всех трёх размерах; переход между тирами не требует смены пайплайна.
RepLKFPN — детектор с крупноядерной пирамидой признаков; держит мелкий, плотный, повёрнутый и зашумлённый текст.
EncoderWithLightSVTR — распознаватель, сочетающий локальный контекст и глобальное внимание; помогает на многоязычных и промышленных символах.

Размеры и точность по тирам:

Тир	Параметры	Detection Hmean	Recognition accuracy
tiny	1,5M	80,6%	73,5%
small	7,7M	84,1%	81,3%
medium	34,5M	86,2%	83,2%

Medium и small поддерживают 50 языков: упрощённый и традиционный китайский, английский, японский и 46 языков на латинице. Tiny заточен под edge-устройства и сценарии с жёсткими ограничениями по памяти. Модели доступны на Hugging Face под Apache 2.0, есть онлайн-демо.

PP-OCRv6 — конкретный контрпример тезису «большой VLM закроет OCR»: task-specific архитектура с целевым обучением выигрывает у мультимодальных гигантов на их же задаче при несопоставимо меньших размерах. Честный пробел: все приведённые бенчмарки внутренние — сделаны командой Baidu. Независимых сравнений на публичных датасетах вроде ICDAR в материалах нет, так что насколько результаты воспроизводимы вне экосистемы PaddlePaddle — пока открытый вопрос.

PP-OCRv6 на 34,5M параметрах обогнала GPT-5.5 и Qwen3-VL-235B в распознавании текста daily

Дополнительные источники

Источники

Оценить материал