Флагманские мультимодальные модели весят сотни миллиардов параметров. PP-OCRv6_medium весит 34,5M — и на внутренних бенчмарках Baidu обходит Qwen3-VL-235B, GPT-5.5 и Gemini-3.1-Pro по точности распознавания текста. PaddleOCR выложила модель на Hugging Face: три размера, 50 языков, лицензия Apache 2.0.
PP-OCRv6_medium (34,5M параметров) улучшает точность распознавания на +5,1 п.п. и детекцию на +4,6 п.п. по сравнению с предыдущим PP-OCRv5_server — и при этом превосходит перечисленные VLM на тех же OCR-сценариях. На другом конце шкалы — tiny-вариант (1,5M параметров): он работает в 3,9× быстрее PP-OCRv5_mobile на Intel Xeon CPU при сопоставимой точности.
Все три тира используют единую архитектуру:
- PPLCNetV4 — общий backbone для детекции и распознавания во всех трёх размерах; переход между тирами не требует смены пайплайна.
- RepLKFPN — детектор с крупноядерной пирамидой признаков; держит мелкий, плотный, повёрнутый и зашумлённый текст.
- EncoderWithLightSVTR — распознаватель, сочетающий локальный контекст и глобальное внимание; помогает на многоязычных и промышленных символах.
Размеры и точность по тирам:
| Тир | Параметры | Detection Hmean | Recognition accuracy |
|---|---|---|---|
| tiny | 1,5M | 80,6% | 73,5% |
| small | 7,7M | 84,1% | 81,3% |
| medium | 34,5M | 86,2% | 83,2% |
Medium и small поддерживают 50 языков: упрощённый и традиционный китайский, английский, японский и 46 языков на латинице. Tiny заточен под edge-устройства и сценарии с жёсткими ограничениями по памяти. Модели доступны на Hugging Face под Apache 2.0, есть онлайн-демо.
PP-OCRv6 — конкретный контрпример тезису «большой VLM закроет OCR»: task-specific архитектура с целевым обучением выигрывает у мультимодальных гигантов на их же задаче при несопоставимо меньших размерах. Честный пробел: все приведённые бенчмарки внутренние — сделаны командой Baidu. Независимых сравнений на публичных датасетах вроде ICDAR в материалах нет, так что насколько результаты воспроизводимы вне экосистемы PaddlePaddle — пока открытый вопрос.