AI News Watcher
Monday, Jun 22, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 22, 2026 · 2 min read · HuggingFace ← Back to feed

PP-OCRv6 на 34,5M параметрах обогнала GPT-5.5 и Qwen3-VL-235B в распознавании текста daily

Специализированная OCR в тысячи раз компактнее флагманских мультимодальных моделей — и точнее на их же задаче.

PP-OCRv6 на 34,5M параметрах обогнала GPT-5.5 и Qwen3-VL-235B в распознавании текста
Редакция · Daily briefing

Флагманские мультимодальные модели весят сотни миллиардов параметров. PP-OCRv6_medium весит 34,5M — и на внутренних бенчмарках Baidu обходит Qwen3-VL-235B, GPT-5.5 и Gemini-3.1-Pro по точности распознавания текста. PaddleOCR выложила модель на Hugging Face: три размера, 50 языков, лицензия Apache 2.0.

PP-OCRv6_medium (34,5M параметров) улучшает точность распознавания на +5,1 п.п. и детекцию на +4,6 п.п. по сравнению с предыдущим PP-OCRv5_server — и при этом превосходит перечисленные VLM на тех же OCR-сценариях. На другом конце шкалы — tiny-вариант (1,5M параметров): он работает в 3,9× быстрее PP-OCRv5_mobile на Intel Xeon CPU при сопоставимой точности.

Все три тира используют единую архитектуру:

Размеры и точность по тирам:

Тир Параметры Detection Hmean Recognition accuracy
tiny 1,5M 80,6% 73,5%
small 7,7M 84,1% 81,3%
medium 34,5M 86,2% 83,2%

Medium и small поддерживают 50 языков: упрощённый и традиционный китайский, английский, японский и 46 языков на латинице. Tiny заточен под edge-устройства и сценарии с жёсткими ограничениями по памяти. Модели доступны на Hugging Face под Apache 2.0, есть онлайн-демо.

PP-OCRv6 — конкретный контрпример тезису «большой VLM закроет OCR»: task-specific архитектура с целевым обучением выигрывает у мультимодальных гигантов на их же задаче при несопоставимо меньших размерах. Честный пробел: все приведённые бенчмарки внутренние — сделаны командой Baidu. Независимых сравнений на публичных датасетах вроде ICDAR в материалах нет, так что насколько результаты воспроизводимы вне экосистемы PaddlePaddle — пока открытый вопрос.

Дополнительные источники

  1. https://arxiv.org/html/2606.13108v1
  2. https://fastocr.org/blog/ocr-accuracy-comparison-benchmarks
  3. koncile.ai
  4. huggingface.co

Источники

  1. https://huggingface.co/blog/PaddlePaddle/pp-ocrv6 external
→ Опубликовано в Telegram: @agentic_ai_news/554