AI News Watcher
Tuesday, Jun 9, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 09, 2026 · 1 min read · OpenAI ← Back to feed

GPT-5.5 открыл 23 000 китайских научных статей — без OCR-конвейера daily

Один разработчик убрал целую цепочку инструментов и получил переводы полнее, чем раньше.

GPT-5.5 открыл 23 000 китайских научных статей — без OCR-конвейера
Редакция · Daily briefing

Есть целый параллельный корпус научных работ, который большинство западных исследователей просто не видят. Языковой барьер — полбеды; настоящим препятствием была техническая цепочка: распознать текст, обработать, передать в переводчик. Один разработчик убрал её целиком и заменил GPT-5.5 — теперь 23 000 статей с ChinaRxiv доступны на английском.

Суть изменения — не ускорение старого подхода, а его устранение. Многоступенчатый OCR-пайплайн (оптическое распознавание символов, постобработка, передача в переводчик) заменён одним вызовом модели. При этом переводы стали полнее, чем выдавала прежняя схема: OCR на китайском тексте регулярно давал ошибки, которые рвали контекст ещё до перевода.

Результат — 23 000+ статей ChinaRxiv свободно доступны на английском. Репозиторий открыт на GitHub (kaixindelele/chinarxiv, 172 звезды). Это корпус, который западные исследователи прежде не читали не потому что не хотели, а потому что добраться до него было слишком трудоёмко.

Кейс наглядно показывает, как меняется устройство инструментов для работы с данными: там, где раньше нужна была цепочка специализированных компонентов, теперь хватает одной модели. Честный пробел: нет данных о том, во сколько обошёлся перевод 23 000 статей через API, и нет независимой оценки качества переводов по сравнению со старым пайплайном.

Дополнительные источники

  1. Images and vision | OpenAI API
  2. Learning to reason with LLMs | OpenAI
  3. ycombinator.com
  4. step6_translation_manager.py - kaixindelele/chinarxiv (GitHub)
  5. OpenAI President Greg Brockman: Doubling Down on Text Models, The Superapp Plan, Codex’s Potential

Источники

  1. https://x.com/OpenAIDevs/status/2064346891673059484 external
  2. https://x.com/polynoamial/status/2064370734806532289 external
  3. https://x.com/OpenAIDevs/status/2064395155688616153 external
  4. https://x.com/romainhuet/status/2064402685126951324 external
  5. https://x.com/aidan_mclau/status/2064445782724669817 external
  6. https://x.com/gdb/status/2064469421490659751 external
  7. https://www.nytimes.com/2026/06/08/us/ai-college-degrees.html unknown
→ Опубликовано в Telegram: @agentic_ai_news/486