Есть целый параллельный корпус научных работ, который большинство западных исследователей просто не видят. Языковой барьер — полбеды; настоящим препятствием была техническая цепочка: распознать текст, обработать, передать в переводчик. Один разработчик убрал её целиком и заменил GPT-5.5 — теперь 23 000 статей с ChinaRxiv доступны на английском.
Суть изменения — не ускорение старого подхода, а его устранение. Многоступенчатый OCR-пайплайн (оптическое распознавание символов, постобработка, передача в переводчик) заменён одним вызовом модели. При этом переводы стали полнее, чем выдавала прежняя схема: OCR на китайском тексте регулярно давал ошибки, которые рвали контекст ещё до перевода.
Результат — 23 000+ статей ChinaRxiv свободно доступны на английском. Репозиторий открыт на GitHub (kaixindelele/chinarxiv, 172 звезды). Это корпус, который западные исследователи прежде не читали не потому что не хотели, а потому что добраться до него было слишком трудоёмко.
Кейс наглядно показывает, как меняется устройство инструментов для работы с данными: там, где раньше нужна была цепочка специализированных компонентов, теперь хватает одной модели. Честный пробел: нет данных о том, во сколько обошёлся перевод 23 000 статей через API, и нет независимой оценки качества переводов по сравнению со старым пайплайном.