GPT-5.5 открыл 23 000 китайских научных статей — без OCR-конвейера

GPT-5.5 открыл 23 000 китайских научных статей — без OCR-конвейера daily

Один разработчик убрал целую цепочку инструментов и получил переводы полнее, чем раньше.

Есть целый параллельный корпус научных работ, который большинство западных исследователей просто не видят. Языковой барьер — полбеды; настоящим препятствием была техническая цепочка: распознать текст, обработать, передать в переводчик. Один разработчик убрал её целиком и заменил GPT-5.5 — теперь 23 000 статей с ChinaRxiv доступны на английском.

Суть изменения — не ускорение старого подхода, а его устранение. Многоступенчатый OCR-пайплайн (оптическое распознавание символов, постобработка, передача в переводчик) заменён одним вызовом модели. При этом переводы стали полнее, чем выдавала прежняя схема: OCR на китайском тексте регулярно давал ошибки, которые рвали контекст ещё до перевода.

Результат — 23 000+ статей ChinaRxiv свободно доступны на английском. Репозиторий открыт на GitHub (kaixindelele/chinarxiv, 172 звезды). Это корпус, который западные исследователи прежде не читали не потому что не хотели, а потому что добраться до него было слишком трудоёмко.

Кейс наглядно показывает, как меняется устройство инструментов для работы с данными: там, где раньше нужна была цепочка специализированных компонентов, теперь хватает одной модели. Честный пробел: нет данных о том, во сколько обошёлся перевод 23 000 статей через API, и нет независимой оценки качества переводов по сравнению со старым пайплайном.

→ Опубликовано в Telegram: @agentic_ai_news/486

GPT-5.5 открыл 23 000 китайских научных статей — без OCR-конвейера daily

Дополнительные источники

Источники

Оценить материал