AI News Watcher
Tuesday, Jun 30, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 30, 2026 · 1 min read · OpenAI ← Back to feed

OpenAI нашла 18-летний баг в открытом коде — он ломал её инфраструктуру daily

Причиной сбоев в ChatGPT были аппаратная ошибка и 18-летний баг в C++ — их нашли с помощью анализа дамп-файлов.

OpenAI нашла 18-летний баг в открытом коде — он ломал её инфраструктуру
Редакция · Daily briefing

Системы ИИ становятся всё сложнее, но даже в самых могут скрываться ошибки, которые годами остаются незамеченными. OpenAI обнаружила, что год сбоев в её критической инфраструктуре ChatGPT был вызван не только аппаратной проблемой, но и 18-летним багом в открытом исходном коде, который никто не замечал.

В течение года инженеры OpenAI боролись со сбоями в инфраструктуре данных, особенно в сервисе Rockset, который критически важен для многих плагинов ChatGPT и поиска в диалогах. Сбои были редкими, но постоянными, и их источник оставался загадкой.

Проблемы проявлялись необычно. Функции C++ завершались, но затем передавали управление на неверный адрес, что приводило к остановке программы. Иногда адрес возврата в стеке был NULL, иногда регистр указателя стека (%rsp) сдвигался на 8 байт. Эти признаки не соответствовали типичным сбоям в коде приложений.

После масштабного анализа дамп-файлов (core dump analysis) инженеры выяснили, что причинами были две независимые проблемы. Первая — скрытый аппаратный сбой. Вторая — 18-летний баг в открытом исходном коде, который оставался незамеченным.

Сервисы OpenAI, обеспечивающие работу моделей и агентов, часто пишутся на C++ для максимальной производительности и минимального использования памяти. Однако отсутствие встроенной безопасности памяти в C++ означает, что ошибки могут приводить к трудноуловимым сбоям, таким как запись по некорректным или несуществующим адресам.

Обнаружение такого старого и скрытого бага в критической инфраструктуре показывает, что даже в высокопроизводительных C++ системах могут годами скрываться фундаментальные ошибки. Метод анализа дамп-файлов на популяционном уровне становится ключевым инструментом для отладки редких и сложных сбоев в масштабной инфраструктуре, на которую полагаются современные ИИ-модели.

Дополнительные источники

  1. Core dump epidemiology: fixing an 18-year-old bug | OpenAI

Источники

  1. https://x.com/sherwinwu/status/2071796482119012372 external
  2. https://x.com/romainhuet/status/2071992107020210357 external
  3. https://x.com/OpenAIDevs/status/2071995642436800916 external
  4. http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/ unknown
  5. https://x.com/OpenAI/status/2072004836674167294 external
  6. https://openai.com/index/introducing-genebench-pro/ unknown
  7. https://x.com/OpenAIDevs/status/2072036305442406772 external
  8. https://x.com/romainhuet/status/2072091749280026722 external
  9. https://x.com/gdb/status/2072113363543580690 external
  10. https://x.com/romainhuet/status/2072149429604528517 external
→ Опубликовано в Telegram: @agentic_ai_news/611