OpenAI 解释 ChatGPT 等服务故障原因，源于内部系统升级失误_易云

首页 \ 资讯 \ OpenAI 解释 ChatGPT 等服务故障原因，源于内部系统升级失误

OpenAI 解释 ChatGPT 等服务故障原因，源于内部系统升级失误精华热点

关注

12 月 12 日，OpenAI 针对 12 月 11 日 ChatGPT、Sora 及 API 服务出现的长达四个多小时的宕机事故，更新了服务状态页面并给出详细解释。

据悉，此次故障并非由安全漏洞或新产品发布所导致，而是源于一项内部系统升级出现的配置失误。 12 月 11 日下午，OpenAI 工程师部署了一项新的遥测服务，然而由于配置问题，致使每个节点同时执行大量 Kubernetes API 操作，最终服务器不堪重负，控制平面陷入瘫痪，进而引发 DNS 解析故障，导致服务间无法互相通信。

在此期间，尽管 OpenAI 的监控系统在问题初期便发出警报，但由于 DNS 缓存机制的影响，延迟了问题的暴露，使得故障在更大范围内蔓延。面对这一突发状况，OpenAI 的工程师们经历了缩小集群规模、限制对 API 的访问以及扩容服务器等多个艰难步骤，才最终恢复了部分控制并移除了故障服务。

OpenAI 承认，此次事件暴露了其在测试和部署流程上存在的不足，例如仅测试了小型预发布环境，而未充分评估对大型集群的潜在影响。为避免类似事件再次发生，OpenAI 承诺将采取一系列改进措施，包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。

此次故障发生在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间，期间所有 OpenAI 服务均出现了严重降级或完全不可用的情况。其中，ChatGPT 在下午 5:45 左右开始大幅恢复，并于晚上 7:01 完全恢复；API 在下午 5:36 左右开始大幅恢复，于晚上 7:38 所有模型全部恢复正常；Sora 则于晚上 7:01 完全恢复。

OpenAI 对此次服务故障给用户带来的不便表示歉意，并表示将继续努力优化系统和流程，以确保服务的稳定性和可靠性。

查看全文

支持作者

给作者一点鼓励，您的鼓励是原创的动力！

3.00
5.00
8.00
10.00
20.00
30.00
50.00
100.00
200.00

其他金额

OpenAI 解释 ChatGPT 等服务故障原因，源于内部系统升级失误 精华热点

最新评论

OpenAI 解释 ChatGPT 等服务故障原因，源于内部系统升级失误精华热点