12 月 12 日,OpenAI 针对 12 月 11 日 ChatGPT、Sora 及 API 服务出现的长达四个多小时的宕机事故,更新了服务状态页面并给出详细解释。
据悉,此次故障并非由安全漏洞或新产品发布所导致,而是源于一项内部系统升级出现的配置失误。 12 月 11 日下午,OpenAI 工程师部署了一项新的遥测服务,然而由于配置问题,致使每个节点同时执行大量 Kubernetes API 操作,最终服务器不堪重负,控制平面陷入瘫痪,进而引发 DNS 解析故障,导致服务间无法互相通信。
在此期间,尽管 OpenAI 的监控系统在问题初期便发出警报,但由于 DNS 缓存机制的影响,延迟了问题的暴露,使得故障在更大范围内蔓延。面对这一突发状况,OpenAI 的工程师们经历了缩小集群规模、限制对 API 的访问以及扩容服务器等多个艰难步骤,才最终恢复了部分控制并移除了故障服务。
OpenAI 承认,此次事件暴露了其在测试和部署流程上存在的不足,例如仅测试了小型预发布环境,而未充分评估对大型集群的潜在影响。为避免类似事件再次发生,OpenAI 承诺将采取一系列改进措施,包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。
此次故障发生在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间,期间所有 OpenAI 服务均出现了严重降级或完全不可用的情况。 其中,ChatGPT 在下午 5:45 左右开始大幅恢复,并于晚上 7:01 完全恢复;API 在下午 5:36 左右开始大幅恢复,于晚上 7:38 所有模型全部恢复正常;Sora 则于晚上 7:01 完全恢复。
OpenAI 对此次服务故障给用户带来的不便表示歉意,并表示将继续努力优化系统和流程,以确保服务的稳定性和可靠性。