年终盘点：2023年最重大的15次云故障

384 阅读 0 评论 32 点赞

"502 Bad Gateway" 错误发生时，IT Glue 在太平洋夏季时间7月18日上午11:54 发布声明，指出这一性能问题“可能导致我们的部分合作伙伴无法访问IT Glue”。该问题在中午12点46分得到解决。

2023年9月，Microsoft Teams 遭遇了一次持续超过两小时的故障。太平洋夏季时间9月13日上午7点10分，微软在X（前称Twitter）上宣布正在“调查影响Microsoft Teams的事件”，并指出用户可能会遇到“发送和接收消息时出现延迟或失败的问题”。微软确认，问题主要影响了北美地区的部分用户，并采取措施将服务流量重新路由至正常运行的基础设施以减轻影响。太平洋夏季时间上午9:43，微软宣布：“我们已经确认与此问题相关的影响已得到解决。”

ThousandEyes情报公司，隶属于思科，发布文章指出，尽管应用前端可以访问，但尝试登录系统或与其交互会导致500错误和超时。这表明存在后端系统或分发层的问题。

2023年9月，Salesforce 报告称其产品和服务在9月20日出现了中断，持续约两小时，而MuleSoft和Tableau的服务中断时间则长达四小时。公司审查结果显示，这次中断是由于意外的政策变更引起的，该变更属于公司对安全控制进行持续审查和更新的标准操作程序的一部分。变更的目的是增强深度防御，但意外地阻止了对其他合法和必要资源的访问，导致服务间通信故障，系统出现故障，限制了部分客户的登录和使用。Salesforce 更改了变更审核和批准流程，并修复了Tableau中的启动竞争条件错误，以防止类似问题再次发生，并承诺实施专门的自动化部署管道，增加监控和警报功能以快速诊断政策相关问题，以及重建MuleSoft CloudHub后端组件以提高弹性。

2023年11月，Cloudflare 和 Workday 将中断故障归咎于位于俄勒冈州的数据中心问题。Cloudflare 首席执行官 Matthew Prince 对11月初发生的持续多天的事件表示“抱歉和尴尬”，并将部分责任归咎于由 Flexential 运营的俄勒冈州数据中心。11月2日，Cloudflare 的面向客户的控制平面界面和分析服务发生中断，事件持续到11月4日。Prince 表示，截至世界标准时间11月2日17:57，大部分控制平面已在灾难恢复设施中恢复，许多客户不会遇到大多数产品问题。然而，其他服务需要更长时间恢复，使用这些服务的客户可能会遇到问题。在事件发生期间，大多数客户无法使用原始日志服务。Prince 对此表示歉意，因为Cloudflare “相信我们拥有高可用性系统，即使我们的某个核心数据中心提供商发生灾难性故障，也能够阻止这样的中断。”“许多系统确实按照设计保持在线，但一些关键系统具有不明显的、导致其不可用的依赖性。”Cloudflare 承诺做出的改变包括：消除对核心数据中心的所有服务控制平面配置的依赖，并将其转移到由分布式网络供电的地方，要求所有指定为普遍可用的产品和功能都具有经过测试的可靠灾难恢复计划，对所有核心数据中心进行彻底审核，并制定重新审核计划，以确保其符合公司标准。

Workday 的报告称，事件持续了3个小时，并将其归咎于“俄勒冈州波特兰数据中心的停电，导致部分客户的服务中断”。Workday 表示：“由于备用电源故障的问题，以及不稳定的电力环境带来了额外的挑战，服务恢复所需的时间比通常情况要长。”

本文分类：云计算
本文标签：云计算云故障
浏览次数：384 次浏览
发布日期：2024-09-05 16:41:19
本文链接：https://huida178.com/yunjisuan/1908

上一篇 > 你的云网络准备好拥抱生成式人工智能了吗?
下一篇 > 公司正在招聘14个云角色

年终盘点：2023年最重大的15次云故障

评论列表共有 0 条评论

发表评论取消回复

年终盘点：2023年最重大的15次云故障

微信扫一扫：分享

跨境电商心得分享：想要改善成本效益？云平台的选择是关键！

云环境中的数据沿袭：挑战和解决方案

云安全：领先攻击者一步

避免云应用迁移陷入困境的方法

评论列表 共有 0 条评论

发表评论 取消回复

微信扫一扫：分享

评论列表共有 0 条评论

发表评论取消回复