年终盘点：2023年最重大的15次云故障

665 阅读 0 评论 142 点赞

在太平洋夏季时间7月18日上午11:54，IT Glue宣布遭遇“502 Bad Gateway”错误，该性能问题“可能导致部分合作伙伴暂时无法访问IT Glue服务”。该问题已于中午12点46分得到解决。

2023年9月，Microsoft Teams经历了超过两小时的故障。太平洋夏季时间9月13日上午7点10分，微软在X（前称Twitter）上宣布正在“调查影响Microsoft Teams的事件”，并指出用户“可能会遇到消息发送和接收延迟或失败的问题”。微软确认问题主要影响北美地区的部分用户，并采取措施将服务流量重定向至正常运行的基础设施以减轻影响。至上午9:43，微软宣布：“我们已确认与该问题相关的服务影响已得到解决。”

ThousandEyes情报公司指出，尽管应用前端可访问，但尝试登录系统或与之交互时会出现500错误和超时，表明存在后端系统或分发层的问题。

2023年9月，Salesforce报告称其产品和服务在9月20日出现中断，持续约2小时，而MuleSoft和Tableau服务中断时间约为4小时。此次中断是由于意外的政策变更导致，该变更属于公司对安全控制进行持续审查和更新的标准操作程序。变更无意中阻止了对某些合法和必要资源的访问，导致服务间通信故障，系统出现故障，限制了客户登录和使用服务。Salesforce已更改变更审核和批准流程，并修复了Tableau中的启动竞争条件错误，以防止类似问题再次发生，并承诺实施专门的自动化部署管道、增加监控和警报功能以快速诊断政策相关问题，以及重建MuleSoft CloudHub后端组件以提高弹性。

2023年11月，Cloudflare和Workday将中断故障归咎于俄勒冈州的数据中心问题。Cloudflare首席执行官Matthew Prince对11月初发生的持续多天的事件表示“抱歉和尴尬”，并指出部分责任在于Flexential运营的俄勒冈州数据中心。11月2日，Cloudflare的控制平面界面和分析服务发生中断，直至11月4日。Prince表示，尽管大多数客户在灾难恢复设施上线后未遇到大部分产品问题，但其他服务需要更长时间恢复，并且在完全解决事件之前，使用这些服务的客户可能会遇到问题。他为Cloudflare“相信我们拥有高可用性系统，即使我们的某个核心数据中心提供商发生灾难性故障，也能够阻止这样的中断”的信念表示歉意。Cloudflare承诺消除对核心数据中心的依赖，并转移服务控制平面配置至分布式网络，要求所有产品和功能具备可靠的灾难恢复计划，并对所有核心数据中心进行彻底审核。

Workday报告称，事件持续了3小时，归咎于“俄勒冈州波特兰数据中心的停电，导致部分客户的服务中断”。Workday表示，由于备用电源故障及电力环境不稳定，服务恢复时间比通常要长。

本文分类：云计算
本文标签：网络攻击云计算
浏览次数：665 次浏览
发布日期：2024-09-10 09:56:56
本文链接：https://huida178.com/yunjisuan/3685

上一篇 > 你的云网络准备好拥抱生成式人工智能了吗?
下一篇 > Docker Swarm：大规模简化容器的编排

年终盘点：2023年最重大的15次云故障

评论列表共有 0 条评论

发表评论取消回复

年终盘点：2023年最重大的15次云故障

跨境电商心得分享：想要改善成本效益？云平台的选择是关键！

云环境中的数据沿袭：挑战和解决方案

云安全：领先攻击者一步

避免云应用迁移陷入困境的方法

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复