在太平洋夏季时间718日上午11:54IT Glue宣布遭遇“502 Bad Gateway”错误,该性能问题“可能导致部分合作伙伴暂时无法访问IT Glue服务”。该问题已于中午1246分得到解决。


20239月,Microsoft Teams经历了超过两小时的故障。太平洋夏季时间913日上午710分,微软在X(前称Twitter)上宣布正在“调查影响Microsoft Teams的事件”,并指出用户“可能会遇到消息发送和接收延迟或失败的问题”。微软确认问题主要影响北美地区的部分用户,并采取措施将服务流量重定向至正常运行的基础设施以减轻影响。至上午9:43,微软宣布:“我们已确认与该问题相关的服务影响已得到解决。”

ThousandEyes情报公司指出,尽管应用前端可访问,但尝试登录系统或与之交互时会出现500错误和超时,表明存在后端系统或分发层的问题。

20239月,Salesforce报告称其产品和服务在920日出现中断,持续约2小时,而MuleSoftTableau服务中断时间约为4小时。此次中断是由于意外的政策变更导致,该变更属于公司对安全控制进行持续审查和更新的标准操作程序。变更无意中阻止了对某些合法和必要资源的访问,导致服务间通信故障,系统出现故障,限制了客户登录和使用服务。Salesforce已更改变更审核和批准流程,并修复了Tableau中的启动竞争条件错误,以防止类似问题再次发生,并承诺实施专门的自动化部署管道、增加监控和警报功能以快速诊断政策相关问题,以及重建MuleSoft CloudHub后端组件以提高弹性。

202311月,CloudflareWorkday将中断故障归咎于俄勒冈州的数据中心问题。Cloudflare首席执行官Matthew Prince11月初发生的持续多天的事件表示“抱歉和尴尬”,并指出部分责任在于Flexential运营的俄勒冈州数据中心。112日,Cloudflare的控制平面界面和分析服务发生中断,直至114日。Prince表示,尽管大多数客户在灾难恢复设施上线后未遇到大部分产品问题,但其他服务需要更长时间恢复,并且在完全解决事件之前,使用这些服务的客户可能会遇到问题。他为Cloudflare“相信我们拥有高可用性系统,即使我们的某个核心数据中心提供商发生灾难性故障,也能够阻止这样的中断”的信念表示歉意。Cloudflare承诺消除对核心数据中心的依赖,并转移服务控制平面配置至分布式网络,要求所有产品和功能具备可靠的灾难恢复计划,并对所有核心数据中心进行彻底审核。

Workday报告称,事件持续了3小时,归咎于“俄勒冈州波特兰数据中心的停电,导致部分客户的服务中断”。Workday表示,由于备用电源故障及电力环境不稳定,服务恢复时间比通常要长。

点赞(142)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部