ECS 部署错误导致 Microsoft 365 大规模中断
在一份初步的事件后报告中,微软透露,本周长达 5 小时的 Microsoft 365 全球中断是由错误的企业配置服务 (ECS) 部署引发的,该部署导致了多个地区的级联故障和可用性影响。 ECS 是一个内部中央配置存储库,旨在使 Microsoft 服务能够跨多个服务和功能以及目标服务和功能进行广泛的动态更改,例如每个租户或用户的特定配置。 最初开始时像 Microsoft Teams 的一次小中断,最终 通过还利用 ECS 的 Teams 集成向下游扩展到多个 Microsoft 365 服务 ,包括 Exchange Online、Windows 365 和 Office Online。 因此,全球用户开始报告他们无法使用 Microsoft Teams 和多项 Microsoft 365 服务或功能。 “这个问题影响了用户连接到 Microsoft Teams 桌面、Web 和移动客户端的能力,”该公司在其初步报告中解释道。 “遥测表明,大约 30 万个呼叫受到此事件的影响。由于工作时间与影响窗口重合,亚太 (APAC) 地区受到的影响最大。此外,直接路由和 Skype MFA 服务受到的影响最大。” 根据 Redmond 的报告,该事件于 7 月 21 日星期四凌晨 1:05 UTC 开始,该公司的工程师在 UTC 早上 6:00 之前的五个小时内修复了大部分影响。 但是,在同一天 UTC 下午 1:14 之前,也存在一些孤立的残余影响,与社交媒体上的客户报告相匹配。 最后,该事件影响了尝试使用以下一项或多项 Microsoft 365 服务和功能的用户(所有这些都在一定程度上受到了中断的影响): Exchange Online(延迟发送邮件) Microsoft 365 管理中心(无法访问) 多个服务中的 Microsoft Word(无法加载) Microsoft Forms(无法通过 Teams 使用) Microsoft Graph API(任何依赖此 API 的服务都可能受到影响) Office Online(Microsoft Word 访问问题) SharePoint Online(Microsoft Word 访问问题 Project Online(无法访问) PowerPlatform 和 PowerAutomate(无法使用数据库创建环境) Microsoft 托管桌面中的自动修补程序 Yammer(对 Yammer 飞行的影响) Windows 365(无法配置云电脑) 初步根本原因是 ECS 故障 正如 Redmond 在其事件报告中所述并在开头提到的那样,这次中断背后的初步根本原因是企业配置服务 (ECS) 部署错误。 “ECS 服务中的部署包含一个代码缺陷,该缺陷影响了与利用 ECS 的服务的向后兼容性。最终结果是,对于利用 ECS 的服务,它将向所有合作伙伴返回不正确的配置,”该公司解释说。 “这导致下游服务收到 ‘200’ 状态消息(表明拉取成功),但它实际上包含格式错误的 JSON 对象。 “影响的程度取决于单个 Microsoft 服务如何利用 ECS 提供的格式错误的配置。影响范围从服务崩溃(例如 Teams)到其他服务受到的影响有限甚至没有影响。” 由于此事件,微软表示他们正在努力提高 Microsoft Teams 服务的弹性,以便在未来发生 ECS 故障时故障恢复到缓存的 ECS 配置版本。 他们还投资于额外的故障隔离以限制 ECS 故障的影响并更新监控阈值以更好地识别此类低级故障。 |