Microsoft 经历了一次严重的服务中断,影响了多项 Microsoft 365 服务,包括 Teams 和 Exchange Online,影响了全球用户,其请求是通过受影响的基础设施路由的。该公司已确认,在迅速采取缓解措施后,所有服务现已恢复。
中断主要影响了 Microsoft 的三项核心服务,给全球商业用户带来了广泛的不便。Exchange Online 用户面临最严重的影响,许多人无法完全访问他们的邮箱。
系统管理员遇到了其他挑战,发现自己无法在中断期间设置新的 Exchange Online 邮箱。
Microsoft Teams 用户遇到了严重的协作中断,无法创建基本的群组场景,包括聊天、频道和 Teams。对于远程工作者来说,可能更令人沮丧的是,用户的状态信息变得过时,使同事无法确定可用性,并可能阻碍跨组织的通信工作流程。
中断范围超出了这些主要服务,影响了 Microsoft Purview 和 Microsoft Defender for Office 用户,他们在尝试访问相应门户中的解决方案选项卡和功能时遇到了间歇性身份验证失败。这种与安全相关的影响为依赖这些平台实现合规性和威胁防护的企业客户增加了另一层担忧。
根本原因和 Microsoft 的响应
Microsoft 的调查显示,最近的流量管理更新最初旨在改进服务控制和性能,但事实证明,该更新在实施过程中过于激进。此更新无意中破坏了正常的服务流量模式,从而产生了影响多个服务的最终用户的级联效应。
该公司的响应时间表展示了其事件管理能力。最初,Microsoft 在收到广泛投诉后的 30 分钟内调查了用户报告,并迅速发现了有问题的更改并实施了撤销策略。这家科技巨头证实,他们已经恢复了有问题的更新,并正在积极监控服务恢复。
在整个事件中,Microsoft 与受影响的用户保持定期沟通,提供快速更新,旨在让利益相关者了解进度。他们的遥测系统表明,在采取纠正措施后,大多数受影响的情况都相对较快地恢复过来。
Microsoft 已承认此次中断的严重性,并正在采取措施防止类似事件发生。该公司宣布,他们正在重新评估其流量管理更新测试参数,以确保将来不会引入具有类似影响的更新。
作为其透明度承诺的一部分,Microsoft 已承诺在 2 个工作日内提供初步事件后报告,然后在 5 个工作日内提供全面的最终事件后报告。此文档可能会更深入地了解技术细节和正在实施的其他预防措施。
该事件提醒我们,现代企业对基于云的通信和协作平台存在严重依赖,凸显了强大的基础设施更新测试程序的重要性。
发表评论
您还未登录,请先登录。
登录