上周与DNS相关的停电延长了停机时间

Microsoft Azure多因素身份验证(MFA)在上周初发生更长的停电后几天已经出门了两个多小时。

最新的问题意味着,当策略要求MFA(在UTC 14:25和17:08 UTC)周二(11月27日)之间,用户很难签名进入Azure资源,例如Azure Active Directory(例如Azure Active Directory)。

初步指示指向域名系统(DNS)分辨率故障。Microsoft解释说:“工程师发现,较早的DNS问题触发了大量登录请求失败,这导致后端基础架构变得不健康。”

周二的身份验证头痛紧随其后的是更长的时间14小时11月19日。

微软已经发布了验尸在较早的中断中,这是由三个相互联系的问题触发的。问题的纠结对于解释为什么花了这么长时间才能将基于云的系统恢复到正常状态有很长的路要走。

如果需要MFA,Office 365,Azure,Dynamics和其他使用Azure Active Directory进行身份验证的服务将无法登录。

欧洲,亚洲和美洲的企业都受到较小或更大程度的影响。

停机时间中的前两个向量已被确定为MFA前端服务器上的问题,这两者都在推出代码更新的推出中引入,该代码更新始于一些数据中心,大约在出现问题前一周。

最初,该更新正常工作,直到遇到更高的流量为止,这时事情开始失败了。

A latency issue in the MFA frontend’s communication to its cache services started to cause problems when business got brisker, and this fed onto the second problem with the system, a race condition in processing responses from the MFA backend server, to lead onto things going seriously awry.

第三个问题 - 由第二期触发的后端MFA服务器中以前未发现的问题 - 复合问题,意味着整个系统停止正常工作。

Microsoft解释说:“此问题导致MFA后端的流程积累,从而导致后端的资源精疲力尽,此时它无法处理MFA前端的任何进一步请求,同时否则在我们的监控中看起来很健康。”

实用的结果是,身份验证请求未迅速处理或失败,因此用户不得不使用MFA登录基于Azure的系统,从而锁定了。

登录代码通常仅在60-90秒内有效,因此系统的延迟甚至会导致接收代码的用户延迟引起各种问题。

更糟糕的是,微软的运营人员没有明确迹象表明出了什么问题。

微软解释了如何诊断问题和恢复服务的方式,可以在其Azure状态历史页面的更新中找到。

它发誓要在中断之后审查其更新部署和状态监控系统,这一保证在一周后的类似问题后似乎有些放心。

Microsoft的身份验证服务历史上是可靠的。如果发生这种变化,可能会鼓励组织丢弃MFA,以使未来问题的影响造成影响,从而使企业用户更加受到黑客攻击的影响。