piyolog

piyokangoの備忘録です。セキュリティの出来事を中心にまとめています。このサイトはGoogle Analyticsを利用しています。

Office 365のメール受信障害についてまとめてみた

2019年11月19日お昼頃からMicrosoft Office 365で提供されるExchange Onlineでシステム障害が発生し、メールが届かない、届くまで時間がかかるといった症状が発生しました。この障害は同日夜までに復旧しています。ここでは関連する情報をまとめます。

メール遅延が発生

  • システム障害は2019年11月19日10時40分から20時50分頃までに発生。
  • 影響を受けたのはオーストラリア、日本、インド3か国の一部ユーザー。*1
  • 次に該当するメールで受信ができない、遅延する等の症状が発生した。
    • Office 365外部から受信したメール
    • ファイルが添付された組織内より受信したメール
  • 影響を受けたメールはキューに入っており、復旧次第正常に配信される見込み。

スパム対策更新の影響を受けた可能性

  • スパム対策機能の更新が行われており、この影響を受けた可能性があると発表。
  • 初期兆候よりDNSを調査したところ、特定の更新によりメールフローへ予想していない影響が及んだことが判明した。
  • TwitterではMX指定された幾つかのOffice 365 MTAに接続ができないといった報告もあった。
事後の対応
  • 問題となったアップデートのロールバックを行い、サービスを復旧した。
  • Microsoftは影響を受けたシステムのパフォーマンスを分析し、再発を防止すると説明。
  • 5営業日(来週月曜日まで)以内にインシデントレポートが公開される予定。

Microsoftの情報公開

  • 今回の障害は「EX196121」として採番されている。
  • Office 365の稼働状況を知らせるTwitterアカウントや管理者向けポータルで障害情報を発信していた。

  • Office 365の管理者向けには「サービス正常性」の機能で情報を10回*2にわたり公開。

f:id:piyokango:20191120060212p:plain
管理者ポータルで確認できる情報
11月20日6時現在、掲載されている最新のメッセージは次のもの

Title: Problems receiving mail

User Impact: Users may not have received emails sent from external users.

More info: Users that were receiving emails from external users may have experienced delays. Additionally, we’ve also confirmed that delivery of emails with attachments sent to internal endpoints may have been delayed. During this time, mail will have been queued by the send and is expected to be delivered normally once the situation is resolved.

Final status: We've rolled back the change and can confirm that service is restored.

Scope of impact: This issue could affect any mail user capable of receiving mail from external users, or internal mail with included attachments.

Start time: Tuesday, November 19, 2019, 10:40 AM (1:40 AM UTC)

End time: Tuesday, November 19, 2019, 8:50 PM (11:50 AM UTC)

Preliminary root cause: A configuration change to our infrastructure caused unexpected impact to mail flow.

Next steps:

  • We're analyzing performance data and trends on the affected systems to help prevent this problem from happening again.
  • We're reviewing our deployment procedures to help prevent similar problems in the future.

We'll publish a post-incident report within five business days.

更新履歴

  • 2019年11月20日 AM 新規作成