orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

Office365の世界的障害が発生、Azure Active Directoryが原因の模様

f:id:orangeitems:20180406220351j:plain

 

Office365でトラブル

ツイッターのトレンドを見ていたら、Office365という、クラウド関係者なら注目しなければいけないワードがありました。

しかも世界中で起こっている模様で認証の問題であるようです。この記事の際にはOffice365のステータスページに現象発生の旨記載があったようです。

www.standard.co.uk

 

2018/4/6 21:30JSTの状況

今見たら動いていると書かれています。回復しているようですね。

f:id:orangeitems:20180406213047p:plain

https://status.office365.com

 

おそらくAzure Active Directoryの問題

Office365の基盤はAzureを使っています。Azureの障害履歴を見ると記載がありました。

f:id:orangeitems:20180406213420p:plainhttps://azure.microsoft.com/ja-jp/status/history/

 

また、Office 365のオンラインヘルプにもAzure Active Directoryと連携していると明記してあります。

support.office.com

Office 365 では、クラウドベースのユーザー認証サービスである Azure Active Directory を使って、ユーザーを管理します。 

 

日本語訳

Azure Active Directory - 認証エラー - 解決済

障害影響の概要 : 
2018年4月6日の08:30から11:30 UTCの間(注:つまり17:30JSTから20:30JSTの間)に、Azure Active Directoryに依存するリソースを認証しようとすると、東アジアおよびヨーロッパのAzure Active Directory顧客の一部が問題を抱えている可能性があります。ダウンストリームの影響は、顧客が経験したことがあるいくつかのAzureサービスによって報告されました。

バックアップ:新しいコンテナの登録およびバックアップ/リストア操作の失敗。
Storsimple:新しいデバイス登録の失敗とStorsimpleの管理/通信の失敗。
Azure Botサービス:ボットが応答しないと報告する。
Visual Studio Team Services:複数の地域でAADトークンを取得する際の実行時間と失敗の増加。
メディアサービス:認証の失敗。
Azureサイトのリカバリ:新しい登録とVMの複製も失敗する可能性があります。

現時点の根本原因:
エンジニアは、認証要求の処理を担当するバックエンドサービスのインスタンスが不健全になり要求が完了しないことを確認しました。

暫定対応:
エンジニアは影響を受けたバックエンドサービスの復旧を行いました。

次のステップ:
エンジニアは引き続き完全な根本原因を確立するために調査を行い、72時間以内に完全な根本原因の分析を行い公開します。

 

考察

会社全体でOffice365を使っているオフィスは、メールは見れないわOneDriveは使えないわで大変だったかと思います。よくよくAzure ADを調べると、シングルサインオンをも実装して、SalesForceやG Suiteの認証基盤にもなってしまうようですね。

www.atmarkit.co.jp

これだけズブズブに使う設計をしてしまうと、今回のように異常停止したときの設計まで考えておかないと大規模なトラブルに発展してしまいますね。いや、今回もうそのような水準ですかね。これだけ障害報告がトレンド入りしているところを見ると・・。

ツイッターでは、「Office365検討したけど入れなくてよかった」というようなツイートも見かけます。クラウドに関わっている人間としては、「設計次第ですかね・・」と返したくなってはきます。私の感覚だと、ヨーロッパやアジア全体が同時にダウンするようなサービスはやはり使わないほうがいいかな、と思います。障害は必ず発生するのですが、起こるとしてもできるだけ局所化、最小化すべきと思って設計しています。

お客様A、B、Cをクラウドでホスティングしなければいけないとして、障害がAとBとCで決して同時に起こらない設計、といえばいいでしょうか。クラウドのIDも別にして、ネットワークも、ディスクも全部別にします。ロードバランサーやファイアウォールも別です。そうするとコストは高くなるのですが、それで嫌ならオンプレの方がよっぽどいいと思って仕事しています。

クラウドというのは見た目のコストを下げるのではなく、設計・構築のコストが下げた上でより安全で堅牢なシステムが作れる仕組みだと思います。決して「ケチったら」痛い目に合うと思います。

Azure ADは私としては、否定的です。単にWindows仮想マシン入れて、Active Directory入れた方が全然堅牢性は高いと思っています。本番環境は、できるだけ枯れた技術を使うに限る(という経験に基づいた個人的意見)。

 

Office365の認証基盤で使ってるから、Office365使うならしょうがないかのかな、使うしか。また、SSOなんてやらない方がいいと思います。

 

・・ということで、土日この件で出社しなければいけない人もいらっしゃるようでご苦労様です。根本原因が開示されたら追記すると思います。