orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。



クラウドは雲の中にあるんじゃない サーバールームで動いているんだ

f:id:orangeitems:20190824085631j:plain

 

AWS障害と物理層の関係

昨日のAWS障害、冷却装置の故障によりサーバーが高温となり自動停止したことが原因であったと報じられていますね。

 

japan.zdnet.com

 Amazon Web Services(AWS)の東京リージョンで8月23日に発生したElastic Compute Cloud(EC2)サービスの障害は、冷却システムの故障により高温化した一部のサーバーがシャットダウンされたことが原因だったという。同日午後9時までにEC2の大部分のサービスが復旧したとしている。

 AWSによると、障害は東京リージョンの一部で使用している複数の冷却システムが故障したことで発生した。これによってEC2サービスのサーバー機器の温度が上昇し、サーバーがシャットダウンされたことで一部のインスタンスやEBSボリュームに影響が生じたとしている。

 

冷却装置。クラウドを利用しているユーザーは最も聞きたくない言葉の一つだと思います。ソフトウェアの問題でも通信の問題でもなく、物理層の問題。クラウドという言葉は2006年に、Google社CEOのエリック・シュミット氏(当時)が言及したことで広がったと言われています。どこにあるかを意識しないがそこにある。雲のような存在。最近はAWSを含めクラウドは社会の信認を得て、物理サーバーの所有を止めてクラウドに持っていくことが最善であると言う風潮は強いです。

しかし、冷却装置、と言った途端に雲が急に晴れ、データセンター、そしてその中のサーバールームやサーバーラックと言った物理層が露出してしまうわけです。

クラウド以前は、企業がデータセンターを使う時は物理層まできちんとケアしていました。利用するデータセンターにわざわざ見学し設備やセキュリティー面まで目で見てチェックして納得して利用していました。また、年に一度は訪問するなどして環境のチェックも怠っていなかったと思います。

クラウドの場合、そもそもデータセンターが非公開です。その反面、たくさんの第三者による認証を受けることによりユーザーは物理層までチェックしなくていい。例えばAWSの場合、下記のページをご覧ください。こんなにたくさんのプログラムがあるのに驚かされます。

 

aws.amazon.com

 

政府もAWSを積極活用すると決めています。今回の問題を受けて、再度リスクチェックを行うはずです。

 

tech.nikkeibp.co.jp

政府は2020年10月に運用を開始する予定の「政府共通プラットフォーム」に米アマゾン・ウェブ・サービスのクラウドサービス「Amazon Web Services(AWS)」を採用する方針であることが分かった。日経 xTECHの取材に複数の政府関係者が明らかにした。

 

クラウドに持っていくと、物理層の問題から解放される。これは幻想です。どんなクラウドもデータセンターの中のサーバールーム、サーバールームのなかのサーバーラックで動いています。これは教訓です。物理層が存在する以上、物理的な問題で停止する可能性はどんなサービスであっても否定できません。

 

コンピュータと熱の関係

私も一度経験があります。

オフィスに出勤すると、社内システムにつながらない。いや、そもそも何だか体験したことのないニオイがする。そして特定の方向から熱風を感じる。その源を探してみたらサーバールームでした。サーバールームの空調が故障して部屋全体がサウナ状態に。異変に気付いた情シス部員がドアを全開にし、扇風機で熱を逃がす。その熱風とニオイがオフィスに流れていたのです。

サーバー機器たちは高熱を原因として自動停止していました。その時知ったのです。サーバー機器は自身が高熱を持っていると判断した場合は自動停止するのだと。ただ高熱をもった機器が百以上ありましたからいくら停止したといっても部屋全体の高熱は収まりません。火事一歩手前と言ったところでしょうか。サーバールームはホコリっぽいので高熱は危険です。

火災、もしくは煙が出ると、否応なく天井からスプリンクラーが水をぶっぱなします。その時はそうはならなかったのですが、もし水がでたらサーバー機器は全部おしまいです。壊れます。水をかけても平気なサーバー機器なんてどこにも存在しないでしょう。

それでもその際、物理サーバーはほとんど壊れなかったので、高熱による自動停止という機能は偉いなあと思ったものです。

この話、ユニークな話かなと思ったら、そうでもないみたいで別の方も違う会社で同じ状況になったことを聴いたことがあります。

他の方のブログにも発見。

 

blog.treedown.net

サーバルームのエアコンを止めるとこうなりますよ、という内容を実際に遭った昔話の形でご報告します。

 

昨日のAWS障害は、この話の延長上にあるということです。冷却システムの故障という物理層では致命的な状況が発生したにも関わらず、リカバリーできたということは物理機器がスマートに自動停止したということです。

 

クラウドに集中することがもろいのではない

最後に今日の日経の記事についてひとこと。

 

www.nikkei.com

米アマゾン・ドット・コムが運営するクラウドサービス「アマゾン・ウェブ・サービス(AWS)」で23日、大規模なシステム障害が発生し、影響は広範囲に及んだ。企業はコスト削減の一環で、自社でサーバーを導入する従来手法からデータセンターをインターネット経由で利用するクラウドにシフトしている。今回の大規模障害はクラウドに集中することのもろさを浮き彫りにした。

 

私はこの記事に反対意見を持っています。

「クラウド集中」がもろいのでは決してありません。

「集中」がもろいのです。

クラウドだってAWSだけではありません。Azure、GCP、IBM Cloud、Oracle Cloud、その他国内勢含めてたくさんサービスがあります。

AWS一社に集中、しかも東京リージョンにだけ集中すれば、同時大規模障害は発生しやすくなるのは自明の理です。だって、結局は同じ物理層の上で動いているのですから。今回一か所のデータセンターで発生したため、別のデータセンターも利用した構成。いわゆる「Multi-AZ(マルチアベイラビリティーゾーン)」構成にすれば問題を免れた可能性は指摘されています。しかし、必ずしもMulti-AZ構成なら問題はないというわけではないようです。

 

blog.hirokiky.org

このブログ記事で 「MultiAZ」にしていたら大丈夫という認識を変えられると嬉しいです (障害起こした人はちゃんとMultiAZにしてなかったんでしょ?という人の認識も変えられると嬉しいです)。

 

やはり、Multi-AZにしようがしまいが、同じクラウドサービスに集中させるとどこかにシングルポイントは存在するのだということを共通認識にしたいです。

昨日の記事でもお伝えしましたが、今年5月に起きたAzureのケースでは一か所のデータセンターではなく世界の複数のデータセンターで動くサービス全体が同時障害を起こしています。

マルチクラウドにすることで、物理層だけではなく運営・運用レベルで分散すること。クラウドだけではなくオンプレミスも活用してリソースを分散すること。

クラウドがもろいのではなく、集中がもろいのだということを主張したいと思います。

 

マルチクラウド時代のリスクマネジメント入門