orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

AWSのUS-EAST-1リージョンの中の1つのAZが停止した件は電源の問題とのこと

f:id:orangeitems:20180601122857j:plain

 

AZの停止(US-EAST-1)

クラウドを使っていると覚悟しないといけない問題だと思います。

クラウド最大手のAWSにて、2016年06月01日(水) 午前6:52(日本時間)に、US-EAST-1のリージョンの中の1つのAZ(Availability Zone)の一部にて電源消失が発生しました。現象は7:22(日本時間)、つまり30分後に復元されたとのことです。

 

www.theregister.co.uk

 

アマゾンのレポート(日本語訳)

以下、AWSのレポートが英語なので、日本語訳しております。

 

■ 2018年06月01日(水) 午前7:13 JST

US-EAST-1地域の単一の可用性ゾーンでいくつかのインスタンスに影響する接続性の問題を調査しています。

 

■ 2018年06月01日(水) 午前7:42 JST

US-EAST-1可用性ゾーンの1つを構成するデータセンターの1つに問題があることが確認できます。これは、データセンター内の物理サーバーの一部、およびネットワークデバイスの一部に影響を与える電源イベントの結果でした。この可用性ゾーンにEC2インスタンスを持つ顧客は、影響を受けるインスタンスへの接続に問題がある可能性があります。私たちは回復を見ており、完全な解決に向けて引き続き努力しています。

 

■ 2018年06月01日(水) 午前8:29 JST

私たちは、影響を受けたインスタンスの大部分の電源を回復しました。完全な回復に向けて引き続き作業しています。

 

■ 2018年06月01日(水) 午前9:36 JST

6月1日午前6時52分 JSTから、わずかな割合のEC2サーバーがUS-EAST-1地域の単一の可用性ゾーンで電力を失いました。その結果、影響を受ける可用性ゾーン内の一部のEBSボリュームで、EC2インスタンスの障害が発生し、パフォーマンスが低下しました。電力は午前7時22分 JSTに復元され、その時点で大多数のインスタンスとボリュームが復旧しました。私たちは残りのインスタンスとボリュームを回復するために取り組んできました。少数の残りのインスタンスおよびボリュームは、ハードウェア上でホストされ、電力の損失によって悪影響を受けました。影響を受けたすべてのインスタンスとボリュームを回復するために引き続き作業を行いますが、即時に回復するために、残りの影響を受けるインスタンスまたはボリュームを交換することをお勧めします。

 

このリージョンは去年も問題が発生

US-EAST-1リージョンと言えば、思い出される去年の障害。

www.itmedia.co.jp

米Amazon.com傘下のAWSは3月2日(米太平洋時間)、2月28日にクラウドストレージサービス「S3」の北バージニアリージョン(US-EAST-1)で起きた大規模なサービス停止の原因と対策を発表した。

 28日午前11時20分ごろ発生したこの問題は復旧までに約4時間かかり、同サービスを利用するIFTTT、Quora、Medium、Imgur、GitHubなど、多数のサービスが影響を受けた。

 

この件は、人為的ミスがトリガーでリージョン全体が4時間止まるという大事件でした。今回は1つのAZだけの問題なので、適切に設計していれば別のAZでシステムが継続動作していると思います。

このUS-EAST-1って、おそらくもっとも古いリージョンだと思います。したがって設備も老朽化しているものと思われ、電源設計なども最新の設備と比べると見劣りしていると思いますし、いわゆる分電盤も相当に傷んでいるのではないか?と思います。

 

分電盤には寿命がある

US-EAST-1は、AWSのサービスイン2006年に利用開始されたとします。構築に1年かかったとしたら2005年から利用開始でしょうか。今年は2018年なので13年ですね。

そして分電盤。分電盤の寿命ってご存知ですか?

f:id:orangeitems:20180601121817p:plain

分電盤にも寿命があります | ■テンパール■|テンパール工業株式会社

 

なんと素敵な記事。13年という記載。なお、データセンターにおいてはだいたい15年周期が常識です。で、放っておくとどうなるか。ショートします。ある日電源が消失します。

もしショートしてしまったら、緊急対応として余っている分電盤に全部差し替えることをするでしょう。

 

まとめ

特にAWSに限った話ではありません。データセンターなりクラウド基盤を10年使ったら警戒したほうがいいと思います。本来は、データセンター側が新しい電源を用意し、それに差し替えるようユーザーに促します。本当にサーバーを運用する側がそこまで作業したかどうかは、クラウドサービスを使っていても全く見えません。

本当にきちんと電源設計したら分電盤も冗長化し、電源を別々の分電盤から取りますが、そこまでやるかどうかは事業者次第です。

また、分電盤ではなく地域ごと停止する場合もあります。これはその国の電力事情も併せて考える必要があります。

Amazon EC2が落雷で障害 InstagramやPinterestがダウン - ITmedia NEWS

今回は30分で復旧し、しかもEBSボリュームに被害が限られたことを考えると私は、分電盤が最も怪しいと思っています。

今回の電源消失の件。AWSの日本のリージョンは2011年解説なのでまだ数年は起こりにくいと思いますが、5年後あたりに警戒したいです。特にAWSは拡張を繰り返しているので電源には非常に負担がかかっていると思います。

他のクラウドも同様ですが、このようなトラブルは起こるものとして想定する必要があると思います。