orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

データセンター停電時の動作がさくらインターネットの障害報告で理解できる

f:id:orangeitems:20180906105626j:plain

 

北海道震度6強(訂正:震度7)と停電

北海道の大地震はたまたまこの時間に目が覚めてしまったので、リアルタイムでテレビで進行状況を見ていました。今回、地震自体の被害も甚大なのですが、これにより引き起こされた停電によって、北海道全域に影響が及ぶことになってしまったようです。

 

mainichi.jp

北海道電力によると、全道での停電のきっかけとなったのは苫東厚真発電所(厚真町)の発電量低下で、午前6時現在、北海道内すべての約295万戸が停電しているという。また、泊原発(泊村)の非常用ディーゼル発電機は6台あって10日間もつといい、補給用に軽油を手配しているという。道内5カ所の水力発電所は現在復旧した。

 

さくらインターネットのデータセンター一部に影響

この停電の影響で、サーバーのホスティング等を北海道で実施しているさくらインターネットのデータセンターの一部に障害が発生したそうです。

 

support.sakura.ad.jp

発生日時 : 2018年09月06日03時08分 - 2018年09月06日07時44分

影響範囲 : さくらの専用サーバ 石狩第2ゾーンの一部

以下のIPアドレス範囲に含まれるさくらの専用サーバをご利用のお客様

       153.127.106.*
       153.127.107.*
       153.127.108.*
       153.127.109.*
       153.127.110.*
       153.127.140.*
       153.127.141.*

障害内容 : 一部の電源設備において障害が発生しております。
一部お客様サーバーへの接続が行えない状態となっております。
---------------------------------------------------------------------
2018年09月06日

03時42分 : 影響範囲を更新いたしました。引き続き、詳細な状況の確認および復旧作業を続けております
04時10分 : 件名, 影響範囲, 障害内容を更新いたしました。引き続き、復旧作業にあたっております
05時13分 : 影響範囲にIPアドレスを掲載いたしました。引き続き、復旧作業にあたっております。誠に恐れ入りますが、今しばらくお待ちいただけますと幸いです。
05時16分 : 障害内容を更新いたしました。お客様には多大なご迷惑をおかけしていること、お詫び申し上げます。

05時53分 : 現在の状況についてご報告申し上げます。さくらの専用サーバの給電回路を収容している一部のUPSにおきまして、停電に伴う電源切替時に動作異常が発生したことが判明いたしました。この影響により、上記IPアドレスのさくらの専用サーバにつきまして、現在も接続できない状態が継続しております。現在、UPSの復旧作業、およびその他の方法による復旧策の検討を進めております。

07時02分 : UPSの復旧および電源回路の変更による復旧に向けて作業を進めております。ご迷惑をお掛けしておりますこと、お詫び申し上げます。

07時44分 : UPSの機能を回復し、給電を再開いたしました。現在、サービス復旧の確認を進めております

08時04分 : サービスの回復を確認いたしました。長時間に渡りご迷惑をお掛けしましたこと、深くお詫び申し上げます。

 

データセンターにおける自家発電設備への切り替え方法

我々は空気のように電力を使いますが、今回の地震や昨日の台風のように、停電と隣り合わせです。データセンターは電力ありきで動いているのですがその上のサーバーは絶対に電気が24時間途切れなく供給されることを前提として動いています。もし、1秒でも電気供給が途切れたら、サーバーは再起動してしまいます。システムはサーバー一台ではなく複数のソフトウェアで連動して動いていますから、大規模なシステム障害につながってしまいます。

最近のほとんどのデータセンターは、したがって自家発電装置を装備しています。停電時には自家発電装置に切り替えて、こちらに燃料(原油など)を定期的に供給し停電のない環境を保証しようとしています。今回もこの自家発電装置への切り替えにおいて問題が発生したということになります。

記事を書いている2018/9/6 11:00AM現在、さくらインターネット石狩データセンターにおいては自家発電装置での運用が継続しているそうです。

 

support.sakura.ad.jp

発生日時 : 2018年09月06日03時08分 -
影響範囲 : 石狩データセンター収容サービス
影響内容 : 現在、弊社石狩データセンターへの北海道電力による特別高圧送電が
停止(停電)しております。石狩データセンター収容サービスにつきま
しては、自家発電設備により正常に稼働を継続しております。

 

 

さて、それでは、サーバーが電力会社から供給されている電力を利用するためのコンセントにつながっているとします。サーバーは動いています。横に、自家発電装置用のコンセントがあるとします。どうやって差し替えますか?。コンセントを抜いて、新しいコンセントに指しますか?。そうすると電源が落ちてしまいます。ここで登場するのが「UPS(Uninterruptible Power Supply)」です。

無停電電源装置 - Wikipedia

サーバー類は、電力に直接つながっているわけではなく、UPSにまずつながっています。UPSに対して通常は電力会社の電力が接続されています。もし電力会社の電力が停電等で供給されなくなった場合、UPSの中のバッテリー電源が利用されるため、サーバーから見ると電力は供給され続けます。

問題は、UPS自体は、何時間も持たないことです。データセンター全体の電力を何時間も賄えるようなUPSは存在しません。持って数十分でしょう。その間に何をしなければいけないか。データセンターのオペレーターが、自家発電装置をまず起動すること。そのあとにUPSの電源供給を切り替えること。これらを迅速に実施しなければいけません。

なかなかシビアな状態だと思います。人的ミスもありえますし、自家発電装置がうまく動かないかもしれない。今回のように、UPS自体に障害が発生するかもしれない。

実際に停電状態になることは、通常時にはほぼないので、普段は机上の訓練などを行っていることと思います。しかし、それ通り実施したとしても、今回のようにうまく動かないこともある。これが、データセンターの現場における停電時の対応に関する運用の難しさだと思います。

今回のさくらインターネットのケースでは5時間弱で回復したわけですが、データセンター設備のエキスパート含め深夜に緊急出動した結果であろうと思います。通常運用に戻るにはまだ通常電源への切り戻しも含め予断を許さない状況にあろうと思いますが、関係者の奮闘をお祈りします。

 

※この過去記事でさらに理解が進みます。

停電時のデータセンターの対応 – さくらインターネット研究所

 

 

一方で、データセンターはやはり複数持つべきだなと痛感します。台風、地震と、これだけ短期間に大災害が発生すると、シングルデータセンター設計は危険だなと思う次第です。AZ(アベイラビリィティーゾーン)というよりは、海外にバックアップデータセンターを作るなど、どちらかと言えばDR(ディザスターリカバリー)の概念です。日本のデータセンターは半分は関東にあるというデータもあり、たまたま関東が被害を受けていないからまだ静かですが。業界の潮目が変わりそうな今回の件です。

 

追記

通常状態に戻るまでの記事です。

ascii.jp

確かに奇跡と呼んでもいいと思います。日々の訓練や手順・体制の準備の賜物だと思います。関係者の皆様ありがとうございました。

 

 

クラウド&データセンター完全ガイド 2018年春号