orangeitems’s diary

クラウド専任の40代インフラエンジニアが書くブログ。新規事業マネージャー。20世紀末の就職氷河期スタート時にIT業界に文系未経験で入りこみそのまま生き残った人。

データセンターが熱くなるとこうなる

 

ロンドンが猛暑でえらいこっちゃ、らしいです。

 

www.itmedia.co.jp

 Google Cloudの欧州リージョンの一部(europe-west2)で障害が発生している。ロンドンにあるデータセンターの1つで、7月20日午前2時13分ごろ(日本時間、以下同)から、冷却関連のトラブルが起きているという。問題は一部改善しているものの、午前10時時点で解消はしていない。

 

サーバーがたくさんある部屋がサーバールーム。サーバールームがたくさんある建物がデータセンター。IT企業に働く人でも、最近はデータセンター内に立ち寄る人はごく一部となっています。クラウドを利用すれば、Webページからマウスをクリックしていくだけで、データセンター内のサーバーが利用できる時代です。

まるで利用者から見ると、雲の中にコンピューターがあるようなのでクラウドと呼ばれていますが、現実は、ちゃんと建物の中にあり、物理回線がつながっています。

あまり立ち入ることがないからこそ、熱でダウン、と言われても何がなんだかわからないかもしれません。

サーバールーム自体は、何らかの方法で、サーバーが出す熱を放出し、冷却するようになっています。いかなる季節であってもサーバールーム内の温度は一定、目安としては20度になるようになっています。

サーバールームの中で長時間作業する人は知っています。部屋の中に空調が回り続けるので、体感温度はもっと寒いです。真夏の暑いときでも、厚着をしてデータセンターに入館する人は現実をよくわかっています。真冬のコートを着て入る人もいます。その上、窓がないことが普通で電気を消せば、サーバーのLEDランプがちかちか光るだけです。ぼんやりしていると、今何時だかわからなくなってきます。私も、20時間くらいぶっつづけで仕事をしたときがありますが、昼に入って外に出たら昼で、どっと疲れが降りてきたのを思い出しました。

 

さて、そんな人間に優しくないデータセンターですが、この温度調整が何らかの理由で異常となった場合どうなるか。サーバールーム自体が熱地獄になります。サウナのようなものです。

サーバーですが、熱がどんどん上がるとどうなるかご存じでしょうか。燃えるまで処理を続けるのでしょうか。違います。サーバーの基盤にて温度を測っており、異常な温度となった場合は電源ごと落とします。

したがって、クラウドサービスの場合は、たくさんのサーバーが関わり合って動作していますので、無差別にサーバーがストンストン停止していって、リモートで監視している人は何事じゃ、となります。

で、サーバールームに行こうとした人が異常に気が付きます。サーバールームに付いたときに気が付くのではなく、もう、通路の時点でおかしいです。変なにおいがします。こげたような、人間が吸ってはいけないような。そして、扉からもう熱い場合がほとんどです。

前述の通りサーバーはどんどん無差別に停止しているので、人間が近づけないほどではないですが、それでも熱が充満していて、そのまま電源を復旧することは無理です。故障の規模にもよりますが、応急手当として扇風機を持ってくることがあります。とりあえず風で逃がすのです。

ユーザーは、「何やってるんだ復旧はまだか」と騒くのですが、データセンターがこんな様子であることを、クラウドベンダーが知らされるのにもタイムラグがあります。こうなると冗長化も何もあったものではありません。何せ無差別に電源が落ちていますから。まずは、空調周りの復旧と、サーバールームの温度が下がることが重要です。その後電源をオンにしますが、次は、無影響確認。だいたい熱が上がるときに機械は壊れますし、電源の停止のされ方も乱暴なので、このあたりはサービス復旧時間とのせめぎ合いになります。ハードウェアがオンになったところで、今度はソフトウェア上で、サービスを起動したりなんだりと、まぁ、大変です。

ということが、きっとロンドンで起きているんだろうな・・と。

なんでしょう、気象変動の影響なんでしょうか。想像できるだけにしんどい話です。