orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

ストレージの復旧に時間がかかる理由を憶測する

f:id:orangeitems:20191210122454j:plain

 

なぜ復旧しないのか

こちら、有名なニュースですが・・。

 

tech.nikkeibp.co.jp

2019年12月4日に発生した50自治体のシステム障害は、発生から6日目になる2019年12月9日午前10時の時点でまだ全面復旧に至っていない。原因となった日本電子計算のIaaS「Jip-Base」のシステム障害は2019年12月6日の時点で9日に復旧予定としていたが、新たな不具合が発覚して復旧できていないからだ。

 

こちら、内容を読んでも、新たな不具合って何だろうとなりますよね。

経験に基づいて憶測します。

憶測と書いているぐらいですので、個人の意見の範疇です。

ご注意ください。

 

憶測

この記事を書いている今現在、日本電子計算の企業ホームページにすらつながらないと言うことは、障害が発生したJip-Base上にコーポレートサイトもあるということにほかならないと思います。

最近のレターは親会社のNTTデータのページで公開されています。

 

www.nttdata.com

2019年12月9日
日本電子計算株式会社
日本電子計算株式会社は、2019年12月9日付で、下記のお知らせを発表いたしました。

 

企業のホームページやメールなど、その企業を表現するものと、運用基盤は別にした方がいいというのが持論です。でないと、今回のように問題が起こった時に、ホームページで案内もできず、メールも出せません。インフラ基盤を持っていると、「重大障害が起きるはずがない」という前提で全てを考えてしまいます。起きてしまったら悪夢ですから、前提から外してしまうのです。

人間の心理にはそういう都合のいい思想があって、例えば原子力発電所には大津波が来ないと思って施設を構築していますが実際、数年前に来てしまっています。

あらゆる都合の悪いことすらちゃんと仮定しておいて、そこでリスクを最小にする。つまりフェイルセーフの考え方ですがしっかりしているお堅い会社こそハマりやすいリスクだと思います。

 

さて、現状は以下の通りとあります。

 

 本障害発生後、IaaS サービス「Jip-Base」の全面復旧を目指して全力を挙げて作業を進めてきました。ストレージのファームウェア不具合が引き起こしたハードウェアの故障は修復したものの、その後の動作確認において各種データへのアクセス処理が正しく動作しない事象が判明し、現時点でもその解消に至っておりません。そのため、当初計画の大幅な見直しが必要であると判断しています。

 

この「各種データへのアクセス処理」とは何かというのは何だろうということになると思います。

私の憶測としては、ファイルシステムとしてはマウントできているけれども、DBMS(データベースマネジメントシステム)のデータベース領域が破損してしまい起動しないのではないか・・と思っています。

ハードウェアと付き合っているとよくありがちな話です。ハードディスク自体は破損していません。ストレージ筐体もコントローラも何も壊れていません。ですから冗長化していなかったのか?という議論は無意味です。壊れていないのですから。しかし、その中身(データ)は壊れます。ファイルシステムのインデックスには書き込めたけれどもデータの中身が書き換えられていないと不整合が起こります。不整合のためのチェックディスクなんですが、不整合が起きているファイルを取り除くくらいなもので、最終的にソフトウェアに必要なファイルが無くなってしまうことがあります。

そうなると、バックアップからリストアするしかありません。ではリストア作業にどれくらい時間がかかるのか。簡単にバックアップやリストアと言いますが、量が多ければ多いほど、時間は大量にかかります。

また、リストアできたとしてそれがいつ頃のデータであり、アプリケーションのバッチ処理等で実施したとされる処理はどこまで終わってどこからリトライしなければいけないのか。

こういった状況が複数システムあるとすれば、これは「当初計画の大幅見直し」になるのではないのかなあ・・。と個人の経験からの憶測はここまでです。

 

ストレージを信じない

私自身は何度かのストレージ障害を経験して、「ストレージは信じてはいけない」と深く思っています。どんなに便利な機能があっても飛びつかない。あれは、一時的な入れ物であって、いつ壊れても不思議じゃない。だからバックアップ計画は命だ。バックアップがちゃんと取られているかを確認することが運用の命だ。そう思うようにしています。

どんなに有名なベンダーでも、クラウドサービスでも、世界でレプリケーションされていると言っていても、全部信用ならない。

企業がサービスとして誇っていて、いくらSLA(サービスレベルアグリーメント)で縛っていても信用してはいけない。

それぐらいの存在がストレージだと思っています。

正直言って、RAIDも何もない、単なるハードディスクやSSD、もっと言えばSDカードレベルのほうが壊れないと考えています。ストレージシステムは複雑なものになってしまって、リスクポイントが増えすぎていると私は評価しています。

信じないからこそできる運用設計があると思います。

お金がそこでかかっても、そこには価値があります。

 

追記

記事を書いて一日後、追加情報が出ています。

 

tech.nikkeibp.co.jp

 2019年12月4日に発生した50自治体のシステム障害について2019年12月10日、不具合を起こした日本電子計算がIaaS「Jip-Base」で利用していたのは米デルテクノロジーズ(Dell Technologies)のストレージ装置「Dell EMC Unity 500」であることが分かった。

 

この内容を受けて記事を書きました。

 

www.orangeitems.com