orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

三菱UFJニコスのシステム障害原因が判明した件について

f:id:orangeitems:20180208203324j:plain

障害原因判明の記事

本日、昨年末に発生した三菱UFJニコスのシステム障害について、原因が判明したとの記事が出ました。

itpro.nikkeibp.co.jp

マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。

 

あれ?、あれれ???

 

去年私が書いた記事が、なんと、的中しておりました。

www.orangeitems.com

(3)なぜか天文学的な確率でハードディスクが複数台同時に壊れる

RAIDという冗長化の仕組みがあるのをお伝えしましたが、この仕組みがあっても、複数のディスクが同時に壊れた場合は、復旧できない可能性があります。ディスクが壊れる頻度は最近だと「まれ」で、壊れないまま利用を終える場合もあります。なのに、天文学的な数字で、同時ディスク障害がおきます。私もここ20年で3回ほど体験したことがあります。

何度ベンダーを問いただしても、天文学的な数字で同時に起こりましたという結論になってしまうので、どんなに冗長化を組んでいても、こういうことが起こることは肝に命じた方がよいでしょう。

私の読みとしては、(3)かなあと思います。

 

ぴったりだ!!

スポンサーリンク

 

感想

システム障害は不幸なことなので、これをもって喜ぶつもりはありません。ですが、やはり自分がやってきた仕事を根拠に、記事をもって推定し考察したことが的中するのは、経験の尊さを知ります。

アラサーぐらいのころ、IT業界で、「SE35歳定年説」というのが流行ったんです。当時はもっとSIerが強くて、そこに派遣・SES契約で常駐できるエンジニアは、35歳を越えると単価が高くなって急に売れなくなるというところから来ています。

私は、私に単価が高くなるから売りにくい的なことを言った自社のドナドナ担当営業に失望して転職をしたのですが、そんな説はちっとも当てはまらないと今になって思います。経験のなせる技は非常に大きいです。経験があると、感覚で、かなり正解に近い仮説を立てられます。この仮説のところから、若手は苦労するのだと思います。どんなに勉強していても、いろいろな経験をしていることには敵わない部分があると思います。若いから安い、だからいい、とか、今の時代はありえないです。100人若い人がいても一人のベテランにかなわないケースなどたくさんあります。

そういう意味では、若手にはいろいろ経験させてあげなければいけない、許容できる失敗をたくさんしてもらい、成長させないといけないなあと思います。

自分でやった方が楽だというときもあるのですが。強いて失敗してでもやらせないと、経験ができないんですね。失敗から学ぶところって大きいですからね・・。