orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

みずほ銀行の障害報告に思う

f:id:orangeitems:20210615000854j:plain

 

みずほ銀行の中間障害報告(2021/4/5付)を読んでの率直な感想です。

 

www.mizuho-fg.co.jp

株式会社みずほフィナンシャルグループ(以下「当社」)およびBKは、BKにて発生したシステム障害につきまして、原因究明を進めており、現時点において認識している課題と、その課題を踏まえた再発防止策の対応状況につきまして、ご報告いたします。

 

まだ最終報告ではないのですが、この資料だけでも学ぶところは多いので必見だと思います。4件の障害を15ページでパワポにまとめるのってなかなかきつい制限です。

 

システム面での再発防止策が6ページにありますが、観点が曖昧なように思いました。

・障害が起きても、影響を最小化するシステム修正の実施

・予兆を見逃さず、障害を起こさない監視システムの整備

・不具合を見逃さないための、リリース前のチェック体制の強化

問題が4件あり、かつインフラ、アプリ、そしてその両方の問題が混在しているため、報告書としては分散している印象です。

インフラで故障が発生するのは仕方がないので、起こった時に早急に対応できるよう保守ベンダー側への運用体制強化を図ったことは読み取れます。

大型の障害が発生した後は、たいてい、監視強化の名のもとにベンダーに増員指令が出ることが多いんですよね。保守人員はSESであることが多いので、残業が増えたり、一時期増員依頼が来たりもします。

でもしばらく経つと、落ち着いた、ということでだいたい強化した体制を緩めることは多いです。そんなに人がいてもやることない、みたいな状況も発生しやすいです。

同じ障害って、よほど現場が腐ってない限り、あまり起きないんですよね。だって対策しますから。たいてい、その対策をすり抜けて次が来ます。そうなると、体制強化したのになんだ、みたいな話にもなりやすいです。

あと、監視強化、ってのも直接障害を減らしてくれるわけではないです。もちろん同類の障害は気づきやすくなるかもしれないですが、やっぱり全然違う観点からやってくることが多いので、実際は即効性がないことが多いです。

なぜなぜ分析的な、現状を深掘りすることの限界って、同種の問題を防ぐことに意識が集中することにあると思います。

例えば潜在的に100あるリスクのうち、4つだけが今回発覚したのかもしれません。で、その4つのことを一生懸命考えます。しかし、将来は残りの96が敵となるのです。

このパワポ、「強化」「見直し」という言葉が多いことに気が付きませんか。

「強化」とは、すでにやることはやっていたけれど、もっとやる。

「見直し」とは、すでにやっていることについて、別のことをやる。

どちらにしても、今の現状を元に修正をする、PDCAタイプの現状分析です。

しかし、私が思うに、問題が頻発するときは、その問題のことだけを見ていたらきっと潜在的なリスクを見逃します。

実は裏には、組織の権力争いや、ベンダーと現場の不仲、責任者と呼ばれる人の不理解や丸投げ。社員の短期の異動で専門性が磨かれなかったり、マイナス査定中心の評価制度により失敗をひた隠しにする社内風土。働き方改革の強化による夜間・土日期間の連絡体制弱体化。テレワーク割合の増加によるコミュニケーション不足。セキュリティーを強化し過ぎて社外にいるときに社内の状況がつかめない。キーマンの退職によるシステムのブラックボックス化や運用手順の形骸化。ベンダー側の保守費用減額による弱体化。

全部想像ですが、実はこう言った背景を読み解いていかないと、重大障害が頻発するロジックの原因までたどり着けないのではないかと思っています。全部違うかもしれませんが、当該障害のことばかり見て、それに対する即効性のありそうなことばかりしていたら、潜在的なリスクに辿りつくことはありません。

ま、外部の報告書には書けはしない内容ですけれども。

幅の広い発言を許す態度で素直に現状を吐露し、ブレーンストーミングレベルから始めて再度あるべき運用を作り上げる。実はそこが一番欠けている可能性を感じるのです。古い会社は結構そうなりがちじゃないかな。成功体験の強い企業はトップダウンで過去の成功体験をトレースしがちになるので、保守的な、防衛的な対応となりがちなんですよね。

 

15日にも、第三者委員会の報告書が出るようですので、公開された読んでみたいと思います。

 

www.chunichi.co.jp

みずほ銀行で相次いだ現金自動預払機(ATM)などのシステム障害について調べていた第三者委員会の報告書の概要が14日、分かった。システム自体に根本的な欠陥はなく、人員配置や設定面で運用が未熟だったことが原因と結論付ける。顧客対応の不十分さが問題を深刻化させたことも指摘する。15日にも報告書を公表する。

 

未熟って、何でしょうね。