orangeitems’s diary

クラウドで働くインフラエンジニアの日々の感想です(ほぼ毎日更新)。

みずほ銀行の障害報告に思う(2)

f:id:orangeitems:20210615151737j:plain

 

三者委員会が調査報告書を公開

みずほ銀行のシステム障害の件、第三者委員会の調査報告書が公開されました。

 

nordot.app

 みずほフィナンシャルグループ(FG)は15日、みずほ銀行で相次いだシステム障害に関する第三者委員会の調査報告書を公表した。システム自体に欠陥はなく、運用する人為的側面に要因があったと強調。有事に自分の責任問題となるリスクを避けるため、積極的に声を上げることをためらいがちな企業風土が根底にあると言及した。

 

具体的には以下で公開されています。

 

www.mizuho-fg.co.jp

 

要旨だけでもご一読されることをお勧めします。

 

 

原因のまとめ

三者、というだけあって、外部視点から分析がされています。

ざっくり、書かれている「原因」をまとめてみました。

 

(システム)

・運用する人為的側面に障害発生の要因があった

・組織内で適切に引継ぎ、共有されていなかった

・気づく機会は幾度もあったが、みずほ銀行では特段の検討もされないまま

・不便や不利益に対する想像力や感度の不足がある

・多数のエラーメッセージの重要な一部がシステム担当部門に電話で伝えられたが的確に受け止めて早期復旧に活かすことができなかった

・立ち会い体制の不備

・システム部門内部の連携不足

・休日の障害発生への対応体制の弱さ

・システム障害を想定した訓練の不足

・顧客に何が現実に起きているのかを把握する観点の不足

・外部ベンダーの初歩的設計ミスの見逃し、チェックの不備

・外部ベンダー管理が不十分、ミスの検知体制不備

・復旧手順の準備不足

・他者とのサービス契約において復旧時間に関する合意の欠如

 

(顧客対応)

・システム復旧を待つ受動的な姿勢

・顧客の不利益を迅速に解消するような組織的な動きに欠ける

・システム側・顧客側で情報収集はするが、連携が不十分

・システム障害の影響に対しての認識の甘さ

・訓練の不備

・休日の備えが薄い

 

(組織全体)

・部署間の情報連携が錯そうし、適切に共有ができない

・障害対応のための臨時組織立ち上げの遅さ

・危機管理体制が機能していない

・状況を見守るような(受動的な)姿勢

・「MINORI」リリース後、人材の再配置の際に安定稼働の観点を軽視したため、システム保守運用管理体制が脆弱に

・積極的に声を上げることでかえって責任問題となるリスク

・自らの持ち場でできる範囲でやったほうが合理的な選択になるという企業風土

 

 

感想

昨日書いたエントリーで記載した想像に近い原因分析となっており、こういった話を内部の自浄作用で改めるのは相当な手術をしないと無理なのは良く知るところです。

日本IBMに助けてもらうようですが・・。

 

www.jiji.com

 みずほフィナンシャルグループ(FG)が、システム部門の責任者の補佐役に、日本IBM幹部を起用する方向で調整していることが11日、分かった。最高情報責任者(CIO)補佐に迎える。傘下のみずほ銀行で相次いだシステム障害の再発防止に向け、外部の専門家の知見を生かして早期に同部門の立て直しを図る。

 

「べき」論でどこまで組織が変われるのか。

去年「半沢直樹」の第二部が放送されましたが、組織風土をひっくり返すと、血が流れると言っても過言ではありません。

小さな企業においては、人を全員追い出し新しい組織として出直した方が手っ取り早い、という経験もあります。

壊して作り直すより、新しく作った方が手っ取り早い。

「強化」「見直し」で、組織が立ち直ったことを見たことがないです。

今回挙げられた原因については、システム運用に携わる人は典型的な事例として頭に入れておくべきでしょう。IT業界がいくらかっこつけたところで、システム運用の品質は人間によって決まるのです。

どんなにハードウェアやソフトウェアが進化しても、自動化が進んでも、人間がだらしなければ正しく動いてくれません。

企業風土がシステム障害を引き起こす。これは大事な視点です。