みずほ銀行システム障害（2021/8/20）ハードウェア障害で話を終わらせてはいけない

f:id:orangeitems:20210820234431j:plain

2021/8/20に発生したみずほ銀行のシステム障害について、記者会見をNHKのサイトにて閲覧しました。

www.itmedia.co.jp

勘定系システム「MINORI」のハードウェア部分で発生したシステム障害により、8月20日朝からみずほ銀行とみずほ信託銀行の店頭窓口で入出金や振り込みが一時できなくなっていた問題で、みずほフィナンシャルグループ（FG）は同日、緊急の会見を開き、MINORIと店舗の事務処理端末をつなぐシステムが故障していたと明らかにした。バックアップも機能しなかったといい、故障原因やバックアップが作動しなかった原因について「調査中」としている。

何かあったら日本国中に注目されてしまうシステムを運用するというのは、それはもう大変なことです。グループCEOや銀行頭取も責められていましたが、トップは「再発防止策を考えます」で逃げられるかもしれないが、銀行窓口や営業店（フロント）には大いに負荷をかけてしまう。しかももう今年に入って5回目ですから、フロントが作り上げてきた信用を都度都度壊してしまう。障害を起こさなくする、というのは一言で言えますが、なぜそれをやらなければいけないかと言うと、全くの信用問題だからだと言えます。

度重なる障害の結果作り上げられた再発防止策。それを実施していた最中に再発してしまう。しかも今回の障害は、ハード障害とのことで、場所は違いますが3月12日に発生した「DBサーバーディスク装置」ということで、そこから5か月経っているのになぜ、これだけ広範な業務影響が出てしまうのかということが、会見中でも記者から何度も質問されていました。

なお、3月12日の障害においては、日立の名前が出されたのですが、今回は非公開とのこと。

jp.reuters.com

日立製作所は５日、みずほ銀行で３月１２日に発生した外貨建て送金遅延について陳謝した。みずほフィナンシャルグループは同日、障害は日立が保有・管理するサーバーとディスク装置が故障ししたために発生し、日立側で万一に備えた早期復旧手順と体制が確立されていなかったなどと指摘した。

前回は、「ベンダー側で手順や体制が確立できていなかった」という結論となりましたが、今回は会見を聴く限りは様相が違いました。

「複雑な壊れ方をした」ということばが何度か出てきました。DBサーバーディスク装置と言う表現は、あたかも物理サーバーのローカルディスクの用にも聞こえますが違うようで、いわゆるストレージサーバーなのだと思います。

このストレージサーバー、どの機種も似た構成ですが、「CPUやメモリー、ファームウェア、ディスクコントローラー」などを乗せたシステムボードを、アクティブ－スタンバイ、もしくはアクティブ－アクティブで、二系統持っています。

そして、ディスクの集合体に対して、二系統がつながりアクセスできるようになっています。

今回は、バックアップ、という言葉も出てきましたので、アクティブ－スタンバイで動作していたのでしょう。アクティブ側が故障を発生したのでスタンバイ側に切り替わろうとしたけれども、切り替わらなかった、いや、切り替わったのだけれど中途半端に切り替わり「複雑な壊れ方をした」、と会見で伺いました。

さて、この話自体は、ベンダー自身が説明したわけでもなく、まだ原因未定のフェーズだったので、話としてはもっと解像度を上げて説明がされると考えます。

3月12日に同様の障害が起きた、ということが気になって、二か月前にみずほより提出された再発防止策をのぞいてみました。

www.mizuho-fg.co.jp

2021 年 3 月 11 日 23 時 39 分、①MINORI の共通基盤に存在するストレージ装置内の通信制御装置が故障したことで、ストレージ装置とサーバの間の通信が遮断され、同サーバ上で稼働する業務システムが停止しました。そのうち、②「統合ファイル授受」（センター集中記帳処理に必要なファイル等の受け渡しを基盤間で行う業務システム）の停止により、センター集中記帳処理が遅延し、これにより、③主に外国為替送金処理が遅延する等の影響が生じました。

エラーを検知後、直ちにストレージ装置の復旧対応を行いましたが、通信制御装置の交換後も接続が回復せず、全サーバ復旧までは 6 時間 41 分、統合ファイル授受の復旧までは 6 時間 59 分を要しました。

「統合ファイル授受」復旧後、センター集中記帳処理が順次再開されましたが、外為システムにおいて適切な復旧（リカバリ）手順が取られず、規定の時限までに処理が完了しませんでした。

www.mizuho-fg.co.jp