運用監視の話
大昔いた現場で、運用ルームがあって24時間オペレーターが常駐している、それはそれはすごいデータセンターがありました。そこでは合計100以上のシステムを預かっていて、監視サーバーからのアラートを受信しディスプレイに表示するようになっていました。複数のシステムをたばねて監視システムを作るのが主ですが、それでも顧客の都合やら組織のルールやらで、監視システムは20くらいあったように見えます。単純に言ってディスプレイが20くらい並びます。
で、20も並んでいるとなかなか荘厳で、監視アラートがどんどん飛んできます。そして並列に対応しなければいけないのですが確認漏れがあるといけないので、パトランプまで用意しているシステムもあります。アラートの優先度によって光ります。
何だか近未来的だったその場所も、今考えればカオスなことが起きていました。アラート全部をエクセルのファイルにまとめて、そしてそれに対して原因・対策まで記載しクローズするなんて言う、ITIL的な模範的な運用をやっていらっしゃいました。
そのExcelの表を紙に印刷して、運用リーダーが理解。ミーティングを開催。そのうえで上席に説明して承認、なんてフローもやっていらっしゃいました。
運用部署においては、監視アラートこそが命。監視アラートの内容は全て確認し、障害を未然に防ぐ。素晴らしいことです。
・・・と、現場に入って運用ルームを見まわし、これは素晴らしいなと初めは思ったのですが、一緒に仕事をするうちに違和感を感じてきました。
どう見ても、一分間に十数個のアラートが絶え間なく出ていて、これを管理できているとは思えない。
監視システムは優秀なので、何から何までアラートを報告します。特にSNMPメッセージが多すぎる。
どうやって管理しているのかオペレーターに聞いたところ、「ここにこういう文字列があったら無視していいって言われてます」と言う答えが返ってきました。
どうも人力で監視アラートをチェックし、危険なアラートを判断しているようです。数分おきに、向こうの机からアラートを表示しているディスプレイの前に座り、確認作業をしていました。
そうか、これが仕事なのか。
違和感の正体はこれで、ITの現場なのに、人がたくさんのメッセージから重要なものを選択して判断する、ということをやっていたようです。
その現場では、たくさんのシステムのたくさんのアラートを、意味を見て判断し、これはいつも出ているものじゃない!って大騒ぎできる人が有能だとされていたように思います。
そして、ある日、事件が起こります。
事件
ある日、大障害が起きました。
で、大障害になる前に、監視アラートは出ていなかったのかという話になりました。
実際、予兆のメッセージはありました。
しかし、オペレーターはそれを見逃していましたが、その理由は「無視していいと思った」でした。確かにいつも無視するメッセージのキーワードを含んでいたのです。
結局、人間に判断させる部分を与えてしまうと、このように人間側のエラーを誘発してしまいます。
しばらく時間がたったある日、現場につくととあるキャンペーンが始まっていました。
「障害アラートメッセージ撲滅キャンペーン」
そもそも無駄なアラートが入ってきて、それを人力で無視するから、問題が起こるのだと。どうせ何もしないんだったら、そのアラートをシステム側で出さないように調整しなさい、と。
で、しばらく、障害アラートを出さなくするような本番作業が続き、その結果アラートの数は減っていきました。
まとめ
この話でご理解頂きたいのは、監視アラートについて、何の行動も伴わない場合は、存在価値がないということです。
「人力で無視対応」は最もひどい対応です。
必要な情報が、無視しなければいけない情報に紛れてしまい、重要な情報を見逃してしまいます。
ヒントは、アラートが出た時にどう考え、次回どうすべきかという反省です。
反省の結果、「何もしなくていいね」となるならば、そのアラート、不要です。
長々と何を言っているかと言うと、「東京アラート」の話です。
もはや、人々が、
・東京アラートが出ていたら「こうする」
・東京アラートが出ていなかったら「こうする」
という行動基準があるように見受けられません。気を付ける、ぐらいの内容にとどまっています。行動は出ていようが出ていまいが変わりません。
こんな「無視してよいアラート」によって、本当に気を付けるべきアラートを見失ってしまいます。
また、行政からのアラートを無視する、という行動様式を与えてしまっています。
ぜひ、アラートというからには、行動を伴うアラートだけにしてほしいな、そう思います。