障害原因検討はミルクボーイか
うム、確かにな・・。
とこのツイートをみて思いました。
ミルクボーイ話法は障害原因検討時によく使う。
— あだらは (@den_Aurora) January 2, 2020
A:「サーバのメモリ使用量が時間経過とともに増大していきます」
B:「それはメモリリークだなぁ」
A:「でも改修したアプリのソースを見直しましたが、全部ちゃんとdeallocateしてるんですよね。。」
B:「それはメモリリークじゃないなぁ」
続く…
思ったのでちゃんと形にしてみようかと思います。
ネタ
運用マネージャー:
「この前の重大障害の件で、現場が報告書をまとめようとしてるんですけど。」
部長:
「そうなんや。」
運用マネージャー:
「根本原因がわからないらしいんですよ。」
部長:
「障害の原因がわからへんってどうなってんねん。」
運用マネージャー:
「いろいろ聞くんですけど、全然わからないんですよ。」
部長:
「ほんだら俺がね、障害の発生原因一緒に考えてあげるから、どんな特徴言うてたかとか教えてみてよ。」
運用マネージャー:
「あんまりやったことのない作業を緊急対応でやってたって言ってました。」
部長:
「ヒューマンエラーやないかい?」
「その特徴はもう完全にヒューマンエラーやがな。」
「すぐわかったよこんなもん。」
運用マネージャー:
「私もヒューマンエラーと思ってたんですが、現場が言うには、手順書があってその通りやったって言うんですよね。」
部長:
「そりゃヒューマンエラーと違うか!」
「手順書どおりにやってヒューマンエラーでええわけがないもんね。」
「ヒューマンエラーは手順書と違う方法でやるから起こるもんやねん。あれは。」
「ヒューマンエラー側もね、手順書通りにやっているのに原因にされたら荷が重いよあれ。」
「ヒューマンエラーってそういうもんやから。」
「ほなヒューマンエラーちゃうがなそれ。」
「もうちょっと詳しく教えてくれる?」
運用マネージャー:
「なんであんなに、手順を有識者にレビューしてもらうのが必須かってわからんって言うんです。」
部長:
「ヒューマンエラーやないかい!」
「有識者の知識ってめちゃくちゃでかいんやから!」
「でも俺はね、あれは有識者もレビューで指摘することで勝負してるからやと睨んでるのよ。」
「俺の目は騙されへんよ。俺の目騙したら大したもんや。」
「で、あれよう見たらね。有識者のレビューを通した上での手順書になっとんねん!」
「俺はなんでもオミトオシやねんから!」
「ヒューマンエラーやそんなもんは!」
運用マネージャー:
「わからないんですよ、でも。」
部長:
「何がわからへんねん。」
運用マネージャー:
「私もヒューマンエラーだと思ってたんですけど、現場が言うには有識者が作業しても障害になったって言ってました。」
部長:
「ほな、ヒューマンエラーちゃうやないかい!」
「有識者がヒューマンエラーって言ってきたらちゃぶ台ひっくり返すもんね!」
「ヒューマンエラーはね、まだ経験の浅い技術者がやるから話が通んねん!」
「経験の浅いうちに、ちょっとズルしてしまうから、そこが命取りになんねん。」
「そういうカラクリやから!ヒューマンエラーとちゃうがな。」
「もうちょっとなんか言ってなかった?。」
運用マネージャー:
「みんな忙しかったから、一人で作業したらしいです。」
部長:
「ヒューマンエラーやがな。」
「一人で作業。寝不足と体調不良ってのも良く聞くわ。」
「あと印刷ミスってのもあるか。」
「ヒューマンエラーやそんなもん。」
運用マネージャー:
「わからないんです。」
部長:
「なんでわからへんのやそれで。」
運用マネージャー:
「私もヒューマンエラーだと思ったんですけど、現場が言うには、ベンダーのナレッジベースにピッタリの障害事例があるって言うんですよ。」
部長:
「ほなヒューマンエラーちゃうやないか!」
「世界のベンダーのナレッジベースに事例が出るって言うのはすごいことよ。」
「ヒューマンエラーはね、作業を早く終わらせて帰りたいっていう煩悩の塊や!」
「あれ煩悩で作業しとんねん。」
「ヒューマンエラーちゃうがな。もうちょっとなんか言ってなかったか?。」
運用マネージャー:
「ベンダーのお知らせを全然見てなかったらしいです。」
部長:
「ヒューマンエラーや!」
「ベンダーはお知らせしたことで、ユーザー側に全部責任を移管してるんやから!」
「現場側がそういう運用をするなら、俺は動くよ!、もう!」
「ヒューマンエラーやん絶対!」
運用マネージャー:
「わからないんです、でも。」
部長:
「なんでわからへんのこれで。」
運用マネージャー:
「現場が言うには、英語と中国語でしかナレッジベースに掲載されてないっていうんです。」
部長:
「ほなヒューマンエラーちゃうやないかい!」
「日本語になってなかったら、気づかなくても責められないやないかい!」
「保守は日本の会社と結んでるんやから、日本語で伝えてもらわんと困るで!」
「ヒューマンエラーちゃうやないか。もうちょっとなんか言ってなかった?」
運用マネージャー:
「保守契約が一か月前に切れてたらしいです。」
部長:
「ヒューマンエラーやないか!」
「保守切れ見逃しやん!」
「ヒューマンエラーはユーザーの顔を思い浮かべて作業しないから起きんねん!」
「浮かんでくるのは定時上がりで帰って飲む発泡酒のラベルだけ!」
「ヒューマンエラーに決まり!」
運用マネージャー:
「わからないです。」
部長:
「わからへんことない!障害の根本原因はヒューマンエラー!」
運用マネージャー:
「現場が言うにはヒューマンエラーではないって言うてました。」
部長:
「ほなヒューマンエラーちゃうやないか!」
「現場がヒューマンエラーではないと言えばヒューマンエラーちゃうがな!」
運用マネージャー:
「そうなんですよ。」
部長:
「ほんまにわかれへんがな、それどうなってんねん。」
運用マネージャー:
「社長が言うには、キーボードが壊れてたんじゃないかって。」
部長:
「いや、絶対ちゃうやろ!」
「もうええわ。どうもありがとうございました。」
最後に
ほんとによくできたネタです。元ネタのミルクボーイさん、インスピレーションを頂いた@den_Auroraさん、ありがとうございます。
多分、この部長、現場がヒューマンエラーじゃないって言ってくるのを尊重していることを考えると、すごくいい人じゃないかなぁと思います。
人によっちゃあ、作業員に全部責任を被せて、原因分析完了としちゃうケースもありますからね・・。
あと、有識者だからってヒューマンエラーしないってのもないのかなぁと。やるときはやる。でも、有識者ってヒューマンエラーするポイントも詳しいので、なかなかしないと言えばしないので、部長の感覚もあながち間違っていないのかもしれません。
ここの部長みたいになったら嫌なので、早めに関係者集めて、根本の原因分析まで短時間で終わらせた方がいいと、現場サイドとしては思います。つらつら長時間ヒヤリングされるのはつらい・・。そのくせ、あまり障害の原因分析をしっかりやったところで、また次に起こるのは全く違う原因だったりするので、障害とは、運用とは本当に奥が深い・・です。