orangeitems’s diary

クラウド専任の40代インフラエンジニアが書くブログ。新規事業マネージャー。20世紀末の就職氷河期スタート時にIT業界に文系未経験で入りこみそのまま生き残った人。

「手順書がないと作業できません」をどう乗り越えるか

 

システム運用の現場で、安全に運用するための掟のようなものはたくさんあります。ちゃんと手順書に則って作業しよう。一人で作業しないで、二人で作業すればエラーが止められる。違和感があったら上級者へ連絡・報告しよう。これは、未熟な人が想定していないことをやらないためのブレーキのようなものですね。未熟な人は、オペレーターと言って、操作に特化し、予定されたこと以上のことをやらないように指導されています。

多くの企業の障害報告書にて、このあたりの徹底みたいなものはよく書いてあります。技術者が自由にやり過ぎると人間のやることなので、ヒューマンエラーがある。だから慎重に作業しますということを言いたいのでしょうし、経営者や利用者も、そうだろうね、気を付けてね、ということで納得をしやすいです。

ところがです。現場から実況します。その場にいる全員が、みんなこんな杓子定規なことをしていたらどうなるでしょう。みんなが責任を回避しだします。手順書にないことはできませんと。目の前で何かが起こっているのに、手順がないような話については全て上長へ報告。何が起こっているか確認するためにも手順がいるんです。でも何が起こるかわからないのが障害です。おかしいという状況を確認することもしなければ、原因の調査もせず、ただただ報告するだけ。

オペレーターとしては、これでも許されると思います。そういうルールですから。しかし技術者ならば、手順が無かろうが原因がわからなかろうが、飛び込んで手を動かさなければいけない場面はあるんです。専門家なのですから、いろんな状況を想像しながら当たりを付けて、そして原因を切り分けていく。それらも安全に作業する必要があります。そして、たいてい一人で作業することになります。

安全に作業するための対策群は、予定する作業に関してはとても役に立つ内容です。そして本番運用のうちかなりの割合が予定する作業なので、基本的なルールの存在は現場を助けてくれます。しかし、一部はそうではありません。すぐに対処しなければいけない場合は、ルールを無視しないと先に進めないケースもあります。

この、厳しい現場ルールを絶対と思い込んだ人ばかりで運用を形成すると、どうなると思いますか。ルールを無視できる能力があるとされる有識者に、例外的な作業が全部回ってくるようになります。これが地獄です。リスクの高い仕事や、原因解析から始めないといけないような、非定型な仕事群がどんどんオペレーター的な態度の人からどんどんこぼれるのです。

もし技術者の仕事を初級者にやってもらいたいのなら、定型的な、手順書ベースの仕事をおぼえてもらった後に、頭を切り替えてもらわないといけなくなります。世の中には、手順書が使えない分野の仕事があるんだよ、と。こんな時には、普段のルールとを逸脱してこうしよう。一つ一つ決めて行かないと、きっと動けないでしょう。ルールを逸脱するのって怖いことですから。

以上のように、よくある障害報告書で言うような対策って、実は根本対策になってないのです。最も効果があるのは、技術のある技術者の数を増やすことです。仕組みではなんともならないんです。だって、何が起こるかわからない世界なんですから。

 

www.nikkei.com

KDDIが通信障害対策に今後3年間で500億円を投資することが1日、分かった。人工知能(AI)技術を活用した自動復旧システムの開発や、通信機器をソフトウエアに置き換える「仮想化」技術などを導入する。2日に開く決算会見で発表する見通し。7月の大規模障害を受け、ネットワークの運用体制を抜本的に見直す。

 

障害対策にAIが出てくるバックグラウンドもよくわかるんです。ヒューマンエラーを起こさないあまり、人間がプログラミングされないと動けなくなっていて、逸脱できる技術者の数が限られていて、それでAIを取り入れて対応させよう・・ということです。

この辺りの話(手順書からの逸脱)は、案外誰も語りたがらないと思います。