orangeitems’s diary

40代ITエンジニアが毎日何か書くブログ

障害対応って、どうやったら身に着くんだろうか

f:id:orangeitems:20220201164445j:plain

 

障害対応って、自分ではできる。

それも、かなりの品質でできると思ってる。ハードウェア、通信、仮想基盤、OS、ミドルウェアのレベルまで、幅広く対応してきたのがここに来て生きている。ITの世界は抽象化し過ぎて、それぞれの領域の専門家が存在するのはいいけど、全体を語れる人は実はあまり少ない。大きな企業だと特にそうだろう。分業は悪くはないけど、いざ障害対応になるとどこで何が起こっているかわからないところから始めなければいけない。分業が過ぎるところでは、いや私の場所じゃない、それなら証拠を出せ、みたいな話で時間を消費することもあるらしい。

ただ、問題を切り分けできたら専業の人に任せてもいいんだけど、切り分けするところが肝だ。散々調べた挙句、仮説は間違っていました、では時間ばかり経過してしまう。そもそも、障害対応において原因調査は第一じゃない。復旧こそ第一。そして二度と起きないための対策が第二だ。復旧にためには確実に問題の切り分けが必要で、それには広い知識が必要な反面、浅い知識でも太刀打ちできなかったりする。

いつの間に私はできるようになったのか。振り返ると、サポートエンジニアを若い時にやっていたから、という理由は強い。

 

www.orangeitems.com

 

以前こういう記事を書いたことがあったけれど、結構やっている間は焦りはあった。このまま電話を受けて仕事人生が終わってしまうのでは。結局は飽きてしまって違う職場に行ったのだけど、それはそれで良かった。サポートエンジニア経由で、インフラエンジニアになってみたらこれはとても相性がよかった。インフラの世界では四六時中、何らかのトラブルを抱える。その度ごとに、自分を自分でサポートできる。

ただ、こんな職歴の人はあんまりいない。サポートエンジニアは全体としてはニッチに該当する。見つけてくるわけにもいかない。であればサポートの技術って、実は業界全体に広げていかないといけないノウハウなのだと思う。サポートをやっていたときに、なぜこんな聞き方をしてくるんだろう、と。その上、「やっぱりいいです」と問い合わせを閉じてしまう例も散見された。問い合わせる方もサポートを受けるためのスキルが必要なのだ。

自分で障害対応ができないうちは、サポートに問い合わせるのは有効な手段だが、そんな初歩的なことならば自力で解決してほしいというのも、ベンダーの言い分だろう。最近は問い合わせのフォームに入力していると、勝手にAIがFAQを探してくれて、これ読んでみたら?と言ってくる。そんな時代だ。

きっと障害対応をするためには、こんなスキルが必要なんだと思う。

・サービスを実行するソフトウェアの基本的な知識

・OSの知識

・問題判別を行うための、基本的なプロセスを知っている

・障害発生時の行動について、優先順位を付けられる

・自分では何ともならないときに、エスカレーション先を瞬時に思いつく

・現在の状況を言語化し、誰かにわかりやすく伝えることができる

こうやってまとめていると、スーパーマン的な人物像が浮かび上がってくるが、重要なのは自分の限界を知り誰かに補助を得ることだと思う。下手にいろいろやって、障害の状況がもっと深刻になることは、よくあることだ。

復旧までの最低限の手順を優先し、それが想定外に動かないときは、自分の知識を持って切り分けをつける。長時間かかることがわかったときに、素早くエスカレーションし、いろんな人を短時間に巻き込み、復旧可能性を高めていく必要がある。

 

・・・ってことを、誰かに身に付けさせるって、結構大変なことじゃないかな、と。

障害対応支援士、みたいなジョブがあってもいいぐらいだと思うのだがどうだろうか。