orangeitems’s diary

クラウド専任の40代インフラエンジニアが書くブログ。新規事業マネージャー。20世紀末の就職氷河期スタート時にIT業界に文系未経験で入りこみそのまま生き残った人。

システム運用エンジニアのつらさとやりがい

f:id:orangeitems:20211231164526j:plain

 

2021年最後の話題がシステム運用の話というのは、まあこの仕事、24時間365日、どこにいようが何をしてようが逃げられないんだよという裏返しでもあります。

 

 

たくさんの人が同じことを感じているんだな、と少し勇気をもらいました。

最近はシステム障害に対して企業も顧客の目も厳しく、何かある度にその失敗について、いろいろ深掘りされます。

作業を行うシステム運用エンジニアは、常日頃いろいろなことを本番システムに対して実施しなければいけません。情報取得するだけ。新規に機能を追加する。もしくは設定変更をする。もしくは機能の削除を行う。いずれにしても危険が伴います。システムとは何もしないのが一番安全なのは、経験値を持つ人なら誰しも理解しているところです。

その緊張の中、何度も何度も、作業を成功させています。失敗するのが明らか、例えば経験不足、健康ではない、私生活に問題を抱えていると言った、何らかの問題が予見されるような人は基本的には作業自体を任せられません。

かつ、いきなり作業を行うことはなく、手順書を事前に作り、有識者がレビューをし、不安な点を除きます。その時にどんな作業体制を構築し安全に作業するかも事前に打ち合わせておきます。

作業内容についてのリスクも洗い出します。この作業によってどんなメリットがあるかを明確にした上で、失敗したら何が起きるかも事前に想定しておくのが通常でしょう。

そして実際に作業する際は、重要システムであれば二人体制で実施します。作業者のうっかりを確認者(現場によっては再鑑者とも言う)が監督し、ケアレスミスを防ぎます。

とまあ、これが本番作業の大雑把な流れですが、何かシステム障害が起こると、ルールを守っていたのかを全部洗いだされます。失敗を起点として、それまでに何をやっておけば防げたのか。なぜそれをやっていなかったのか。そしてたいてい、その再発防止策が現場のルール化され、ルールが追加されることによって、関係者が安心するようになります。

ではルールを設定すればシステム障害が起きないかと言うと、そんなことは全然なくて、むしろルールを設定し過ぎると、ルールを把握することの難易度がどんどん上がります。多すぎるルールはむしろモラルハザードを引き起こしがちです。日本の法律ですら多すぎて、全部を把握しているのは弁護士や検察官、裁判官などしかいないのではないでしょうか。結局ルールとは、何か起きた時に罰するには機能しますが、人の行動を制御することはできないんですね。

もともとの障害対策に関しても問題があります。いつも失敗ばかりを取り上げます。失敗行動を分析します。もっと言えば失敗しない現場がたまたまあったとして、その現場の作業員は何も学べなくなります。失敗は教材たりえますが、失敗だけからしか学べないのであれば、失敗できないシステム運用を達成してしまうと学びがおきないのです。

実は、成功していることが価値なのです。作業が成功したということについて、もっと人々は注目しなければいけません。システムが正常に動き続けていることの裏側には、システム運用エンジニアのたくさんの工夫が詰まっています。ところが、ユーザーも経営者もシステム運用で障害がないのが当たり前と思っている。しかも何も起きないと何も仕事をしていないと思っている。だから障害が少なく工数が発生しない運用の現場においては、人員削減がセットで付いてきます。

これ、本当におかしいんです。システム運用における障害ゼロは、相当に価値が高いはずなのに、簡単に人を剥がそうとする。何もしてないでしょう、それなら工数が無駄。もっと別の現場で働いてくれ、そこから始まるストーリーは悲劇でしかありません。

(と、ここまで書いた時点で、ちょっとしたトラブル対応が発生。完了しましたが・・、この手の話をしているとあるあるですね・・・。対応は完了。)

ブログ書いてたからパソコンの前にいて、だからこそすぐ対応したのですが、こういう瞬発力って、人によるんですよね。やる人に仕事が偏っちゃう。不公平だなと思いつつもう10年くらいこんな感じです。

で、こうやって作業して無事に終わらせるのですが、会社のほとんどの人たちにはこの作業のことが誰にも伝わらない。これが実は運用力を形作る根の部分だったりします。

ホスピタリティーという言葉が一番当てはまるのですが、実はこれが一番あるのはマネージャーだったりして、どうやったらメンバーが主体的に参加してくれるか、については頭を悩ましています。

多分、上から下まで誰もこのホスピタリティーがない状態だと、ほんと運用品質は落ちます。あの会社には、緊急で連絡しても誰も出やしない。出たと思ったら担当が違うからって言って対応してくれない。いつになるかわからない。ああ。

ま、こんな状況に、何も文句を言わず、怒らず、穏やかで誰も責めず、たくさん隠れた仕事を自ら主体的に行い、そして平和な世界を作る。誰もそれが隠れた努力によるものとは思わず、システム運用なんて余計なことをせずルールを守れば誰でもできるでしょ。手順書あるんでしょ。そう、これがシステム運用の現在地だと思います。今年もこうやって暮れていくことを考えると、この分野での技術革新は来年に持ち越しだな、と。なんでコンピューターの仕事をやっているのにコンピューターはこの惨状を助けてくれないんだろう、なんて思いは誰にも言いませんので、このブログだけにしまっておきます。やれやれ。2022年、カモン。