orangeitems’s diary

クラウドではたらくエンジニアの日々の感想です。

「日本ユニシスと日立、機械学習を用いた運用自動化の共同検証を実施」を見て思うこと

f:id:orangeitems:20180405172332j:plain

 

機械学習と運用自動化

インフラ系のエンジニアは注目の記事だと思います。

cloud.watch.impress.co.jp

日本ユニシス株式会社と株式会社日立製作所(以下、日立)は、システム運用において、複雑かつ高度な判断が求められる非定型業務の自動化に向け、日本ユニシスが運用する金融機関の基幹システムの本番運用環境上で、AIを活用した共同検証を4月より開始した。

 タイトルは機械学習とあり、記事冒頭にはAIとありますが、これは機械学習であってAIではないと思います。記事をよく読むとエンジニアを呼び出す必要があるかどうかを、JP1のイベントメッセージと運用手順書を元に判断するとのことです。

それ以上はないので、イベントメッセージから自動で構成資料を読んで、知見から、非定型な作業を自動的にやりだすようなものではありません。そんなものができたら商売あがったりだなあ・・。

スポンサーリンク

 

このシステムの詳しい仕組み

以下、クラウドWATCHから引用しております。

 

f:id:orangeitems:20180405172926p:plain
https://cloud.watch.impress.co.jp/img/clw/docs/1115/482/html/02_o.jpg.html

左の図を見る限り、オペレーターもエンジニアも仕事は変わることはなく、まずはフィードバックをするだけでこれを共同検証と呼んでいます。この限りにおいてはオペレーターの仕事が増えます。JP1のイベント1行1行に対して、呼び出したか呼び出していないかをクリックしていくのだと思います。

結果として学習が十分に完了したら、今後は機械学習の結果から新規イベントについて判断し、オペレーターかエンジニアを呼び出すというふうに書いてありますね。

 

思うこと

不要な監視メッセージ出すぎ問題

監視メッセージは基本的に「出すぎ」です。大規模システムでたくさんの人間がかかわっているシステムであればあるほど、監視メッセージがたくさん出る傾向にあります。これはそのメッセージを消すためには、関係者の同意が必要であることから、

「運用上無視しといてください」

という謎のコマンドがオペレーターに投げかけられがちであるためだと思います。

「無視すると見えなくなるんで出すだけ出して、出ても無視していいです」

と優しく言うエンジニアもいますが、内容としては全然優しくありません。無視していいメッセージと無視してはいけないメッセージが折り重なって、オペレーターもかなり疲弊してしまいます。大量の無視メッセージの中に、1つだけ、要対応メッセージが隠れていたりするとオペレーターが責められることになります。

現場によっては、監視メッセージに対して1つ1つ完了コメントを書いていかなければなかったりして、生産性をかなり落としている要因にもなっています。

だから、こんなシステムが生まれるんですね。無視していいかどうかを機械学習。オペレーターの負荷は軽減されますね、確かに。ただ根本としては、

「対応不要なメッセージなんて初めから出さなければいいのに」

と思うのです。右の図に「対処不要→終了」っていうフローがあるのですが、そもそもそのメッセージを出さないようにすればいいんじゃないか、こういう活動を「監視不要メッセージ撲滅運動」みたいな形で運用部門が開発部門に反旗を翻して突きつけるときがありますし、ありました。

そういう運動では立ちいかないから、システム(お金)で解決しようというのか、とこの記事を初めに見て思った感想です。

 

オペレーターのスキルが育たなくなる

もう1つ思ったことです。右の図は、オペレーターを素通りしてエンジニアに行くようなフローとなっていますが、こんなことをやると、オペレーターは一連のシステム変更わからなくなりますね。おそらく、エスカレーションはすべてオペレーターに集約しつつ、エスカレーションに要エンジニア対応なのか、要オペレーションなのかのフラグを付けてワークフローを回せばいいのにと思いました。

基本的にオペレーターは複数のシステムを浅く広く見て24時間シフトを組み、エンジニアは特定システムにひもづいて昼間働くケースが、大規模システムの現場では多いと思います。オペレーターはシステムに起こったいろいろなことをリアルタイムに知っていますので、システムの詳細は知らなくても履歴管理をしてくれています。この図を見て、ああオペレーターって手順書通りやる人としか思われてないのかなあと思ってしまいました。こんな扱いをすると、オペレーターのスキルは育たないよなあと思いました。

 

まとめ

監視が最適化されているシステムなら、こんなシステムはいらないはずです。機械学習をしなければいけないほど複雑な運用設計にしないよう、構築時にもっと頭をひねるべきでそこにお金をかけたいなあと率直に思いました。

まあ、日立や日本ユニシスの現場(特に金融系)は監視業務で増えるシステムから出る大量の監視メッセージに疲弊しているのかなあと。そして日本の人口構成上、人手不足が見込まれていてまずいので、なんとか機械学習で力業をもって解決しようという意思が見えたのですが・・。