通信障害について報告が行われる
ソフトバンク上場会見にて、2018/12/6に発生した通信障害の報告がありましたのでまとめておきます。下記ページからの引用となります。
報告内容
概要
まずは概要から。これは有名な内容だと思います。以下の通りのままです。
経緯
アクティブアクティブで動いていた両系統が・・。
ドカンと全部同時に落ちた、ということですね。
そして、LTEを使っていた携帯電話が一斉に3Gに移ったため、3Gにも被害が拡大。ただ、結果的に3Gサービスがバックアップとして働いたことは間違いありません。
原因
なぜLTE交換機が一斉に障害となったか。これは有名な「証明書期限切れ問題」ですね。
そして予想通り、ソフトバンク(キャリア)側からは証明書が見えず、ファームウェアに埋め込まれていたという展開。この設計ではソフトバンクも対応しようがありません。
ここは面白いところなのですが、1.08にダウングレードするとデジタル証明書でのSSL通信のない仕様になるのですね。これでダウングレードの意味がはっきりしました。
ソフトバンクはちゃんと、問題の1.14導入前に、並行運用期間を設けて動作確認したんだよの図です。
暫定対策
よくまとめられた暫定対策です。網羅性があり、同じ問題での再発はこれでないだろうと受け取れます。また、再発時の障害時間短縮まで踏み込んでいます。
恒久対策
さて、肝心の恒久対策です。
キャリアにも証明書の有効期限確認および証明書更新ができるようにエリクソンに申し入れ、実現しそうですね。また、対応期日も書いてあって十分です。
下記は解説が必要です。今までは、何か異常があったら、何でもかんでも再起動していたそうです。証明書の期限切れごときで再起動してんじゃねえ、という強い意志の表れです。警告を運用者に出して、どう対応するか選択肢をくれよ、ということですね。
ただ、アーキテクチャーに踏み込んでいますので、対応期日まではコミットできないということと解釈します。
最後に、これは最も驚いたのですが、交換機のクラスターをマルチベンダー化するという対策です。全部同じソフトウェア・ハードウェアで動くから、同時障害が起こるんだよ、別のベンダーのものを使って同時障害を防ぎましょうという話です。
報告としては以上となります。報告書の基本に沿った優れた内容だと思います。
恒久対策③、マルチベンダーに驚いたわけ
下記の記事をおぼえていたからです。
ソフトバンクは、全国をカバーする東京センターと大阪センターに配置されている、エリクソン製「パケット交換機」の全台数で異常が発生し、全国のユーザーが影響を受けたと説明している。このことから、少なくともMME周辺についてはシングルベンダー体制だったと思われる。
エリクソンによれば、キャリアによってはマルチベンダー体制を採ることはあり、その場合は、地域でベンダーを分けて構築することが一般的としている。バックアップだけベンダーを変えることは一般的ではないとのことだった。
ところが、今回のソフトバンクの絵は、一つの地域の中でマルチベンダー化しているので、「できるんやないかーい」というツッコミが頭の中に響いたのでした。
ひとまず、報告書や暫定/恒久対応がそろって一安心ですね。
関係者には、「お疲れさまでした。引き続き恒久対策の完結までよろしくお願いします。」といったところです。