orangeitems’s diary

クラウドで働くエンジニアの日々の感想です(ほぼ毎日更新)。

ソフトバンク通信障害に関する報告内容、および感想まとめ

f:id:orangeitems:20181220022533j:plain

 

通信障害について報告が行われる

ソフトバンク上場会見にて、2018/12/6に発生した通信障害の報告がありましたのでまとめておきます。下記ページからの引用となります。

 

www.softbank.jp

 

報告内容

概要

まずは概要から。これは有名な内容だと思います。以下の通りのままです。

f:id:orangeitems:20181220014200j:plain

 

経緯

アクティブアクティブで動いていた両系統が・・。

f:id:orangeitems:20181220014702p:plain

 

 

ドカンと全部同時に落ちた、ということですね。

f:id:orangeitems:20181220014820j:plain

 

 

そして、LTEを使っていた携帯電話が一斉に3Gに移ったため、3Gにも被害が拡大。ただ、結果的に3Gサービスがバックアップとして働いたことは間違いありません。

f:id:orangeitems:20181220014928j:plain

 

 

原因

なぜLTE交換機が一斉に障害となったか。これは有名な「証明書期限切れ問題」ですね。

f:id:orangeitems:20181220015255j:plain

 

 

そして予想通り、ソフトバンク(キャリア)側からは証明書が見えず、ファームウェアに埋め込まれていたという展開。この設計ではソフトバンクも対応しようがありません。

f:id:orangeitems:20181220015516p:plain

 

 

ここは面白いところなのですが、1.08にダウングレードするとデジタル証明書でのSSL通信のない仕様になるのですね。これでダウングレードの意味がはっきりしました。

f:id:orangeitems:20181220015957j:plain

 

 

ソフトバンクはちゃんと、問題の1.14導入前に、並行運用期間を設けて動作確認したんだよの図です。

f:id:orangeitems:20181220020256j:plain

 

暫定対策

よくまとめられた暫定対策です。網羅性があり、同じ問題での再発はこれでないだろうと受け取れます。また、再発時の障害時間短縮まで踏み込んでいます。

f:id:orangeitems:20181220020503p:plain

 

恒久対策

さて、肝心の恒久対策です。

キャリアにも証明書の有効期限確認および証明書更新ができるようにエリクソンに申し入れ、実現しそうですね。また、対応期日も書いてあって十分です。

f:id:orangeitems:20181220020719j:plain

 

 

 

下記は解説が必要です。今までは、何か異常があったら、何でもかんでも再起動していたそうです。証明書の期限切れごときで再起動してんじゃねえ、という強い意志の表れです。警告を運用者に出して、どう対応するか選択肢をくれよ、ということですね。

ただ、アーキテクチャーに踏み込んでいますので、対応期日まではコミットできないということと解釈します。

f:id:orangeitems:20181220021010j:plain

 

 

最後に、これは最も驚いたのですが、交換機のクラスターをマルチベンダー化するという対策です。全部同じソフトウェア・ハードウェアで動くから、同時障害が起こるんだよ、別のベンダーのものを使って同時障害を防ぎましょうという話です。

f:id:orangeitems:20181220021429j:plain

 

報告としては以上となります。報告書の基本に沿った優れた内容だと思います。

 

恒久対策③、マルチベンダーに驚いたわけ

下記の記事をおぼえていたからです。

 

k-tai.watch.impress.co.jp

 

ソフトバンクは、全国をカバーする東京センターと大阪センターに配置されている、エリクソン製「パケット交換機」の全台数で異常が発生し、全国のユーザーが影響を受けたと説明している。このことから、少なくともMME周辺についてはシングルベンダー体制だったと思われる。

 エリクソンによれば、キャリアによってはマルチベンダー体制を採ることはあり、その場合は、地域でベンダーを分けて構築することが一般的としている。バックアップだけベンダーを変えることは一般的ではないとのことだった。

 

ところが、今回のソフトバンクの絵は、一つの地域の中でマルチベンダー化しているので、「できるんやないかーい」というツッコミが頭の中に響いたのでした。

 

ひとまず、報告書や暫定/恒久対応がそろって一安心ですね。

関係者には、「お疲れさまでした。引き続き恒久対策の完結までよろしくお願いします。」といったところです。