orangeitems’s diary

クラウドで働くエンジニアの日々の感想です(ほぼ毎日更新)。

AWS韓国で11月に84分の間、大規模なネットワーク障害が発生し複数のサイトが停止していた

f:id:orangeitems:20181220225527j:plain

 

AWS韓国でのトラブル

パブリッククラウド最大手のAWSは、社会インフラとして無停止を宿命づけられているサービスの一つですが、なんと先月の11月22日に84分間、ネットワーク障害が発生していたことをアメリカのZDNetを見て知りました。AWS上の多くのサービスがシステム停止していたとのことです。

 

www.zdnet.com

AWSは先月のソウルでのネットワーク障害の影響を受けた次の月間請求書で、10%の払い戻しを行うと発表した。

同社は11月22日に1時間のネットワーク障害が発生し、主要なオンラインショッピングモールや仮想通貨取引所サービスを停止した。AWSは、84分間続いたこのエラーは、ソウルのいくつかの地域でのDNSサーバのエラーが原因だとしている。影響を受けた人は自動的に翌月の請求書に払い戻される。AWSは顧客のセキュリティとデータが損なわれていないことを強調した。

ネットワーク障害に対する遅れた最初の対応と、払い戻しの発表の20日遅れが、一部の顧客を怒らせた。

AWSは価格競争力のあるサービスのために韓国企業によって広く使用されている。同国最大の大企業であるサムスン(Samsung)と現代(Hyundai)は、海外での運用にAWSサービスを使用しており、地元企業もクラウドベンダーのサービスをローカル業務目的で使用し始めている。

 

さすがに日本語でも、どこかで報道があるだろうと思い、行き当たりました。

「災害発生しても問題ない」というアマゾンのクラウドサービス、韓国で停止

クラウド世界1位のアマゾンウェブサービス(AWS)のクラウドサービスを利用する韓国国内企業のインターネットサービスに接続障害が発生した。22日午前8時30分ごろからこれら企業のホームページやモバイルアプリに接続できなくなった。ただ、事故から2時間が経過し、クーパンなど一部の企業のウェブページは復旧した状態だ。モバイルは接続障害が続いている。

 

 原因は?

日本ではほとんど話題になっていないこともあり、原因調査は難航しましたが、どうやら以下の記載が最も近いようです。

 

www.theinvestor.co.kr

「私たちは今日の84分間、EC2インスタンスからのDNS解決を妨げていたいくつかのDNSサーバについて、韓国地域に誤った設定をしていました。構成エラーは修正され、サービスは正常に動作しています」

 

韓国のEC2内部からRoute53への名前解決が該当時間帯に、設定誤りにより応答が返らなかったようです。

なお、韓国のAWSはオープンが2016年で新しい方のリージョンで、ap-northeast-2と名前です。AZは2個あるのですが、現象は両方のゾーンで起こっていたようで、名前解決できなくなってはインターネット外部との連携が全くできなくなると思います。

 

他山の石

他山の石とは「よそのできごとや自分に対する批評が、自分の知徳をみがく助けとなるということ。」ということですが、日本でも、クラウドの問題は他人事ではありません。

日本のほうが歴史があることもあり、かなりのインターネット向けシステムや、一部の基幹システムがAWSはじめ、各種パブリッククラウドサービスに載っています。

もし、上記の韓国のような問題が日本でも同じように起こったら、先日のソフトバンクの接続障害に等しい社会的な混乱が起こると思われます。

隣国で大規模なダウンが現実的に、しかも一か月前に発生していることを考えると現実的にリスクを考えることは無駄ではありません。

クラウドを利用していくと決めた以上は、一つのサービスだけに集中せず、ある程度分散してシステムを設計する必要があると、今回の件から考えさせられます。今回だとAZをまたいでも両方障害になっていますし、根本的な対応としては、別のクラウドをスタンバイとしてセットアップしておく必要があるのかもしれませんね。

たまに海外のニュースも取り入れないといけないな、と痛感した今回の件でした。