※2018/7/9 23:45 復旧しました。
今度はGMOクラウド ALTUS
GMOクラウド ALTUSで障害発生の模様です。BasicとIsolateの2つのモデルがあるようですが、Basicの方で発生しています。
今日の15時頃からGMO CLOUD/ALTUS BasicのVMにアクセスできなくなった。サポートページによると現在ネットワークに障害発生中とのことらしいけど、既に4時間以上経過してるのにまだ復旧してない。月間サーバ稼働率99.95%とは一体なんなのか?
— デリートオル (@DelyTall) 2018年7月8日
確かに、GMOクラウド ALTUSにて、障害情報が出ていました。
【7/9 0:50 更新】
お客さま各位
平素はGMOクラウドALTUSをご利用いただきありがとうございます。
この度、GMOクラウドALTUS Basicにおきまして、
外部からの接続ができない事象が確認されております。
ご不便をお掛けしており誠に申し訳ございません。■障害発生日時
確認中■対象範囲
ALTUS Basic でグローバルIPアドレスをご利用の一部のお客様
■障害内容
ネットワーク機器経由でのアクセス不可■原因
ロードバランサー、ならびにスタティックNATの不具合により、
一部の仮想サーバーへのアクセスができない状態となっております。
復旧に向けてロードバランサー、ならびにスタティックNATの
設定の修復作業をおこなっております。継続して復旧作業をおこなっております。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。
GMOクラウド ALTUSとは何か
設計の概要は下記サイトから学ぶことができます。
「GMOクラウド ALTUS(アルタス)」はなぜアルとタスかるのか!?(3) 3シリーズでビジネスを支えるGMOクラウド ALTUS | マイナビニュース
GMOクラウド ALTUSでは、世界標準と言えるApache CloudStackをベースとした商用クラウド基盤「Citrix CloudPlatform, powered by Apache CloudStack」を採用している。
で、このCtrix Cloud Platformですが、2016年にAcceleriteという会社にプロダクトごと売却されています。
シトリックス、「CloudPlatform」「CloudPortal」製品をAcceleriteに売却へ - ZDNet Japan
現在は、ROVIUS CLOUDとしてリブランディングしています。
Accelerite re-floats Citrix CloudPlatform as 'Rovius Cloud' • The Register
ちなみに、KDDIクラウドプラットフォーム(KCPS)もこのソリューションを使っているそうです。
KDDI Cloud Blog | CloudStackで実現するDedicated Servers(専有サーバ)
あと、ハードウェアにはCISCO UCSを使っているとの情報あり。かなりの高級品ですし、10Gbpsのネットワークを使っていることから、インフラ基盤として十分なハードウェア設備であると個人的には思います。
https://www.cisco.com/c/dam/global/ja_jp/solutions/datacenter/casestudy/pdf/1025-ucs-gmocloud-cs.pdf
CloudStackのネットワークを学ぶ
大体の概要がわかったところで、CloudStackをもっと知っていきます。
こちら、大変わかりやすい解説となっています。
詳しくは上記サイトをご確認いただければわかると思いますが、ネットワークモデルが2つあって、
・基本ネットワークモデル
・拡張ネットワークモデル
上記が、そのままBasicとIsolateの2つのシリーズにそのまま対応しているようです。
基本ネットワークモデルにおいてはセキュリティグループ(AWSと似ている)でフィルタリングしているのに対し、拡張ネットワークモデルでは、仮想ルーターとVLANという要素でフィルタリングしています。L3とL2の違いですね。また、仮想ルーターにはロードバランサー、ファイアウォール、NATの機能まであります。
現時点ではよくわからないのですが、Basicだけが障害となっているのは、インフラ基盤がBasicとIsolateで違うのかもしれません。
障害の原因は?
21:00の更新にて、インターネット側の通信にて障害が発生していることがわかりました。
・インターネットプロバイダー側の設備
・インターネットに接続しているルーター
・CloudStackとルーターの間の経路
どこかで問題が起こっているのは間違いないとは思うのですが、今後の情報待ちとなります。
追記
障害の概要はわかりましたので継続してウォッチしていきたいと思います。早期の復旧をお祈りします。
2018/7/8 22:44
ツイッターの様子を見ると静かなのでZenlogicと違いこちらは部分障害のように思います。継続観察します。
2018/7/9 1:14
0:50に更新があり、ロードバランサーおよびスタティックNATの不具合、ということで切り分けが付いてきた模様です。
2018/7/9 12:55
まだ未解決です。
サポートページによると、システムバックアップのリストアを行っている模様です。
【7/9 12:30 更新】
【7/9 11:30 更新】
継続して復旧に向けてロードバランサー、ならびにスタティックNATの
設定の修復作業を順次おこなっております。ロードバランサーの再設定:64%程度
スタティックNATの再設定:20%程度ご迷惑をおかけいたしまして、誠に申し訳ございません。
復旧まで今しばらくお待ちいただきますようよろしくお願い申し上げます。
こちらも長期間障害の部類ですが、影響を受けているユーザー数が少ないためか、あまり話題になっていませんね。
クラウドの共有部分というのは、本当に慎重に設計しないと、全体障害が簡単に起こってしまうということを示していると思います。
2018/7/9 23:45
復旧したそうです。
お客さま各位
平素はGMOクラウドALTUSをご利用いただきありがとうございます。
この度、GMOクラウドALTUS Basicにおきまして、
外部からの接続ができない事象が確認されておりました。
ご不便をお掛けし、誠に申し訳ございませんでした。
現在は復旧しております。■障害発生日時
2018年7月8日14時頃 ~ 2018年7月9日22:03■対象範囲
ALTUS Basic でグローバルIPアドレスをご利用の一部のお客様
■障害内容
ネットワーク機器経由でのアクセス不可■原因
ロードバランサー、ならびにスタティックNATの不具合により、
一部の仮想サーバーへのアクセスができない状態となっております。
復旧に向けてロードバランサー、ならびにスタティックNATの
設定の修復作業をおこなっておりました。ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。
関係者のみなさま、復旧作業お疲れさまでした。
新人エンジニアのためのインフラ入門 ThinkIT Books