orangeitems’s diary

クラウドで働くエンジニアの日々の感想です。

GMOクラウドの障害情報 2018/12/29(土) 15:00~から断続的に障害発生中

f:id:orangeitems:20181229183022j:plain

 

GMOクラウドで障害情報

GMOクラウド publicおよび、GMOクラウド ATLUSで障害が発生しているそうです。

 

GMOクラウド | メンテナンス・障害情報

【障害発生中/GMO CLOUD/Public】ストレージ障害につきまして

Publicのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年12月29日(土) 15時00分頃

■障害内容

・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

■対象範囲
GMOクラウド Publicをご利用の一部のお客さま

■原因
確認中

 

GMOクラウド | メンテナンス・障害情報

【障害発生中/GMO CLOUD/ALTUSbyGMO】ストレージ障害につきまして

ALTUSのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年12月29日(土) 15時00分頃

■障害内容
サーバーへの接続不可および不安定な状況。
コンソールからのタスク実行不可、または不安定な状況が発生しております。

■対象範囲
GMOクラウド ALTUSをご利用の一部のお客さま

■原因
確認中

  

原因は調査中となっていますが、タイトルにてストレージの問題と記載されています。ストレージは共有型サービスのアキレスけんであり、過去もたくさんの障害の引き金となっています。基本的に仮想サーバーはストレージにアクセスできなければ完全に停止しますので、リスクの高い部分です。また、ストレージの問題は、ストレージ自身の問題ではなくストレージにつながるネットワーク機器の問題の可能性もありますので切り分けが単純でないのが特徴です。

publicとATLUSとで同じタイミングで起こっていることから、共用しているのか、それともネットワークの問題で問題が起こっているのか見分けはつきません。

ユーザー側ではどうしようもない障害なので、復旧報がでるまで仮想OSには触らないのが一般論です。

 

ツイッターからの情報

@Yousan_Oさんのツイートが障害発生後最速のように見えます。14:25です。

 

 

 

 

 

おそらく、/bootボリュームは生きていてカーネルの読み込みまではできるけれども、その他のボリュームはアクセスできないという様子で、起動できないように見えます。

  

どうも問い合わせメールフォームもGMOクラウド上にあり問い合わせできなかったそうです。

 

ただ、18:25現在、アクセスはできます。

 

 

と言う声もあり、全部いっぺんにダウンするタイプの障害ではなさそうです。

 

参考情報

データディスクがリードオンリーになっていて、OSは起動している場合は、下記の手順で復旧する可能性があります(自己責任でお願いします)。

Linux系OSにおいてディスクが読み込み専用(readonly)になりました。どう対処すればよいですか? | クラウド・エヌ・インフォメーション

 

補記

2018年の同様の障害では復旧に5日間要しているケースもあります。

 

GMOクラウド | メンテナンス・障害情報

平素はGMOクラウドPublicをご利用いただきありがとうございます。

ご提供中のサービスにおいて、以下の不具合が発生しておりました。
現在は復旧しております。

■障害発生日時
2018年02月13日(火) 14時00分頃

■障害復旧日時
2018年02月18日(日) 16時30分頃

■障害内容
ストレージ機器の不具合により高負荷な状態が発生し、
サーバーへの接続がしづらい状況になっておりました。

■対象範囲
以下のゾーン収容の仮想サーバーをご利用のお客さま

Publicクラウド
Zシリーズ
東京GREEN
東京YELLOW
東京ORANGE
東京PURPLE

■原因
ハードウエア不具合

■対応
ファームウエアのアップグレードと機器交換をおこないました。

 

追記

2018/12/30 1:30

仮復旧との報告です。

お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
本障害につきまして、緊急メンテナンスが完了し仮復旧とさせていただいております。

障害発生時間 2018年12月29日 13:35
障害仮復旧時間 2018年12月30日 01:30

■【メンテナンス/GMO CLOUD/Public】緊急メンテナンス実施のお知らせ

大変恐縮ではございますが、不具合が継続しているお客さまにつきましては、
下記お問い合わせフォームより別途お問い合わせいただければと存じます。

何があったのか、については記載されていません。

 

2018/12/31 0:05

ツイートを見ていると、ちらほら問題が再現しているように見えます。

 

 

 

GMOクラウドの障害情報を見てみたら、新しく報告が上がっています。

 

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年12月30日(日) 22時50分頃

■障害内容
・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

■対象範囲
GMOクラウド Publicをご利用の一部のお客さま

■原因
ストレージ不具合

 

2018/12/31 9:14

更新がありました。

GMOクラウド | メンテナンス・障害情報

下記スケジュールにおいて緊急メンテナンスを実施いたします。

■作業予定日時
開始:2018年12月31日(月) 06時00分
終了:未定

■対象
GMOクラウドPublicをご利用で、以下のゾーンに
収容されている仮想サーバーをご利用のお客さま

東京RED
東京BLUE

※該当のお客さまには、別途メールでもご案内させていただいております。

■作業理由
現在発生しておりますストレージ障害対応のため

https://support.gmocloud.com/info/detail.php?no=1546180666

■作業内容
ハイパーバイザーとSAN接続のストレージ間のネットワーク高負荷により
サーバ側でディスクがRead Only状態になっている事象の解消

■影響範囲
メンテナンス時間帯において、対象のゾーンに収容されている仮想サーバーを再起動いたします。
再起動中は以下の機能などがご利用いただけません。

 ①Web表示不可
 ②メール・FTP・SSHの利用不可
 ③その他、仮想サーバーでご利用の全サービス利用不可
 など

緊急対応となり、
お客さまには多大なご迷惑をおかけいたしますが、
何卒ご理解賜りますようお願い申し上げます。

 

ストレージそのものが問題ではなくストレージが利用しているネットワーク帯域の枯渇が原因とのことです。そうすると、機器交換では解決しません。よく原因となるのが仮想サーバーのウイルスチェックのフルスキャンです。ディスクI/O使用率とリニアにネットワーク帯域を利用します。今回の原因を引き起こしている少数の仮想サーバーを突き止め、そのサーバーを停止しないと、ネットワーク帯域を増強しない限り再現してしまうでしょう。

仮想サーバーを再起動したら、再マウントとなり一時的に復旧するとは思いますが恒久対応になりません。ネットワークの再設計などこの時期には困難ですので、なんとか原因となるOS(ストレージをたくさん使うOS)を止める形で暫定対応するべきだと考えます。

また、linuxは、ディスクに対して一定時間I/O waitの状態になると、read onlyになってしまう仕様です。下記方法でタイムアウトの時間を延ばしてあげれば、read onlyになるタイミングは先延ばしにできます。ただ、タイムアウトになる状況であると、結局は無応答になるのでシステムとしては使い物にならないとは思いますが・・。

25.17. SCSI コマンドタイマーとデバイス状態の制御 - Red Hat Customer Portal

 

2018/12/31 17:00

追加情報です。ストレージをもう一台追加して、ネットワーク的に負荷分散を測る方向だと思われます。

GMOクラウド | メンテナンス・障害情報

12/31 16:50追記
物理ストレージの追加メンテナンスでございますが
2018年12月31日(月)16時より開始しております。

メンテナンスの作業進捗につきましては随時共有させていただきます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。

------------------------

12/31 13:52 追記 [5.暫定措置(緊急メンテナンス)の詳細]

平素はGMOクラウド Publicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

物理ストレージの追加メンテナンスでございますが
2018年12月31日(月)17時頃に実施予定でございます。

現在物理ストレージの手配を行い搬送中でございます15時40分までに
データセンターに到着予定でございます。

以下メンテナンス実施完了までのスケジュールになります。

15時30分 弊社運用担当者、ならびストレージベンダーがデータセンター入館
16時00分~17時00分 実作業準備、作業開始
18時00分~19時00分 作業完了(開始から2時間程度を予定しております)

メンテナンス終了後、仮想サーバーの再起動を開始したします。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。

 

保守ベンダーに、「とりあえず精算は後回しにして、とりあえず解決を優先させてほしい」と伝えて、保守部品を新規投入するのでしょうね。構築費用もおそらく後で精算でしょう。本当にストレージの問題は難しい。

 

2019/1/1 12:00

GMOクラウドより本復旧の報告がありました。

GMOクラウド | メンテナンス・障害情報

お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

本障害につきまして、4つ目のノード設定まで完了いたしましたため、本復旧とさせていただきます。

障害発生時間 2018年12月31日 10:33
障害復旧時間 2019年1月1日  00:40

 ただ、ツイッターを見ると仮想OSレベルでは障害が回復しない方もいらっしゃるように見えます。

 

2019/1/1 23:37

解決しているようには見えないですね‥。

 

 

 

 

2019/1/2 1:00

問題が再現してしまったという報告がありました。 

GMOクラウド | メンテナンス・障害情報

Publicのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年1月1日(火) 22時50分頃

■障害内容
・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

下記障害が再発しております。

○【障害仮復旧/GMO CLOUD/Public】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546069627
○【対応完了/GMO CLOUD/Public】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546180666

■対象範囲
・GMOクラウド Publicで東京RED、ならびBLUEをご利用のお客さま

■原因
ストレージ不具合

 

ATLUSも同様です。

GMOクラウド | メンテナンス・障害情報

ALTUSのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2018年1月1日(火) 22時50分頃

■障害内容
サーバーへの接続不可および不安定な状況。
コンソールからのタスク実行不可、または不安定な状況が発生しております。

下記障害が再発しております。

○【障害復旧/GMO CLOUD/ALTUSbyGMO】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546067732
○【復旧済み/GMO CLOUD/ALTUS byGMO】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546180606

■対象範囲
・ALTUS Basic、ならびにIsolateにてフラッシュディスクをご利用のお客さま

■原因
ストレージ不具合

 

※publicとATLUSで同じ報告が繰り返されていますので、今後ATLUSの報告を一旦省略します。 

 

2019/1/2 9:30

まだ障害は継続中のステータスです。

下記の通り、ストレージサーバーを構成するノードの1つにメモリエラーが発生しているとのこと。現状、ネットワーク帯域の問題ではない、ということになっています。

現在も引き続きノードの切り離し作業を継続中となります。
本障害につきまして、お客さまサーバーにSSDディスクを提供するために
利用しているストレージノードのうちの1つに、メモリエラーが発生している
ノードが確認できましたため該当のノードの切り離し作業を実施しております。

 

2019/1/2 23:16

本日も22:38ごろからストレージアクセスできない状態が発生したとの報告あり。

 

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年1月2日(水) 22時38分頃

 

この時間によく起こりますね・・。

 

2019/1/3 2:00

更新あり。

GMOクラウド | メンテナンス・障害情報

1/3 1:30 更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。
22時38分にストレージの書き込みが不可能になった原因でございますが
復旧作業の一環で実施させていただきました、ストレージ側の容量が
超過した場合にI/Oを停止する設定を一時的に無効にしておりました。

しかしながら1月2日(水)の22時頃にストレージベンダーのエンジニア側で再度、I/Oを停止する設定を有効にしてしまったことによりストレージの書き込みが出来ない状態となりました。現在ストレージベンダーと電話会議をおこないI/Oを停止する設定を変更する作業を早急におこなうよう指示しております。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

年末年始このような事態となってしまい誠に申し訳ございません。重ねて深くお詫び申し上げます。

ストレージ側の容量って何の容量なのでしょうか。

容量が超過してもI/Oを停止しないと何が起きるのでしょうか。

 

2019/1/3 8:50

いったん、一つ前の報告が取り消しとなりました。

1/3 3:05更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ストレージベンダーより、I/Oを停止する設定を一旦見送る旨連絡が
ございました。状況がわかり次第改めてご連絡させていただきます。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。
年末年始このような事態となってしまい誠に申し訳ございません。重ねて深くお詫び申し上げます。

 

そのあと、報告あり。

1/3 7:25更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。

ストレージベンダーにて実施しておりましたメンテナンスにより、
I/O(入出力)アクセスに復旧が見られ、7時30分頃に復旧予定となりますので、
改めて緊急の仮想サーバーの再起動メンテナンスを実施させていただきます。
※緊急メンテナンスにつきましては、別途メールにてご連絡させていただきます。

復旧完了時には、再度本障害情報を更新いたします。
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

原因もベンダーが行なったメンテナンスの内容も明かされぬまま、仮想サーバー再起動で復旧というシナリオのようですが・・。

 

2019/1/3 10:45

ストレージが復旧して、仮想サーバー再起動の流れ。

GMOクラウド | メンテナンス・障害情報

1/3 09:20 更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。
ストレージのI/O(入出力)アクセスが復旧いたしました。
AM10時より仮想サーバーの再起動メンテナンスを実施させていただきます。

【GMO CLOUD/Public】緊急メンテナンス実施のお知らせ

障害の経過報告につきましては、別途メールにてご連絡させていただいております。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

ユーザーとすれば、再発しないという根拠が欲しいところです。 

 

2019/1/3 13:00

仮想サーバー再起動が完了したらしい。

GMOクラウド | メンテナンス・障害情報

1/3 12:30 更新
お客さま各位

平素はクラウドPublicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

10:00より実施しておりました再起動メンテナンス作業が完了いたしました。

 

ちなみに、仮想サーバー再起動作業中に、同時にやりすぎて特定のハイパーバイザーがハングアップしてしまったらしい。

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年1月3日(水) 10時50分頃から11時45分頃までの間

■障害内容
ハイパーバイザーにてハングアップが発生し、該当ハイパーバイザーに
格納されている仮想サーバーの再起動が発生いたしました。

■対象範囲
GMOクラウド Publicのをご利用中で以下のゾーンをご利用のお客さま

◇対象ゾーン
東京BLUE

◇対象ハイパーバイザー
HV3126

■原因
仮想サーバー連続起動時の負荷によりハイパーバイザーが反応なくなり
自動再起動が発生いたしました。

■対応
仮想サーバーを別のハイパーバイザーへ強制マイグレーションいたしました。

 

これで落ち着けばよいですが、今日の夜間を乗り切れるかだと思われます。

ちなみに、下記の推理、もしかしたら合致しているかもしれません。

 

 

どうなることやら・・。

 

2019/1/4 12:40

昨日の夜は発生しなかったので、復旧扱いと認識しようかと思ったのですが、

GMOクラウド | メンテナンス・障害情報

1/4 11:40 更新
お客さま各位

平素はクラウドPublicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

本障害について、サーバーへの接続不具合は解消していますが、
ストレージシステム静観中につき引き続き仮復旧とさせていただきます。

復旧完了時には、再度本障害情報を更新いたしますので、
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

ということで、まだ仮復旧のスタータスとのことです。

 

 

引き続き状況をウォッチします。