GMOクラウドの障害情報 2018/12/29(土) 15:00～から断続的に障害発生中

f:id:orangeitems:20181229183022j:plain

GMOクラウドで障害情報

GMOクラウド publicおよび、GMOクラウド ATLUSで障害が発生しているそうです。

【障害発生中/GMO CLOUD/Public】ストレージ障害につきまして

Publicのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年12月29日(土) 15時00分頃

■障害内容

・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

■対象範囲
GMOクラウド Publicをご利用の一部のお客さま

■原因
確認中

GMOクラウド | メンテナンス・障害情報

【障害発生中/GMO CLOUD/ALTUSbyGMO】ストレージ障害につきまして

ALTUSのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年12月29日(土) 15時00分頃

■障害内容
サーバーへの接続不可および不安定な状況。
コンソールからのタスク実行不可、または不安定な状況が発生しております。

■対象範囲
GMOクラウド ALTUSをご利用の一部のお客さま

■原因
確認中

原因は調査中となっていますが、タイトルにてストレージの問題と記載されています。ストレージは共有型サービスのアキレスけんであり、過去もたくさんの障害の引き金となっています。基本的に仮想サーバーはストレージにアクセスできなければ完全に停止しますので、リスクの高い部分です。また、ストレージの問題は、ストレージ自身の問題ではなくストレージにつながるネットワーク機器の問題の可能性もありますので切り分けが単純でないのが特徴です。

publicとATLUSとで同じタイミングで起こっていることから、共用しているのか、それともネットワークの問題で問題が起こっているのか見分けはつきません。

ユーザー側ではどうしようもない障害なので、復旧報がでるまで仮想OSには触らないのが一般論です。

ツイッターからの情報

@Yousan_Oさんのツイートが障害発生後最速のように見えます。14:25です。

GMOクラウド障害…？　複数ホストで急にトラブルが。
— Yousan_O (@Yousan_O) December 29, 2018

GMOクラウドの複数のサーバでXFSのエラーが。ハードウェアかミドルウェア側か… pic.twitter.com/jtQvhzLzFw
— Yousan_O (@Yousan_O) December 29, 2018

サーバの再起動に失敗。ディスクの障害の可能性高そう。 pic.twitter.com/NPtrJWf82D
— Yousan_O (@Yousan_O) December 29, 2018

GMOクラウドの障害まとめ

- 体感でGMO ALTUS Basic Isolateの50%ぐらいで発症
- XFSのxfs_buf_iodone_callback_errorが発生
- LAMP環境だとMySQLがよく落ちてる
- 生きてる環境もあるがWordPressの書き込み不可などのエラー
- 再起動したら起動できない => 再起動しないほうがベター？
— Yousan_O (@Yousan_O) December 29, 2018

おそらく、/bootボリュームは生きていてカーネルの読み込みまではできるけれども、その他のボリュームはアクセスできないという様子で、起動できないように見えます。

どうも問い合わせメールフォームもGMOクラウド上にあり問い合わせできなかったそうです。

サーバ繋がらないと電話もらう→GMOクラウドのコンソールで再起動→画面上は起動してるけど相変わらず接続不可→GMOに問い合わせようと思ったら電話受付お休み→メールで問い合わせようと思ったら問い合わせフォーム落ちる→ついったで検索してみると他にも困ってる人いる→／(^o^)＼
— はるえ (@hal_e) December 29, 2018

ただ、18:25現在、アクセスはできます。

復旧したっぽいかな？まだアナウンスはないようだけど
— はるえ (@hal_e) December 29, 2018

と言う声もあり、全部いっぺんにダウンするタイプの障害ではなさそうです。

参考情報

データディスクがリードオンリーになっていて、OSは起動している場合は、下記の手順で復旧する可能性があります（自己責任でお願いします）。

Linux系OSにおいてディスクが読み込み専用(readonly)になりました。どう対処すればよいですか？ | クラウド・エヌ・インフォメーション

補記

2018年の同様の障害では復旧に5日間要しているケースもあります。

GMOクラウド | メンテナンス・障害情報

平素はGMOクラウドPublicをご利用いただきありがとうございます。

ご提供中のサービスにおいて、以下の不具合が発生しておりました。
現在は復旧しております。

■障害発生日時
2018年02月13日(火) 14時00分頃

■障害復旧日時
2018年02月18日(日) 16時30分頃

■障害内容
ストレージ機器の不具合により高負荷な状態が発生し、
サーバーへの接続がしづらい状況になっておりました。

■対象範囲
以下のゾーン収容の仮想サーバーをご利用のお客さま

Publicクラウド
Zシリーズ
東京GREEN
東京YELLOW
東京ORANGE
東京PURPLE

■原因
ハードウエア不具合

■対応
ファームウエアのアップグレードと機器交換をおこないました。

追記

2018/12/30 1:30

仮復旧との報告です。

お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
本障害につきまして、緊急メンテナンスが完了し仮復旧とさせていただいております。

障害発生時間　2018年12月29日 13:35
障害仮復旧時間　2018年12月30日 01:30

■【メンテナンス/GMO CLOUD/Public】緊急メンテナンス実施のお知らせ

大変恐縮ではございますが、不具合が継続しているお客さまにつきましては、
下記お問い合わせフォームより別途お問い合わせいただければと存じます。

何があったのか、については記載されていません。

2018/12/31 0:05

ツイートを見ていると、ちらほら問題が再現しているように見えます。

@GMOcloud_JP またGMO クラウドpublicにて障害が起こっております。調査のほどよろしくお願いします。
— yosukeadachi (@yosukeadachi) December 30, 2018

GMOクラウドの今日の障害は断続的に不安定。
ディスクに引っ張られてMySQLが落ちちゃうサーバもあれば、復活するサーバもある。
— Yousan_O (@Yousan_O) December 30, 2018

GMOクラウドの障害情報を見てみたら、新しく報告が上がっています。

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年12月30日(日) 22時50分頃

■障害内容
・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

■対象範囲
GMOクラウド Publicをご利用の一部のお客さま

■原因
ストレージ不具合

2018/12/31 9:14

更新がありました。

GMOクラウド | メンテナンス・障害情報

下記スケジュールにおいて緊急メンテナンスを実施いたします。

■作業予定日時
開始：2018年12月31日(月) 06時00分
終了：未定

■対象
GMOクラウドPublicをご利用で、以下のゾーンに
収容されている仮想サーバーをご利用のお客さま

東京RED
東京BLUE

※該当のお客さまには、別途メールでもご案内させていただいております。

■作業理由
現在発生しておりますストレージ障害対応のため

https://support.gmocloud.com/info/detail.php?no=1546180666

■作業内容
ハイパーバイザーとSAN接続のストレージ間のネットワーク高負荷により
サーバ側でディスクがRead Only状態になっている事象の解消

■影響範囲
メンテナンス時間帯において、対象のゾーンに収容されている仮想サーバーを再起動いたします。
再起動中は以下の機能などがご利用いただけません。

　①Web表示不可
　②メール・FTP・SSHの利用不可
　③その他、仮想サーバーでご利用の全サービス利用不可
　など

緊急対応となり、
お客さまには多大なご迷惑をおかけいたしますが、
何卒ご理解賜りますようお願い申し上げます。

ストレージそのものが問題ではなくストレージが利用しているネットワーク帯域の枯渇が原因とのことです。そうすると、機器交換では解決しません。よく原因となるのが仮想サーバーのウイルスチェックのフルスキャンです。ディスクI/O使用率とリニアにネットワーク帯域を利用します。今回の原因を引き起こしている少数の仮想サーバーを突き止め、そのサーバーを停止しないと、ネットワーク帯域を増強しない限り再現してしまうでしょう。

仮想サーバーを再起動したら、再マウントとなり一時的に復旧するとは思いますが恒久対応になりません。ネットワークの再設計などこの時期には困難ですので、なんとか原因となるOS（ストレージをたくさん使うOS）を止める形で暫定対応するべきだと考えます。

また、linuxは、ディスクに対して一定時間I/O waitの状態になると、read onlyになってしまう仕様です。下記方法でタイムアウトの時間を延ばしてあげれば、read onlyになるタイミングは先延ばしにできます。ただ、タイムアウトになる状況であると、結局は無応答になるのでシステムとしては使い物にならないとは思いますが・・。

25.17. SCSI コマンドタイマーとデバイス状態の制御 - Red Hat Customer Portal

2018/12/31 17:00

追加情報です。ストレージをもう一台追加して、ネットワーク的に負荷分散を測る方向だと思われます。

GMOクラウド | メンテナンス・障害情報

12/31 16:50追記
物理ストレージの追加メンテナンスでございますが
2018年12月31日（月）16時より開始しております。

メンテナンスの作業進捗につきましては随時共有させていただきます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。

------------------------

12/31 13:52 追記 [５．暫定措置(緊急メンテナンス)の詳細]

平素はGMOクラウド Publicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

物理ストレージの追加メンテナンスでございますが
2018年12月31日（月）17時頃に実施予定でございます。

現在物理ストレージの手配を行い搬送中でございます15時40分までに
データセンターに到着予定でございます。

以下メンテナンス実施完了までのスケジュールになります。

15時30分　弊社運用担当者、ならびストレージベンダーがデータセンター入館
16時00分～17時00分　実作業準備、作業開始
18時00分～19時00分　作業完了（開始から2時間程度を予定しております）

メンテナンス終了後、仮想サーバーの再起動を開始したします。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。

保守ベンダーに、「とりあえず精算は後回しにして、とりあえず解決を優先させてほしい」と伝えて、保守部品を新規投入するのでしょうね。構築費用もおそらく後で精算でしょう。本当にストレージの問題は難しい。

2019/1/1 12:00

GMOクラウドより本復旧の報告がありました。

GMOクラウド | メンテナンス・障害情報

お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

本障害につきまして、4つ目のノード設定まで完了いたしましたため、本復旧とさせていただきます。

障害発生時間　2018年12月31日 10:33
障害復旧時間　2019年1月1日　 00:40

ただ、ツイッターを見ると仮想OSレベルでは障害が回復しない方もいらっしゃるように見えます。

2019/1/1 23:37

解決しているようには見えないですね‥。

GMOクラウドまたおちた
— まちだ@のたた🔑 (@matchy3) January 1, 2019

gmoクラウド、またダウン。企業のサイトや大手のサイトも利用してるのにこの連日のダウンはダメすぎる。
— 笠希々＠アニるっ！管理人 (@animekannsou) January 1, 2019

@GMOcloud_JP またGMO クラウドpublicにて障害が起こっております。調査のほどよろしくお願いします。
— yosukeadachi (@yosukeadachi) January 1, 2019

2019/1/2 1:00

問題が再現してしまったという報告がありました。

GMOクラウド | メンテナンス・障害情報

Publicのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2019年1月1日(火) 22時50分頃

■障害内容
・再起動後、サーバーが起動しない。
・サーバーに接続できない。
・クラウドコンソールからの起動が毎回失敗する。

下記障害が再発しております。

○【障害仮復旧/GMO CLOUD/Public】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546069627
○【対応完了/GMO CLOUD/Public】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546180666

■対象範囲
・GMOクラウド Publicで東京RED、ならびBLUEをご利用のお客さま

■原因
ストレージ不具合

ATLUSも同様です。

GMOクラウド | メンテナンス・障害情報

ALTUSのサービスにおいて、以下の不具合が発生しております。

■障害発生日時
2018年1月1日(火) 22時50分頃

■障害内容
サーバーへの接続不可および不安定な状況。
コンソールからのタスク実行不可、または不安定な状況が発生しております。

下記障害が再発しております。

○【障害復旧/GMO CLOUD/ALTUSbyGMO】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546067732
○【復旧済み/GMO CLOUD/ALTUS byGMO】ストレージ障害につきまして
https://support.gmocloud.com/info/detail.php?no=1546180606

■対象範囲
・ALTUS Basic、ならびにIsolateにてフラッシュディスクをご利用のお客さま

■原因
ストレージ不具合

※publicとATLUSで同じ報告が繰り返されていますので、今後ATLUSの報告を一旦省略します。

2019/1/2 9:30

まだ障害は継続中のステータスです。

下記の通り、ストレージサーバーを構成するノードの１つにメモリエラーが発生しているとのこと。現状、ネットワーク帯域の問題ではない、ということになっています。

現在も引き続きノードの切り離し作業を継続中となります。
本障害につきまして、お客さまサーバーにSSDディスクを提供するために
利用しているストレージノードのうちの1つに、メモリエラーが発生している
ノードが確認できましたため該当のノードの切り離し作業を実施しております。

2019/1/2 23:16

本日も22:38ごろからストレージアクセスできない状態が発生したとの報告あり。

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年1月2日(水) 22時38分頃

この時間によく起こりますね・・。

2019/1/3 2:00

更新あり。

GMOクラウド | メンテナンス・障害情報

1/3 1:30 更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。
22時38分にストレージの書き込みが不可能になった原因でございますが
復旧作業の一環で実施させていただきました、ストレージ側の容量が
超過した場合にI/Oを停止する設定を一時的に無効にしておりました。

しかしながら1月2日（水）の22時頃にストレージベンダーのエンジニア側で再度、I/Oを停止する設定を有効にしてしまったことによりストレージの書き込みが出来ない状態となりました。現在ストレージベンダーと電話会議をおこないI/Oを停止する設定を変更する作業を早急におこなうよう指示しております。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

年末年始このような事態となってしまい誠に申し訳ございません。重ねて深くお詫び申し上げます。

ストレージ側の容量って何の容量なのでしょうか。

容量が超過してもI/Oを停止しないと何が起きるのでしょうか。

2019/1/3 8:50

いったん、一つ前の報告が取り消しとなりました。

1/3 3:05更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ストレージベンダーより、I/Oを停止する設定を一旦見送る旨連絡が
ございました。状況がわかり次第改めてご連絡させていただきます。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。
年末年始このような事態となってしまい誠に申し訳ございません。重ねて深くお詫び申し上げます。

そのあと、報告あり。

1/3　7：25更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。

ストレージベンダーにて実施しておりましたメンテナンスにより、
I/O（入出力）アクセスに復旧が見られ、7時30分頃に復旧予定となりますので、
改めて緊急の仮想サーバーの再起動メンテナンスを実施させていただきます。
※緊急メンテナンスにつきましては、別途メールにてご連絡させていただきます。

復旧完了時には、再度本障害情報を更新いたします。
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

原因もベンダーが行なったメンテナンスの内容も明かされぬまま、仮想サーバー再起動で復旧というシナリオのようですが・・。

2019/1/3 10:45

ストレージが復旧して、仮想サーバー再起動の流れ。

GMOクラウド | メンテナンス・障害情報

1/3　09：20 更新
お客さま各位

平素はGMOクラウド Publicをご利用いただきありがとうございます。

ご迷惑をおかけいたしまして、誠に申し訳ございません。
現在発生中の障害につきまして経過をご報告させていただきます。
ストレージのI/O（入出力）アクセスが復旧いたしました。
AM10時より仮想サーバーの再起動メンテナンスを実施させていただきます。

【GMO CLOUD/Public】緊急メンテナンス実施のお知らせ

障害の経過報告につきましては、別途メールにてご連絡させていただいております。

大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

ユーザーとすれば、再発しないという根拠が欲しいところです。

2019/1/3 13:00

仮想サーバー再起動が完了したらしい。

GMOクラウド | メンテナンス・障害情報

1/3 12:30 更新
お客さま各位

平素はクラウドPublicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

10：00より実施しておりました再起動メンテナンス作業が完了いたしました。

ちなみに、仮想サーバー再起動作業中に、同時にやりすぎて特定のハイパーバイザーがハングアップしてしまったらしい。

GMOクラウド | メンテナンス・障害情報

■障害発生日時
2019年1月3日(水) 10時50分頃から11時45分頃までの間

■障害内容
ハイパーバイザーにてハングアップが発生し、該当ハイパーバイザーに
格納されている仮想サーバーの再起動が発生いたしました。

■対象範囲
GMOクラウド Publicのをご利用中で以下のゾーンをご利用のお客さま

◇対象ゾーン
東京BLUE

◇対象ハイパーバイザー
HV3126

■原因
仮想サーバー連続起動時の負荷によりハイパーバイザーが反応なくなり
自動再起動が発生いたしました。

■対応
仮想サーバーを別のハイパーバイザーへ強制マイグレーションいたしました。

これで落ち着けばよいですが、今日の夜間を乗り切れるかだと思われます。

ちなみに、下記の推理、もしかしたら合致しているかもしれません。

あっまだ続いてたのか。
これも
「復旧途中でオーバーコミットをオンからオフに変更したんだけど、サービス再開の際に、オーバーコミットをオンに戻し忘れました」
と見える……😱

【障害発生・再起動完了/GMO CLOUD/Public】ストレージ障害につきまして https://t.co/pMOacxdnGU
— ふじた_🐱♨💻雑用 (@nfujita55a) January 3, 2019

どうなることやら・・。

2019/1/4 12:40

昨日の夜は発生しなかったので、復旧扱いと認識しようかと思ったのですが、

GMOクラウド | メンテナンス・障害情報

1/4　11：40 更新
お客さま各位

平素はクラウドPublicをご利用いただきありがとうございます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。

本障害について、サーバーへの接続不具合は解消していますが、
ストレージシステム静観中につき引き続き仮復旧とさせていただきます。

復旧完了時には、再度本障害情報を更新いたしますので、
大変恐縮ではございますが、復旧までお待ちいただきますようお願い申し上げます。

ということで、まだ仮復旧のスタータスとのことです。

引き続き状況をウォッチします。

orangeitems’s diary

40代ITエンジニアが毎日何か書くブログ

GMOクラウドの障害情報 2018/12/29(土) 15:00～から断続的に障害発生中

GMOクラウドで障害情報

ツイッターからの情報

参考情報

補記

追記

2018/12/30 1:30

2018/12/31 0:05

2018/12/31 9:14

2018/12/31 17:00

2019/1/1 12:00

2019/1/1 23:37

2019/1/2 1:00

2019/1/2 9:30

2019/1/2 23:16

2019/1/3 2:00

2019/1/3 8:50

2019/1/3 10:45

2019/1/3 13:00

2019/1/4 12:40