orangeitems’s diary

40代ITエンジニアが毎日何か書くブログ

Microsoft Teams障害の裏で、AzureでCosmos DBの障害が発生中(解決済み)

f:id:orangeitems:20210212132031j:plain

 

Teamsの障害

コラボレーションツールで有名なMicrosoft Teamsが障害中とのこと。

 

k-tai.watch.impress.co.jp

 日本時間の2月12日午前から、米マイクロソフトが提供する「Teams」が正常に利用できない問題が発生していると、一部ユーザーが報告している。

 提供元のマイクロソフトは、この問題について調査を進めていることをTwitterアカウントなどで表明した。

 

Azureでも問題が発生中

Teamsと言えば絶対にインフラ基盤はAzureで動いているだろうから、Azureに何か問題が起こっているんじゃないかな?、とインフラエンジニアらしい発想で確認してみました。

 

f:id:orangeitems:20210212131055j:plain

https://status.azure.com/ja-jp/status

 

やはり、アメリカ(米国東部)のリージョンで問題が起こっているようです。

原文にはこう書いてあります。

 

Azure Cosmos DB - North America - Ongoing Investigation

SUMMARY OF IMPACT: Starting at approximately 00:30 UTC on 12 Feb 2021, a subset of customers using Azure Cosmos DB in North America may experience issues connecting to resources. A limited number of Azure services that leverage Cosmos DB may also see impact. As a workaround, impacted customers are encouraged to initiate failovers to the following regions:

Central US
North Central US
South Central US

CURRENT STATUS: Previously, internal telemetry suggested that the issue may have self-healed and that some customers may have see a period of recovery. However, monitoring again shows that the failure rate has increased and some customers may continue to see impact. At this time, engineering teams continue to pursue multiple workstreams to identify the root cause and determine mitigation options. The next update will be provided in 60 minutes or as events warrant.
This message was last updated at 04:06 UTC on 12 February 2021

 

Google翻訳をかけてみます。

Azure CosmosDB - 北米 - 継続的な調査

影響の概要:2021年2月12日のUTC 00:30頃から、北米でAzure Cosmos DBを使用しているお客様のサブセットで、リソースへの接続で問題が発生する可能性があります。 CosmosDBを利用する限られた数のAzureサービスも影響を受ける可能性があります。回避策として、影響を受けるお客様は、次のリージョンへのフェイルオーバーを開始することをお勧めします。

米国中央部
米国中北部
米国中南部

現在の状況:以前は、内部テレメトリにより、問題が自己回復した可能性があり、一部のお客様には回復期間が見られた可能性があることが示唆されていました。ただし、再度監視すると、障害率が増加しており、一部の顧客は引き続き影響を確認している可能性があります。現時点では、エンジニアリングチームは、根本原因を特定し、緩和オプションを決定するために、複数のワークストリームを追求し続けています。次のアップデートは、60分以内に、またはイベントの保証として提供されます。

このメッセージの最終更新日は、2021年2月12日のUTC 04:06です。

 

UTCに9時間足すと日本時間。問題が起こり始めたのが日本時間で午前9:30ごろですから、Teamsの「午前中から調子が悪い」と一致しますね。

これはTeamsはCosmos DBを使っていて、何か直撃を喰らったのだろうなと推測します。

 

いいタイミングなのでCosmos DBについて勉強しておこうっと。

 

docs.microsoft.com

Azure Cosmos DB は、最新のアプリ開発に対応するフル マネージドの NoSQL データベースです。 数ミリ秒 (1 桁台) の応答時間と、自動および即時のスケーラビリティにより、あらゆるスケールで速度が保証されます。 SLA に基づいた可用性とエンタープライズグレードのセキュリティにより、ビジネス継続性が保証されます。

 

AWSにおけるAmazon DynamoDBのようなものだと思いますが、ここが倒れると、確かに依存するアプリケーションは動いてくれないだろうな。

特に米国東部のCosmos DBでは、結構な基幹情報が使われてそうで、回復が待たれますし、これだけSLAを豪語するサービスでなんでこんな状態になったのか興味があります。

 

わかったことがあれば追記したいと思います。

 

追記

解決したそうです。

 

www.itmedia.co.jp

米Microsoftは2月12日(日本時間)、Web会議ツール「Microsoft Teams」が正常に利用できない障害が発生していると発表したが、同日午後3時半ごろに復旧した。

 

なお、Cosmos DBについては、

status.azure.com

Summary of impact: Between approximately 00:30 and 04:30 UTC on 12 Feb 2021, a subset of customers using Azure Cosmos DB in North America may have experienced issues connecting to resources. Additionally, a limited number of other Azure services that leverage Azure Cosmos DB may have also seen downstream impact during this time.

 

影響の概要:2021年2月12日のUTC 00:30から04:30頃に、北米でAzure Cosmos DBを使用しているお客様のサブセットで、リソースへの接続で問題が発生した可能性があります。さらに、Azure Cosmos DBを利用する他の限られた数のAzureサービスでも、この期間中にダウンストリームの影響が見られた可能性があります。

 

とあり、13:30ごろにはこちらは解決していた模様。