2021.02.20
【重要】サーバ障害に伴う一部のサイト表示不具合について
OWLetをご利用いただいているユーザー様各位
平素は格別のご高配を賜り厚く御礼申し上げます。
株式会社ガーディアンでございます。
昨日より本日にかけ、
下記の通り障害が発生しました。
現在は復旧致しましたが、
ご迷惑をおかけしましたことを深くお詫びいたします。
////////////////////////
◆発生時間
2月19日(金) 23:31 ~ 2月20日(土) 04:32
◆影響範囲
弊社AWS共用サーバ
18.177.79.198
54.150.126.149
に格納されたサイト
◆現象
格納された一部のWEBサイトが表示できない状況でした。
◆原因
AWS内部の障害に起因して発生したことの確認が取れました。
◆対処
AWSによる障害対応が進み、復旧できたことを確認致しました。
AWSからの公式発表は以下のとおりとなります。
イベントID:
arn:aws:health:ap-northeast-1::event/EC2/AWS_EC2_OPERATIONAL_ISSUE/AWS_EC2_OPERATIONAL_ISSUE_XYZKP_1613747375
----
(日本時間 00:09発表)
東京リージョン AP-NORTHEAST-1 のひとつのアベイラビリティゾーン apne1-az1 において、
インスタンスに影響を及ぼす接続性の問題が発生しており、対応を行っております。
↓
(日本時間 00:58発表)
東京リージョン AP-NORTHEAST-1 における一つのアベイラビリティゾーン(apne1-az1)の一部で、
周囲の温度が上昇している状況を確認いたしました。影響を受けているアベイラビリティーゾーンの一部
EC2 インスタンスでは、接続性の問題または温度上昇の影響に伴い、電源が切れている問題が発生しております。
当該問題の影響により、一部 EBS ボリュームにてパフォーマンスが低下しております。
↓
(日本時間 01:40発表)
AP-NORTHEAST-1 リージョンのうちの 1 つのアベイラビリティーゾーン (apne1-az1) のある一部の区画での温度上昇に
対処するために引き続き取り組んでいます。温度の上昇は、当該セクション内の冷却システムへの電力の損失によって発生しました。
引き続き、電源の回復に取り組んでおりこれまでに冷却システムの1つを正常に復旧させました。
引き続き温度を通常レベルに復元し、影響を受けた EC2 インスタンスと EBS ボリュームの回復に取り組んでまいります。
↓
(日本時間 02:43発表)
AP-NORTHEAST-1 リージョンのうちの 1 つのアベイラビリティーゾーン (apne1-az1) のある一部の区画での温度上昇に
対処するために引き続き取り組んでいます。温度の上昇は当該セクション内の冷却装置への電力損失によって発生しました。
当該セクション内のいくつかの冷却ユニットの電力はすでに復元しており、温度が低下し始めていることを確認しております。
残りのオフラインの冷却ユニットは引き続き作業を続け、温度を通常レベルに戻します。
温度が回復次第、影響を受ける EC2 インスタンスと EBS ボリュームが回復します。
↓
(日本時間 03:42発表)
AP-NORTHEAST-1 リージョンのうちの 1 つのアベイラビリティーゾーン (apne1-az1) のある一部の区画で影響を受けていた
冷却ユニットの多くの電源が回復しました。室温は通常のレベルに近い状況まで戻り、ネットワーク、EC2 および EBS ボリュームの
回復処理を開始しています。ネットワークはすでに回復し、EC2とEBSボリューム の回復処理に着手しております。
回復処理が始まると再起動が発生するため、お客様にはお使いのインスタンスでアクションをとっていただく場合がございます。
EBSボリュームに関しましては、ボリュームが回復するにつれ、degraded I/Oパフォーマンスが通常に戻ります。
↓
(日本時間 04:26発表)
AP-NORTHEAST-1 リージョンのうちの 1 つのアベイラビリティーゾーン (apne1-az1) で影響を受けていた
冷却サブシステムの電源が回復しました。現在、室温は通常レベルで運用されています。
大部分の ES2 インスタンスと EBS ボリュームが復旧しておりますが、残りのインスタンスとボリュームの復旧作業に引き続き取り組んでいます。
↓
(日本時間 05:09発表)
アベイラビリティゾーン (apne1-az1) で影響を受けた一部の区画の室温は安定し、通常のレベルに戻りました。
多くの EC2インスタンスは回復済みとなっております。
多くの EBSボリュームも回復済みですが、残りの少数のボリュームの復旧作業に引き続き取り組んでおります。
----
AWSの発表では「単一アベイラビリティゾーンでのみ」と言及ございますが、
「マルチAZ」と呼ばれる冗長化構成であってもロードバランサ―を経由した
内部ネットワーク通信においてWEBサイト表示に影響が出ていたため、
別のアベイラビリティゾーン含め干渉はあったと考えております。
補足として、同時刻にロードバランサ―サービスに対してもAPI障害が
並行して発生しており影響があったのではないかと推察しております。
引き続き、
AWSより温度上昇と冷却システムの不備(電力供給低下)に関わる対策が
講じられる可能性が高く、情報発信されたものの確認をとってまいります。
////////////////////////
この度はご迷惑をおかけしたことを重ねてお詫び申し上げます。