まえがき

cloudpackサポートの木村(富)です。

「Amazon EC2のステータスチェックが失敗してEC2がダウンして接続できなくなった理由が知りたい」
このようなお問合せを非常に多くいただきます。

本記事は弊社請求代行サービスをご契約のお客様に対して確認するポイントをご紹介させていただきます。
※弊社との運用保守契約がございますお客様は担当者にご連絡ください。弊社にて調査致します。

内容

ポイント① Amazon EC2インスタンスのステータスチェックを確認

すべてのEC2インスタンスに対して自動チェックを行い、ハードウェアおよびソフトウェアの問題を特定してくれる機能です。
この結果である程度問題を識別してくれるようになっています。
このステータスチェックには2つのタイプがあります。

システムステータスのチェック

インスタンスを提供しているAWS側の障害が検出されます。
具体的には以下のような原因例になります。

・ネットワーク接続の喪失

・システム電源の喪失

・物理ホストのソフトウェアの問題

・ネットワーク到達可能性に影響する、物理ホスト上のハードウェアの問題

いわゆるホスト側、基盤側(ハードウェア)に原因があるものになります。
クラウドサービスとはいえ、物理的な機器は存在するため必ず起こりうる問題です。
その為、AWSも障害は不可避とのことなのでサービスを止めたく無いのであれば冗長化(複数インスタンス)で運用してください、と注意喚起しているものになります。

インスタンスステータスのチェック

こちらはソフトウェア側の障害になります。
ユーザー側の使用に関係する原因が非常に高いものになります。
具体的には以下のような原因例になります。

・失敗したシステムステータスチェック

・正しくないネットワークまたは起動設定

・メモリの枯渇

・破損したファイルシステム

・互換性のないカーネル

ただし、システムステータスチェック失敗によって何かしらの影響を受けている場合があります。
システムステータスチェックが失敗していましたら、大抵インスタンスステータスチェックも失敗しています。

詳細は以下AWSドキュメントをご確認ください。

・インスタンスのステータスチェック
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html

ポイント② AWSコンソール上での確認場所

AWSコンソールよりEC2サービス>インスタンス>対象インスタンスを選択>ステータスチェックタブ 画面

AWSコンソールよりEC2サービス>インスタンス>対象インスタンスを選択>モニタリングタブ 画面

ポイント③ 対応方法

・システムステータスチェックのみが失敗
・システムステータスチェックとインスタンスステータスチェックの両方が失敗
上記の場合は該当EC2インスタンスを「インスタンスを停止」後、「インスタンスを開始」で起動してください。
通常は一度停止することで現在の問題となっているホストを外し、起動することで別の正常なホストへ移動します。
※「インスタンスを停止」と「インスタンスを開始」でもホスト変更されない場合もあります。
※「インスタンスを再起動」ではホストの移動が無いため復旧致しません。

インスタンスを起動して pending 状態になると、インスタンスは新しいホストコンピュータに移動されます (ただし、場合によっては、インスタンスが現在のホストに残ることもあります)。
インスタンスの再起動は、オペレーティングシステムの再起動と同等です。インスタンスは同じホストコンピュータに残り、そのパブリック DNS 名、プライベート IP アドレス、およびその他のデータをインスタンスストアボリュームに維持します。

・インスタンスの停止と起動 (Amazon EBS-Backed インスタンスのみ)
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ec2-instance-lifecycle.html#instance-stop-start

・インスタンスステータスチェックのみが失敗
こちらの場合はユーザー側の使用に関係しますのでネットワークの設定、メモリ状態、OS内部のエラーログなどを確認してください。
問題がある箇所を修正することで回復致します。
以下AWSドキュメントをご確認いただき、修正対応を実施してください。

・ステータスチェックに失敗したインスタンスのトラブルシューティング
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/TroubleshootingInstances.html
・接続できないインスタンスのトラブルシューティング
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/instance-console.html
・間違ったボリュームからの起動
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/instance-booting-from-wrong-volume.html

ポイント④ 問い合わせについて

システムステータスのチェック

こちらについてはAWSサポートに問い合わせても回答いただけません。
機器の障害などは不可避であり、常に起こり得ます。
その度に問い合わせを受けて調査するとAWSサポートの窓口がパンクするためです。

以下AWSドキュメントにて予め記載されておりますのでご確認ください。

障害の原因についてのお問い合わせ

障害発生は予測不可能であり、また不可避です。AWS ではインフラの障害に対し要因分析および発生率の低減に努めておりますが、障害の発生を完全に防ぐことは困難です。
このため AWS では「Design For Failure」(故障を前提とした設計)を推奨しています。また、監視サービスやリソースの提供、ベストプラクティスのご案内等を行っています。
たとえば EC2 において、お客様が AWS 基盤の異常を検知した場合、不安定なリソースは廃棄していただき、新たに別の EC2 を調達していただく等、クラウドの特性を活かしたアクションが可能です。
AWS では、障害内容の詳細なご説明は行っておりません。詳細な原因等をお伝えしても、お客様の回避策には影響がなく、お客様の課題解決において本質的ではないと考えているためです。むしろ監視サービスの適切な活用や、一次復旧を優先する方法をご案内することで、お客様の課題を迅速に解決することを目指します。

・技術的なお問い合わせに関するガイドライン
https://aws.amazon.com/jp/premiumsupport/tech-support-guidelines/

インスタンスステータスのチェック

こちらも基本的に回答いただけません。
AWS 責任共有モデル よりお客様にて作成されたリソースにおいては一旦お客様にて原因の調査、確認、修復を実施していただく必要があります。
予め以下AWSドキュメントを参考にご確認ください。

・ステータスチェックに失敗したインスタンスのトラブルシューティング
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/TroubleshootingInstances.html
・接続できないインスタンスのトラブルシューティング
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/instance-console.html
・間違ったボリュームからの起動
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/instance-booting-from-wrong-volume.html
・AWS 責任共有モデル
https://aws.amazon.com/jp/compliance/shared-responsibility-model/

弊社請求代行サービスをご契約のお客様につきましては、サービスの仕様上お客様から直接AWSサポートへお問い合わせいただくことができません。
もし、AWSサポートへお問い合わせをご希望の際は下記の内容を添えて弊社までお問い合わせいただきますようお願いいたします。

■ 【事象の発生時刻】
■ 【問い合わせの背景(現状)】
■ 【問い合わせ内容】
■ 【AWS Health DashboardよりEC2メンテナンスに該当しないか確認】
■ 【影響範囲】
■ 【上記ドキュメントを確認して調査した詳細な内容】
■ 【AWSリソース情報】
■ 【ドキュメント内の「システムログの取得」より取得したログの提供】

終わりに

・EC2インスタンスが突然ダウンした。
・EC2に接続できなくなった。
上記のようなEC2 ステータスチェックに関するお問い合わせは非常に多いため、
基本的にAWSサポートではこのような問い合わせは受け付けていただけません。
何卒、ご認識の程よろしくお願い致します。

また、対象インスタンスがEC2メンテナンスの対象ではなかったかAWS Health Dashboard のイベントログをご確認ください。
AWSからのEC2メンテナンス通知に気付かず、メンテナンス対応にてEC2インスタンスがダウンした可能性もございます。
※こちらが原因であったことも多数ございます。

予めご了承の程よろしくお願い致します。