まえがき

こんにちは
cloudpackサポートの伊藤です。

Amazon RDS が意図せず再起動し、原因を調査したい方 向けに
【弊社へお問い合わせいただく前】に、事前にご確認いただきたい内容をまとめました。
以下では、意図しない再起動が障害発生による影響なのか否かを判断する上で必要な切り分け方法を説明しております。

本記事の対象者

Amazon RDS が意図せず再起動してしまい原因を調査したい方

事前確認

Amazon RDS が意図せず再起動した場合、AWS側で起こった障害が原因なのか否かの切り分けを行う必要がございます。
下記記載の確認事項を参照した上で、必要情報の収集をお願いします。
情報を収集していただいた上でご依頼いただけましたら、早急にAWSへのサポート連携を行い原因追及いたします。

【確認事項】
1.AWS Health Dashboard の確認
2.メンテナンスウィンドウの設定時間
3. RDS イベントログの確認
4.CloudWatch でメトリクスの確認
5.Performance Insightsの確認(事象発生時、有効化してあれば調査可能)

調査

1.AWS Health Dashboard の確認

AWS Health Dashboardでは、下記の2点をご確認ください。

①AWS サービス自体に問題が発生していないか

【確認方法】
[AWS Health Dashboard] – [Service health]より事象発生日時を指定して、
障害情報がないか確認ください。

②AWS リソースに影響を与える重要なイベントはないか

例 )
・緊急のハードウェアメンテナンス
・RDS に関連するサービスに障害 など

【確認方法】
[AWS Health Dashboard] – [Your account health]-[Event log]より事象発生日時周辺でRDSに影響を与える重要なイベントがないかを確認ください。

2.メンテナンスウィンドウの設定時間

・障害発生時刻 (再起動が起こった時刻)とメンテナンスウィンドウが重なっていないかを確認してみる。
※「自動アップグレードなどのイベントが設定されていた」等で再起動がかかることがあります。

3. RDS イベントログの確認

過去 24 時間のイベントを確認できます。

【確認方法】
[Amazon RDS] – [Events]

過去7日間までのログを確認。
・7 日間すべての Amazon RDS イベントを表示するにはCLIで下記コマンドを実施。
- aws rds describe-events --duration 10080 --source-identifier --source-type db-instance

過去14日間までのログを確認。
・14日間すべての Amazon RDS イベントを表示するにはCLIで下記コマンドを実施。
- aws rds describe-events --duration 20160 --source-identifier --source-type db-instance

公式:Amazon RDS イベントの表示
https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/AuroraUserGuide/USER_ListEvents.html

4.CloudWatch でメトリクスを調査する

再起動前のパフォーマンスやリソース使用状況に問題がなかったか、キャパシティ不足や突発的な重たい処理が原因でないかを切り分けるため、
下記のメトリクスをご確認ください。

※再起動が発生した時刻の前と後を比較したいため、前後3時間のメトリクスを取得ください。

【確認するメトリクス】
・CPUUtilization
・DatabaseConnections
・NetworkReceiveThroughput
・NetworkThroughput
・NetworkTransmitThroughput
・Read/WriteIOPS
・FreeStorageSpace

5.Performance Insightsの確認 (有効化していた場合のみ)

Performance Insightsを確認するには障害発生前から有効化にしている必要がございます。
有効化されていて、上記に記載の1~4の手順でも原因がわからない場合にご確認ください。
※パフォーマンスデータの無料で保存できる期間は7 日間

【Performance Insightsで確認すべき主要なメトリクス】
①待機イベント
②SQLクエリのパフォーマンス
③データベーススループット
④アクティブセッションとブロックされたセッション

公式:Amazon RDS での Performance Insights を使用したDB 負荷のモニタリング
https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/UserGuide/USER_PerfInsights.html

最後に

1~5を確認いただき、それぞれについてのコマンド、ピクチャを取得した上で、弊社にお問い合わせいただければと思います。

AWSに依頼する上で必要な情報を下記に簡単にまとめました。
上記にそれぞれ調査方法を記載しておりますため、サポート起票時に情報のご提供をお願いいたします。

【ご提供いただきたい情報】
・障害・イベント情報の確認結果のピクチャ
1.AWS Health Dashboard の確認結果について
2.メンテナンスウィンドウの設定時間

・RDSイベントログのコマンド結果
3. RDS イベントログの確認

・各メトリクスのピクチャ
4.CloudWatch でメトリクスを調査する
5.Performance Insightsの確認 (有効化していた場合のみ)

まとめ

以上、Amazon RDS が意図せず再起動した場合に事前にお客様に確認いただきたい内容となります。
迅速な対応をするためにも、本記事記載の情報提供をよろしくお願いいたします。