EC2自体には問題がなくてもメトリクス値のみ異常になる場合はサンプル数を確認するとよい

木檜(こぐれ)和明エンジニアブログ 2024.11.13

EC2のメトリクス値に異常が見受けられる場合、EC2自体(OSの挙動)に問題がなくても(AWSが自動で)取得しているメトリクスのサンプル数が普段と違うことにより異常値を示している場合がある。

以下はいくつかのメトリクスのサンプル数が普段と違う場合にCPUUtilizationとNetworkInが異常値を示す例である。(04:00〜23:00の時間帯)

通常サンプル数は一定であるため、サンプル数が普段と違う(上記の場合は1分あたりのサンプル数が5から10に倍増している)時点でAWS側になんらかの原因があると考えられ、自然に元に戻る場合もあるがEC2インスタンスを再起動(停止・起動)してEC2インスタンスが動作するホストを入れ替えると解消する可能性がある。(上記は自然に元に戻ったパターン)

次にCPUUtilizationとNetworkInの値を見てみると、状況的にはこの2つの値は本来一定であるはずだが、まず平均値を見ると以下のことがわかる。

CPUUtilization
- 50%前後を行き来している
NetworkIn
- 半分に下がっている

さらに最大値・最小値を見ると以下のことが分かり、通常ではあり得ないパターンを示している。

CPUUtilization
- 最大は100%に張り付き、最小は0%と3%を行き来している
NetworkIn
- 最大は普段と変わらないにもかかわらず、最小が0のまま

OS内部のプロセス動作状況やsyslog・sar情報などを確認しても上記のメトリクス値になる要素がないため、AWS側の問題であることがわかる。

エンジニアブログ

この記事を書いた人

木檜(こぐれ)和明

プログラマ出身のインフラエンジニアです。
長らくオンプレ界隈にいましたが2017年にアイレットに入社しクラウド業界に転身しました。
ハード障害の時にデータセンタに行かなくてよくなったのが最高です。
興味分野がころころ変わるので随時 Twitter のプロフィール欄に反映しています。木檜(こぐれ)和明が書いた記事