こんにちは、MSPセクションの毛利です。

幕張で開催された「AWS Summit Japan 2025」に参加してきました。

今回はセッション「AWS におけるグレー障害の検出と対策」に関するレポートです。

「グレー障害とは何か?」「グレー障害をどう検知しどのような対策がとれるのか?」について本セッションで得た知見をお届けします。

セッション情報

AWS – 5 0 AWS におけるグレー障害の検出と対策

グレー障害は、クラウド環境でアプリケーションのパフォーマンスに微妙な影響を与えることが多い、検出が困難な障害です。これらの障害は、システムの全体的なダウンタイムにはつながらないかもしれませんが、ユーザーエクスペリエンスの低下や潜在的なデータ損失につながる可能性があります。このセッションでは、グレー障害の特性と AWS 環境での一般的な発生シナリオを紹介します。さらに、グレー障害を効果的に検出するための技術と戦略を紹介し、Amazon CloudWatch の Contributor Insights、および複合アラームの使用方法について掘り下げます。また、グレー障害に対処するためのアプローチ、特に Application Recovery Controller を使用した Availability Zone の退避について解説します。

アジェンダ
  1. グレー障害の定義と発⽣シナリオ
  2. グレー障害の検出
  3. グレー障害への対応
  4. 障害対応の訓練
  5. まとめ

グレー障害とは

そもそもグレー障害とはなんでしょうか。

本セッションではグレー障害を以下のように定義しています。

完全な停⽌ではないが、サービスの質が低下している状態

上記スライドのように、システム側には問題は起きていないが、ユーザー側には問題が起きている状態のことをさします。

  • レイテンシーの平均は59.66msで閾値内
  • User 1のレイテンシーは70msで閾値を超えておりサービスの質が低下している

システム側には問題は起きていないため、監視ツールによる検出が難しいことが特徴です。

グレー障害に対して何ができるのか

このようなグレー障害に対してどのような手が打てるのでしょうか。

グレー障害の検知

Amazon CloudWatch を活⽤したグレー障害の検出方法が紹介されていました。

  • Contributor Insights
  • 複合アラーム

Contributor Insights

Contributor Insights を使⽤することで、膨⼤な数の要素から重要な情報を抽出することができます。

  • EMF(Embedded Metric Format)を使⽤することでログデータに直接メトリクスを埋め込むことが可能となり、ディメンションを活⽤した柔軟な監視が可能となります

  • Contributor Insights を使⽤することで、⾼カーディナリティな(値の種類が⾮常に多い)ディメンションから重要な情報を抽出し分析することができます

  • 「特定のユーザーまたは特定のインスタンスでレイテンシーが60秒を超えていないかチェック」のような監視が可能となります

複合アラーム

複合アラームを使用することで、複数のアラームの状態を組み合わせて監視することができます。

  • 複合アラームで特定AZの問題を検出することも可能です
  1. 「AZ1内のサービス障害を検知するアラーム」と「AZ1内の高レイテンシーを検知するアラーム」を設定
  2. 「AZ1だけの問題かチェックする」ために「AZ2とAZ3でアラームが上がっていないことを確認するアラーム」を設定
  3. 「AZ 1 の複数インスタンスでのエラー発⽣*を検知するアラーム」を設定
  4. 上記アラームを複合することで「AZ1の障害を検知するアラーム」を検知できる

グレー障害の対策

それでは、検知したグレー障害に対してどのような対策が取れるのでしょうか。

本セッションでは「状況に応じて適切な手段を選択する」必要性があると説明されていました。

その中で「広範な問題への対応が可能」「障害の原因特定に時間をかけずに、まず影響を回避できる」手段としてアベイラビリティゾーンの切り離しが紹介されていました。

また、AZを切り離す方法としてAmazon Application Recovery Controller (ARC)を使ったゾーンシフトについて説明がありました。

ゾーンシフトすることで「特定AZへのトラフィックルーティングを回避」することができ、特定有効期間の後で自動的に復帰することも可能です。

また、ゾーンシフトする際に判断に迷わないよう「明確な SLO/SLI の設定が不可⽋」であり、いざという時に対応できるための障害訓練に使える「AWS Fault Injection Service(FIS)」についても説明がありました。

まとめ

単純には検知することが難しい「グレー障害」も、Amazon CloudWatchのContributor Insightsおよび複合アラームを用いることで検知可能であることがわかりました。

今回はアベイラビリティゾーンを切り離すゾーンシフトを中心にお届けしましたが、障害を検知することで、インスタンスやアプリケーションといった単位でも適切な対応が取れるようになると感じました。

MSPの監視業務は障害を検知する第一線です。AWSの機能を活用して障害をより早く正確に検知し、適切な対応を取ることで、お客様に貢献できるよう努めていきたいと思います。