クラウドインテグレーション事業部の石川優です!
Amazon CloudWatch investigations を使ってインシデント対応と根本原因分析プロセスを劇的に高速化する方法を学ぶハンズオンのレポートです!!

セッション概要

When critical incidents occur, every minute counts. This session showcases how AI can dramatically speed up your incident response and root cause analysis process. Work through real-world scenarios using Amazon CloudWatch investigations to experience AI-driven insights in action. Practice initiating guided investigations through natural language queries and alarm triggers. Gain hands-on experience using generative AI to rapidly analyze system telemetry, correlating data from metrics, logs, and deployment events. Learn to evaluate AI-generated suggestions to pinpoint root causes more efficiently, significantly reducing mean time to resolution (MTTR).
重大なインシデント発生時には、一分一秒が重要です。本セッションでは、AIがインシデント対応と根本原因分析プロセスを劇的に加速させる方法を紹介します。Amazon CloudWatch Investigationsを用いた実世界のシナリオを実践し、AI駆動の洞察が実際に機能する様子を体験してください。自然言語クエリやアラームトリガーによるガイド付き調査の開始方法を練習します。生成AIを活用してシステムテレメトリを迅速に分析し、メトリクス、ログ、デプロイメントイベントからのデータを相関させる実践的な経験を積みます。AIが生成した提案を評価し、根本原因をより効率的に特定する方法を学び、平均復旧時間(MTTR)を大幅に短縮します。

内容

会場はこんな感じで、八人くらいでまとまって教えてもらいました!

大規模な運用には以下のような課題があります。

  • データ不足
  • 情報過多
  • アラームとツールで疲労
  • データの相関
  • 修復と予防

CloudWatch Investigations で年間87時間の工数削減と$42,000分の損失を回避できます。

ここからハンズオンで、CloudWatch Investigations とアプリケーションシグナルを使用して、Amazon EKS で実行されている動物病院アプリケーションの問題を調査します。


↑こんなアプリ


↑こんな構成

シナリオ:MongoDB の失敗

CloudWatchコンソールを開き、
ナビゲーションペインで、アプリケーションシグナル→サービスを選択します。
サービス リスト領域を見ると、 nutrition-service-nodejsサービスに可用性の問題が発生していることがわかります。

まずは調査を開始するためにSLOを作成します↓



これでSLOが監視されます。


作成後、SLO パフォーマンスが低下し、エラー バジェットが消費されることがわかります。

調査を開始する


SLO を選択した状態で、[アクション] > [調査]をクリックします。

すると↑のような調査画面が横に生えてきます。

調査をクリックすると、AIエージェントが分析している内容を確認できます。
ステータスコードなど確認し、SLOとの相関を考えてくれているようです。

調査が完了すると、根本原因の仮説が表示されます。

仮説をクリックすると詳細な分析↑を表示できます。
仮説の詳細ページには、セクションに分かれてまとめられた包括的な情報が含まれています。

  • 根本原因の概要:問題の概要
  • 影響を受けるサービスと指標
  • 何が起こったか:出来事のタイムライン
  • 証拠:裏付けとなるデータと指標
  • 分析:詳細なテクニカル分析
  • 考えられる原因:特定された潜在的な根本原因

これが5分程度で出てきました…!

おわりに

同じ調査を人力でやろうとすると、一つひとつログやメトリクスを確認し、考察を行う必要があり、数時間かかってもおかしくありません。
特に構成が複雑であったり、環境固有の事情があるなどすれば、属人化する恐れもあります。
もちろんこの機能の出力だけを盲信するわけにはいきませんが、品質、対応を標準化することや対応時間短縮の助けになると思います!!