クラウドインテグレーション事業部の石川優です!
AIエージェントで障害対応を自動化する Hawkeye という製品について紹介するセッションのレポートです!!

セッション概要

Modern AWS environments generate massive volumes of telemetry, yet incident diagnosis remains highly manual. Learn how enterprises are leveraging secure agentic AI to investigate incidents in real time, and turn CloudWatch and observability data from Datadog, Dynatrace and others into actionable fixes. Powered by Amazon Bedrock, NeuBird’s Hawkeye correlates signals across tools instantly, identifies root causes, and provides remediation within minutes, reducing MTTR by up to 90%. Join the session to see how enterprises adopt agentic AI to operationalize observability data and improve service reliability. Walk away with practical insights into building Agentic workflows that integrate seamlessly into AWS operations. This presentation is brought to you by NeuBird AI, an AWS Partner.
現代のAWS環境では膨大な量のテレメトリが生成される一方、インシデント診断は依然として手作業に依存しています。企業がセキュアなエージェント型AIを活用し、インシデントをリアルタイムで調査し、CloudWatchやDatadog、Dynatraceなどのオブザーバビリティデータを実用的な修正策に変換する方法を学びましょう。Amazon Bedrockを搭載したNeuBirdのHawkeyeは、ツール間のシグナルを瞬時に相関分析し、根本原因を特定、数分以内に修復策を提供することで、MTTRを最大90%削減します。本セッションでは、企業がエージェント型AIを導入し、監視データを運用化しサービス信頼性を向上させる手法を実演します。AWS運用にシームレスに統合するエージェント型ワークフロー構築の実践的知見を習得いただけます。本プレゼンテーションはAWSパートナーであるNeuBird AIが提供します。

内容

エージェントAI SREが解決する課題


本番環境での問題解決には、膨大なオブザーバビリティデータを分析する必要があります。従来の運用では、アラートが発生すると複数のエンジニアがDatadogやGrafana、CloudWatchなどにログインし、ダッシュボードを見ながら手作業で原因を特定していました。

こうした手作業のワークフローを、エージェントAIで自動化するのがHawkeyeの目的です。
ある保険会社の例では、MTTRが80%短縮し、生産性が10倍になったそうです。

Hawkeye を使うことで、インシデントコストを40~50%削減し、アラート疲れを解消、生産性を80%向上させることができます。

従来のインシデント調査がどうして難しいのか。

  • アプリケーション層が多すぎる
    • 複雑な依存関係の解決に175分以上かかる
  • テレメトリが多すぎる
    • 10TB以上のログとメトリクス
  • 明確さが足りない
    • 1日に数百から数千のアラート
  • 関係者が多すぎる
    • 平均8人のエンジニア

この規模のシステムでもこの製品であれば自動化することができるとのこと。

DatadogやGrafana、CloudWatchなどさまざまなデータソースから、LLMの推論で問題を即座に診断し、根本原因分析と是正措置を実施し、解決時間を大幅に短縮できます。

デモの様子は以下の通り。
調査プロセスは「Chain of Thought」として可視化されており、5〜6個の質問に答える形で進行します。各質問に対して、設定情報、トレース、ログ、メトリクスなど複数のデータソースを参照し、深い分析を実施します。

また、Claude CodeやCursor、GitHub Copilotといったコーディングエージェントと連携することができます。MCP (Model Context Protocol) サーバーを通じて、Hawkeyeの調査結果をコーディングエージェント側から利用できます。

Hawkeyeは、CloudWatch、Datadog、Dynatrace、Grafanaなど、複数のオブザーバビリティツールに対応しています。多くの組織では、CloudWatchでAWSサービスを監視し、PrometheusでKubernetesメトリクスを収集し、Datadogで別のサービスを監視するといった、複数ツールの併用が一般的です。

Hawkeyeは、これらすべてのツールを横断して調査できる「スイスアーミーナイフ」のような存在を目指しています。また、セキュリティを重視する企業向けには、SaaS版だけでなく、顧客のVPC内にデプロイするオプションも提供されています。

おわりに

受動的な運用業務から脱却し、プロアクティブな改善活動にシフトするための具体的なツールとして、Hawkeyeは非常に有望だと感じました。エンジニアの一存でSaaS製品を導入することは難しいですが、kiro-cli、MCPなどを使って自動化するヒントにもなったので、このセッションで得た知見を活かし、より効率的で戦略的な運用を実現していきたいと思います。