クラウドインテグレーション事業部の石川優です!
Amazon Bedrock AgentCore を活用し、接続やパフォーマンスのトラブルシューティングシナリオを通じて、運用を自動化するハンズオンのレポートです!
セッション概要
Join this technical workshop to build cloud operations solutions using AI agents. Get hands-on experience implementing Amazon Bedrock AgentCore features for streamlined debugging and intelligent analysis. Practice using real-world connectivity issues and performance operational scenarios. Learn to reduce incident resolution times through practical exercises using Amazon CloudWatch investigations.
この技術ワークショップに参加し、AIエージェントを活用したクラウド運用ソリューションを構築しましょう。Amazon Bedrock AgentCoreの機能を実装し、効率的なデバッグとインテリジェントな分析を実践するハンズオン体験を得られます。実際の接続問題やパフォーマンス運用シナリオを用いた実践演習を行い、Amazon CloudWatch Investigationsを活用したインシデント解決時間の短縮方法を学びます。
内容

インシデントが発生してから検知され、チケットが作成された後、エンジニアへの引き継ぎ、複数のチームや上級エンジニアを経由する調査を経て解決に至るプロセス全体に、通常30分以上かかる。
稼働率99.9%という高い目標を持つ企業でも、月間で約43分のダウンタイムは発生する可能性があると想定すべき。
なぜこれが重要か?

あらゆるシステムは常に故障するから。

従来のアラート対応フローでは、遅延が生じるだけでなく知識のサイロ化を招く。
専門知識やノウハウが特定のチームメンバー、あるいはチーム単位に閉じ込められ、企業全体のチーム間で非効率性につながる。

Bedrock を使うことで手動調査・トリアージ・分析の大半を自動化できる。


ハンズオンでは、作成したLambdaをツールとして使うトラブルシューティングエージェントを作成しました。

AgentCore Gatewayの3つのターゲット(Lambda)を作成。
- DNSResolutionTool: DNSホスト名をIPアドレスまたはインスタンスIDに解決
- ConnectivityTool: VPC Reachability Analyzerを活用してネットワーク問題を特定・修正
- CloudWatchTool: Amazon CloudWatchのログとメトリクスを取得

RDSのインバウンドルールを削除してネットワーク障害を発生させ、エージェントに診断を依頼しました。
エージェントは、ホスト名から名前解決を行い、ネットワークの接続を分析し、修正を提案してくれました。

修正までお願いし、VPC Reachability Analyzerからも接続が復旧したことを確認できました。
「やって欲しいことをツールとしてLambdaに起こす必要がある」という点が重要とのことでした。

時間がなくてできませんでしたが、AgentCore Memory でセッション間でコンテキストを共有したり、A2A プロトコルで、エージェント間でコンテキストを共有することもできるようです。
おわりに
AIエージェントによるクラウド運用の自動化は、もはや未来の話ではなく、今日から実装できる現実的なソリューションです。このワークショップで得た知見を活かし、まずは小規模な範囲からAgentCoreの導入を検討していきたいと思います。
定型的な運用作業から解放され、より本質的な改善活動やアーキテクチャ設計に時間を使えるようになる日が、そう遠くないことを実感できたセッションでした。