クラウドインテグレーション事業部の石川です。
AIエージェントで運用を自動化というテーマですが、インシデント対応だけでなく、運用の標準化やオンボーディングでのAI活用など、運用全般にAIを活用する事例が紹介されており、かなり面白いセッションでした!

セッション概要

See how AI-powered automation is revolutionizing digital operations at organizations like Warner Brothers Discovery. AI agents now work across the entire lifecycle, reducing toil by adjusting schedules, diagnosing issues, scribing incidents, executing remediation, and standardizing responses, freeing teams for higher-value work. Discover how organizations apply agentic AI to three types of operational work: well-understood, partially understood, and novel or major events. Learn how to evaluate which tasks are best for agents, where GenAI adds value, and what still demands human expertise so your teams can innovate faster, operate smarter, and continuously improve. This presentation is brought to you by PagerDuty, an AWS Partner.
Warner Brothers Discovery のような組織において、AIを活用した自動化がどのようにデジタル運用に革命をもたらしているかをご覧ください。AIエージェントは現在、ライフサイクル全体にわたって機能し、スケジュールの調整、問題の診断、インシデントの記録、修復の実行、対応の標準化によって労力を削減し、チームをより価値の高い業務に割り当てています。組織がAIエージェントを十分に理解されている業務、部分的に理解されている業務、新規又は重大なイベントの三種類の運用業務にどのように適用しているかをご覧ください。エージェントに最適なタスク、GenAIが付加価値をもたらす分野、そして依然として人間の専門知識が求められるタスクを評価する方法を学び、チームのイノベーションを加速し、よりスマートに運用し、継続的な改善を実現します。このプレゼンテーションは、AWSパートナーであるPagerDutyが提供しています。

内容


会場の雰囲気

PagerDuty の Laura Jones 氏 と Warner Brothers Discovery の Tom Leaman 氏 の対談形式のセッションで、あまりスライドはなくほとんどアドリブで話しているようでした。
印象に残った部分のみをかいつまんで紹介します。

運用メタデータスキーマ

Tom氏は、2022-2023年にDiscovery CommunicationsとWarner Mediaが統合し、新しいストリーミングアプリケーション「Max」を9ヶ月という短期間でローンチした経験を共有してくれました。

この統合プロジェクトで最も重要だったのは、2つの異なる組織文化を統合しながら、共通の技術基盤と運用プロセスを確立することでした。
そこで導入されたのが「Operational Metadata Schema(運用メタデータスキーマ)」というものです。

このスキーマは、リポジトリ作成時点から、CI/CDパイプライン、インフラ、サービス、メトリクス、そして最終的にはインシデントまで、ソフトウェア開発ライフサイクル全体を通じてサービスやシステムをカタログ化します。これにより、インシデント対応時のトレーサビリティが大幅に向上し、FinOpsなどの領域でも活用できるようになったそうです。

システムの理解にAIエージェントを活用する

「ドキュメントを整備すれば良いというわけではないぞ」という話が印象的でした。
会場で「インシデントの重要度について議論したことがある人?」との質問に、ほぼ全員が手を挙げました。重要度の判断が難しい理由として、以下が挙げられました。

  • ドキュメントが不足している、または存在を知らない
  • ドキュメントが膨大すぎて理解できない
  • 製品ラインによって重要度の基準が異なる

「15~20枚のwiki が新人のオンボーディングでどれだけ役に立った?
結局”ページシニアエンジニア”にシステムがどうなっているか聞くでしょ?」

この課題に対して、Warner Brothers Discovery では、AIエージェントで活用し効率化しているそうです。
AIエージェントを運用メタデータやサービスカタログ、ランブックなどのナレッジベースに接続することで、新人でも迅速にシステムを理解できるようになるとのことでした。
特にインシデント対応中は、数百ページのWikiを探し回る時間はありません。
AIエージェントがその場で必要な情報を提供してくれることで、対応速度が大幅に向上します。

Warner Brothers Discovery でのインシデント対応

Warner Brothers Discoveryでは、インシデント対応ライフサイクルの各フェーズでAIと自動化を活用しています。

検知(Detect)フェーズ:

  • PagerDutyのノイズリダクション機能により、類似アラートを自動的に統合。15個の個別インシデントが1つにまとめられることで、インシデント作成数が40-50%削減されました。
  • Operations Consoleを活用し、重要なローンチ時にはフィルタリングされたインシデントをリアルタイムで監視。

トリアージ・診断(Triage & Diagnose)フェーズ:

  • AIエージェントがWikiドキュメントやアーキテクチャ図から情報を取得し、エンジニアが不慣れな領域でも迅速にコンテキストを理解できるようサポート。
  • Tom氏自身、インシデント対応中に「Limited Free Experience(LFE)」という聞き慣れない略語に遭遇した際、AIエージェントに質問してすぐに詳細情報を得られた経験を共有しました。

修復(Repair)フェーズ:

  • ステータスアップデートの自動生成。インシデント中は、変化するメトリクス、ログ、Slackでの会話、ビデオ会議など、膨大な情報が飛び交います。AIエージェントがこれらを解析し、ステークホルダー向けの構造化されたアップデートを生成することで、オペレーターの負担を大幅に軽減。
  • 特にSev 1インシデントでは、経営幹部向けのコミュニケーションが必要になりますが、技術的な詳細をビジネスコンテキストに翻訳するのは容易ではありません。AIエージェントがこの翻訳作業を支援します。

学習(Learn)フェーズ:

  • Custom Fieldsを活用し、インシデントに追加のメタデータ(影響範囲、カスタマーサポートチケット数など)を記録。

まとめ

私は運用の部署に所属しており、作られたシステムを引き受け、それを多いと10案件程度同時に抱えることがある状況です。
そこで、Warner Brothers Discovery のオンボーディングに AI エージェントを活用するというアイデアはかなり刺さると思いました!!