はじめに

AIエージェントの登場は、開発・運用の世界に革命をもたらし、「開発高速化」、「生み出されるアプリ数の増大」、そして「アプリ開発の民主化」といった大きなメリットを享受できるようになりました。
もはやエンジニアでなくとも、概要を伝えればAIがアプリを作成してくれる時代。
2〜3人の少人数精鋭チームで、AIに的確な指示を出せる人材がいれば、これまでの何倍ものアウトプットを出せる可能性があります。

しかし、この大きな変化は、新たなリスクも生み出します。
特に今回のセッションで警鐘を鳴らされたのが、「AIによるシステム障害の増加」です。
生産性向上の裏側で、なぜ障害が増えるのか。そして、この新たな脅威にどう立ち向かうべきなのか。
本記事では、このセッションで得られた知見を皆さんにお届けします。

イベント概要

  • イベント名
  • AWS Summit Japan 2025

  • 開催日時
  • 2025年6月25日(水) 10:00-18:30、26日(木) 10:00-17:00

  • 開催場所
  • 幕張メッセ & ライブ配信

  • 公式サイト
  • AWS Summit Japan 2025

セッション概要

  • セッション名
  • AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~

  • セッション内容
  • AIエージェント時代のシステム障害増加の可能性、インシデント管理体制の重要性、AIによる障害からの学び方、AIを活用した障害予防の考え方。

  • 登壇者
  • 草間 一人 氏(PagerDuty株式会社 プロダクトエバンジェリスト)

AI エージェント時代がもたらす新たな障害リスク

AIエージェントによる開発の加速は、一見するとポジティブな側面ばかりに見えます。
しかし、セッションではその裏に潜むリスクが明確に語られました。

まず挙げられたのは、「デプロイ回数の増加」です。
開発が高速化するということは、その分システムへの変更頻度も上がります。
そして、「障害のほとんどはデプロイによって引き起こされる」という現実があります。
いくらAIが優秀でも、デプロイ回数が増えれば、それに伴ってインシデント発生のリスクも高まるのは避けられません。

さらに懸念されるのが、「人手を介さないコードの増加」です。
AIが自動生成したコードやプロセスは、人の目を通さずにデプロイされるケースが増える可能性があります。
これにより、セキュリティやスケーラビリティが十分に担保されないままバグが発生するといった、予期せぬトラブルが生じるリスクが指摘されました。

AI 時代のインシデント管理の「あるべき姿」

このAI時代の新たな障害リスクに、私たちはどう立ち向かうべきなのでしょうか。
セッションでは、その答えとして「しっかりとしたインシデント管理の体制」の重要性を基本と応用について具体的に解説してくださいました。

基本をしっかりと固めるインシデント管理

  • オブザーバビリティ
  • 障害発生時だけでなく、普段からシステムの状態を深く理解し、異常の検知と原因追跡が可能な状態にしておくことが不可欠です。

  • インシデント対応プロセスの構築
  • 初動対応から復旧までのフローを明確にし、チーム全員が同じ認識で動けるような体制を整える必要があります。

  • 適切な情報共有と連絡手段
  • インシデント発生時、最も重要なことの一つが「コミュニケーション」です。
    コミュニケーションチャンネルの整備や、ステークホルダーとの定期報告の重要性が語られました。
    「適切なタイミングで適切なメッセージをする」ことで、混乱を防ぎ、迅速な解決へと導くことができます。
    AIエージェントが高度化しても、最終的に問題を解決し、安心を与えるのは人間同士のコミュニケーションであると改めて認識させられました。

AI時代だからこそ必要な「振り返り」

AIエージェント時代に障害が増えるからこそ、「インシデントからの学び方」がこれまで以上に重要になります。
セッションでは、インシデントを単なるトラブルで終わらせず、その原因を徹底的に分析し改善に繋げることの重要性が強調されました。
具体的には、Jeliのようなツールを使って分析することで、よりスマートに、より効果的に改善案を導き出すことが可能になるとのことでした。

「開発と運用」の限界から「フルサービスオーナーシップ」へ

セッションでは、もう一つ重要な示唆がありました。
それは、「開発」と「運用」に分ける従来の考え方に限界があるということです。
アプリ障害が起きた際、多くの場合「運用」チームが対応し、原因究明のために「開発」チームにアプローチしますが、この分業が時に解決を遅らせる要因となります。

そこで提案されたのが、「フルサービスオーナーシップの適用」です。
これは、単に「コードを書いた人がその責任を負う」ということではなく、開発者が「開発、検証、リリース、運用」を一貫して改善していくという、サービスのライフサイクル全体に責任を持つ考え方です。
AIエージェントが開発を加速させるからこそ、その裏側にある「確実で堅実な改善、しっかりとした運用」を、開発者自身が意識し、改善していくことが求められます。

AI による障害を AI で防ぐ考え方

AIが障害を増やす可能性がある一方で、「AIによる障害をAIで防ぐ」という、未来志向のアプローチも提示されました。

これは、PagerDutyが提供する「AIエージェント」(SREエージェント、Shiftエージェント、Insightsエージェント)といった、それぞれの分野のノウハウを内包した機能群によって実現されます。

インシデントの状況を以下の3つのタイプに分類し、それぞれに対してAIがどのように貢献できるかを明確に説明されました。

インシデントの種類とAIの貢献

  • 未知で新しいインシデント
  • 対応者が手動で主導しつつ、AIは異常検知や初期の情報収集、自動化されたタスク実行で対応者をアシストします。
    人間が判断を下し、AIがその実行を支援するハイブリッドなアプローチが効果的です。

  • 部分的に理解しているインシデント
  • AIは自動化された対応や解決策の提案を行う一方で、対応者はその提案を基に適切な判断を下し、必要に応じて介入します。
    AIが過去のデータから学習した知識を共有し、人間の判断を加速させるアシスト役となります。

  • 十分理解している
  • このタイプのインシデントは、100% AIと自動化によって対応が完結します。
    AIが自動で「検知・分析・修復」まで実行することで、人間の介入なしに迅速な解決が可能です。
    これにより、人間の労力をより複雑な問題解決に集中させることができます。

このようにPagerDutyのAIエージェントは、インシデントの「既知度」に応じて最適な支援を提供することで、異常検知から原因追跡の自動化、そして改善案の提案まで、一連のプロセスをスマートかつ効果的にサポートします。
結果として、人間はより高度な判断や戦略的な業務に集中できるようになり、インシデント対応の迅速化と効率化が実現されます。

まとめ

今回のセッションは、AIエージェント時代がもたらすシステム開発・運用の未来像と、それに伴う新たな課題をはっきりと示してくれました。
AIによる開発の加速は、確かに私たちの生産性を飛躍的に高めます。
しかし、その裏で増大するであろうシステム障害のリスクに対し、私たちは決して目を背けてはなりません。

「基本をしっかりと固めたインシデント管理体制」、「適切なコミュニケーション」、そして「AIを活用したインシデントからの学びと改善」が、AI時代のシステム障害に強く、すぐに元に戻せるような仕組みを作る鍵であることが、多くのヒントと共に示されました。

さらに、従来の「開発」と「運用」の分業の限界を超え、「フルサービスオーナーシップ(開発者がサービスのライフサイクル全体に責任を持つ考え方)」が非常に重要であることも痛感しました。
AIエージェントによる開発の高速化が進む今だからこそ、コードを書く人自身が運用まで見据え、確実で堅実な改善を続けていくことでAI時代のシステム障害にうまく対応し、乗り越えることができると思います。