はじめに

こんにちは、MSPセクションの小野瀬です。

本連載では、私が取り組んだ「AIを活用した問題管理プロセスの構築」について、全2回にわたってお話しします。
第1回となる今回は、私たちが直面していた課題と、なぜ今「仕組み」を変える必要があったのか、その背景をお伝えします。

実は私自身、これまで問題管理の経験があったわけではありません。むしろ、アラート対応では多くの失敗をしてきました。

  • 慣れた作業ゆえの油断から、手順書の細かな更新点を見落としてしまった。
  • 複数の対応が重なった際、確認プロセスが疎かになってしまった。
  • 「相手も分かっているはず」という思い込みから、チーム間の連携で認識齟齬を生んでしまった。

こうした自身の弱点や失敗経験を通じて、私はひとつの事実を突きつけられました。
「個人のスキルアップはもちろん重要です。しかし、人間の認知能力にはどうしても限界があり、人だけに頼る運用には無理がある」

この実感が、今回のプロジェクトの原動力になっています。

「解熱剤」を飲み続けていませんか?

まず、少しだけ視点を変えてみましょう。IT運用の世界には「インシデント管理」と「問題管理」という言葉がありますが、これを医療に例えると分かりやすくなります。

  • インシデント管理(対症療法):
    • 熱が出たから、とりあえず解熱剤を飲む。
    • 目的:症状(サービス停止)を抑え、日常に戻ること。
    • アクション:手順のやり直し、バックアップからの復旧、顧客へのお詫び。
  • 問題管理(根本治療):
    • なぜ熱が出たのか精密検査し、病巣を取り除く、あるいは生活習慣を改善する。
    • 目的:病気(トラブル)にならない体を作ること。
    • アクション:根本原因の特定、恒久対策、プロセスの改修。

多くのシステム運用の現場では、どうしても「対症療法」のプロフェッショナルになりがちです。お客様のサービスを止めてはいけない、止まったら一秒でも早く戻さなければならない。

しかし、解熱剤で熱を下げても、病気が治ったわけではありません。薬が切れればまた熱が出ます。
「対症療法」だけで満足してしまうと、現場は永遠に薬を飲み続け、次第に疲弊していきます。

なぜ、忙しいのに「問題管理」をやるのか?

「根本治療が大事なのはわかる。でも、そんな時間はない」
現場のメンバーなら、誰もがそう思うはずです。

しかし、「忙しいからこそ、問題管理をやるべき」だと思っています。

組織にとっては「サービス品質の向上」や「属人化の解消(誰でも対応できる体制)」といった経営的なメリットがありますが、実は現場のメンバーにとってこそ、最大のメリットがあります。

少し想像してみてください。
毎回、複雑なコマンドを手入力し、「絶対に間違えられない」という緊張感の中でEnterキーを押す作業(個人の注意深さに依存した運用)と、検証済みのスクリプトをワンクリックで実行するだけの作業(仕組み化された運用)。

前者は常に事故のリスクと隣り合わせですが、後者は誰がやっても安全かつ確実に遂行できます。
「仕組み」を変えるということは、日々の業務からこの「無用なプレッシャー」を取り除くことと同義です。

その結果、現場には以下のような変化が訪れます。

  • 「心理的負担」からの解放:
    「ミスをするかも」という不安を仕組みでカバーし、現場の安心感を担保します。
  • 「本来の業務」への集中:
    トラブル対応という「負の資産」を減らし、サービス改善などの「正の価値」に時間を使えるようになります。

問題管理は、会社のためだけでなく、あなた自身が「本来やるべきこと」に向き合うための手段なのです。

「原因」には3つの顔がある

では、どうすれば「根本治療」ができるのでしょうか?
ここで重要になるのが、「原因」をどこまで深く掘り下げるかという視点です。

トラブルの再発を防ぐためには、原因を以下の3つの階層で捉えることが重要です。
ここでは、運用現場でよくある「手順書の記載ミスによる作業トラブル」を例に、3つの階層で深掘りしてみましょう。

1. 直接原因(Direct Cause)

  • 「何が起きたか?(事象の直接的な引き金)」
  • 例:手順書に記載されたパラメータが古く、設定変更作業に失敗した。
  • ここへの対策:手順書のパラメータを正しい値に修正し、再作業を行う。
  • 結果: 今回の作業は完了できますが、「なぜ古かったのか?」は解決されていないため、また別の箇所で同じミスが起きます。

2. 根本原因(Root Cause)

  • 「なぜそれが起きたか?(発生のメカニズム)」
  • 例:先月の構成変更時に、手順書の更新作業が漏れていた。
  • ここへの対策:担当者に注意喚起し、手順書更新ルールの再周知を行う。
  • 結果: 一時的に意識は高まりますが、「人の注意力」に依存しているため、担当者が変わったり繁忙期になれば再発します。

3. 流出原因(Outflow Cause)

  • 「なぜその原因を作り出し、見逃してしまったのか?(プロセスの欠陥)」
  • 例:構成変更の承認フローの中に「手順書の修正確認」という工程が存在しなかった。あるいは、更新漏れを検知する仕組み(チェックリスト等)がなかった。
  • ここへの対策:変更管理チケットの完了条件に「手順書更新」を必須化する。あるいはパラメータを自動取得する仕組みに変える。
  • 結果: 「人が忘れてもプロセスが止めてくれる」状態になり、類似の更新漏れが組織全体でなくなります。

多くの現場では、「何が起きたか(直接原因)」や「なぜ起きたか(根本原因)」まではたどり着けます。
しかし、本当に大切なのは、もう一歩踏み込んで「なぜ、そのミスを防げなかったのか(プロセスの弱点)」を掘り下げることです。

この原因を突き止める作業は、「自分たちの今のルールに、どんな穴があったのか」を冷静に見つめ直す作業でもあります。
しかし、個人の頑張りに頼るのをやめ、仕組みでカバーできる範囲を広げていくこと。それこそが、現場のエンジニアをミスから守る盾になります。

私たちは機械ではありません。疲労もすれば、記憶も曖昧になりますし、間違いもします。
必要なのは「次は気をつけます」という精神論に頼る運用ではなく、「誰がやっても間違えようがない、あるいは間違えても大事に至らない仕組み」への転換です。

しかし、深い分析は難しい…

しかし、現実には大きな壁が立ちはだかります。
「全員が同じレベルで、深く分析することは難しい」という壁です。

「なぜ?」を繰り返して根本にたどり着くには、高度なスキルと根気、そして何より「いつもの業務の当たり前を疑う」という多角的な視点が必要です。

しかし、日々の業務に追われる中で、ゼロベースでプロセスを見直すことは容易ではありません。
「分析の質を上げたい。でも、時間もないし、どうしても思考の死角ができてしまう」

この「人間ゆえの限界」を突破するために選んだパートナーが、生成AI(Gemini) でした。

次回予告

私たちは、AIを単なる「文章作成ツール」としてではなく、思考を深めるための「壁打ち相手」としてプロセスに組み込みました。

次回、【後編】AI×問題管理:AIは「答え」ではなく「気づき」をくれる。Geminiと実践する原因分析 では、実際に私たちが構築したAI活用のフローと、AIがどのようにエンジニアの思考を「流出原因」へとガイドしていくのか、その具体的な中身をご紹介します。

「AIに任せたら、勝手に報告書ができるんでしょ?」
そう思った方こそ、ぜひ次回をご覧ください。私たちが作ったAIは、答えを教えるのではなく、「気づき」を与えるコーチのような存在です。

お楽しみに!