はじめに
この記事では、大阪に拠点を構えるクラウドインテグレーション事業部(MSP)と、名古屋に拠点を構えるエンタープライズクラウド事業部(二次運用)が取り組んだ運用改善について紹介します。
タイトルにPart2とある通り、第二回目となります。
第一回目は以下の記事となりますので、こちらもぜひご覧ください。
10,000時間以上アラート対応の削減?!事業部の垣根を越えた運用改善!
本題に入る前に、まずはMSPと二次運用について簡単に紹介させていただきます。
※MSP × 二次運用会議の様子
MSPの紹介
前回の記事でもご紹介しましたが、私たちMSPは24時間365日、お客様のシステムの安定稼働を見守る専門チームです。
今回のテーマである「アラート正常対応率99.9%」の達成において、MSPはまさに「最前線」の役割を担っています。
実は、MSPには未経験で入社するメンバーも少なくありません。だからこそ私たちは、「教育」に並々ならぬ力を注いでいます。
対応品質向上のため、独自の学習コンテンツを整備し、未経験入社〜独り立ちまでをサポートする成長プログラムを構築しています。
このプログラムは、指導側のリソースを極力消費せずに、誰もが着実にプロフェッショナルへと成長できる仕組みを目指して、今も随時アップデートを続けています。
この「人を育てる仕組み」こそが、個人の経験値に左右されない、チーム全体としての高い対応品質の基盤です。
「私たちのアラート正常対応率99.9%」という目標は、付け焼き刃の対応ではなく、この盤石な教育体制に裏打ちされた挑戦になっています。
それいけMSP!ミッションは教育体制構築~Google Workspaceで作ってみた~
MSPとは?については以下の記事をご参照ください。
MSPで働くってどんな感じ? そんなよくある質問に答えます!
二次運用の紹介
エンタープライズクラウド事業部の二次運用業務は、多岐にわたります。
具体的には、New RelicやDatadogなどのツールを活用した監視基盤の構築、お客様のAWS環境の運用・保守、さらにはコスト最適化や運用改善といった多岐にわたる業務を担当しています。
MSPがアラート発生時に迅速かつ正確に対応できるように、一次対処手順を作成するのも二次運用の重要な役割です。
今回のテーマである「アラート正常対応率99.9%」を達成するためには、二次運用チームがいかに分かりやすい手順を作成できるかが、成功の鍵となります。
アラート正常対応率99.9%達成のために取り組んだこと
ここからが本題となります。
私達はFY25のミッションとして「アラート正常対応率99.9%」を目標として掲げました。
これまでもアラート対応は高い品質で行っていました。しかし問題点が2点ありました。
- 正常対応率の測定がされておらず、品質の可視化ができていない
- ミスが発生した際の再発防止フローが未整備
そのため、MSPと二次運用で協力し、正常対応率の可視化と再発防止フローの整備を進め、
「アラート正常対応率99.9%」の目標達成を目指すことにしました。
※「正常対応」の定義:一次対応手順書通りに作業が完了し、お客様への意図しないエスカレーションや、オペレーションにおけるミスが発生していない状態
正常対応率の可視化
弊社はインシデント管理にPagerDutyを使用しています。
アラートの総対応件数をGoogleのLookerにデータ連携をして、可視化をするようにしました。
不備件数については、現場のMSPメンバーから「msp-troubleshooting-share」というSlackチャンネルにエスカレーションを実施し、同時に不備件数を集計しています。
「正常に対応できた件数」を「総対応件数」で割ることでアラート正常対応率を計算しています。
※以下画像はPagerDutyのデータをLookerにデータ連携した例となります
再発防止フロー
上記に記載した「msp-troubleshooting-share」というSlackチャンネルにエスカレされた不備を以下のフォーマットで再発防止することを必須フローとしました。
- アラートと一次対処手順の概要
- 問題の概要
- 原因分析(発生原因、流出原因)
- 再発防止策(発生対策、流出対策)
上記のフローは、MSPと二次運用チームが協力して実行します。
このプロセスは、ポストモーテムのようにドキュメントとして記録し、当事者以外のメンバーも不備の内容を把握することで、組織全体で再発防止に取り組むことを目的とします。
また、MSPが作成している教育資料にも随時反映し、新しく加わるメンバーにもスムーズに共有できるようにします。
不備を未然に防ぐ取り組み
これまでは発生した不備への事後対応についてご説明しましたが、並行して不備を未然に防ぐための予防措置も実施しています。
具体的には、MSP担当者が日々の一次対処を行う中で、手順書におけるミスの誘発箇所や分かりにくい点に気づいた際、速やかにBacklogへ課題を起票します。
二次運用がその課題を確認し、該当する手順の恒久的な改善対応を行います。この取り組みにより、FY25上期だけで30件以上の業務改善が実施されました。
★起票された課題の一例★
FY25上期の実績
以上の活動の結果、アラートの正常対応率は2025年8月時点で99.99%に達し、目標値である99.9%を上回る高い水準で推移しています。
現時点では5ヶ月間の暫定値ですが、これはMSPと二次運用による継続的な改善活動が着実に成果として表れているのだと思います。
これからも活動は継続し、不備を限りなく0に近づけて、お客様が安心して弊社に運用を任せていただけるように努力をしていきたいと思います。
これからの展望
FY25上期は目標達成となりましたが、設定した目標が適切であるかはこれから測定を続けて判断しないといけません。
目標設定はお客様が求める品質、改善活動にかけられる工数などを考慮する必要があります。
下期は目標を今回より高い数値に設定し、改善活動の継続はもちろんのこと、アラート対応の自動化や生成AIの活用などチャレンジングなことにも取り組んでいきたいと思います。
さいごに
この記事で登場した、MSPと二次運用についてもっと知りたい方はぜひカジュアル面談にお申し込みください。
- アイレットの業務内容をかなり詳しく知りたい
- 自分のキャリアにマッチする部門のエンジニアと会って会話がしたい
- どのようなキャリアステップがあるのか知りたい
- 自分のスキルで、活躍ができるか確認したい などなど
募集要項は以下となります!絶賛募集中となっています!
募集要項(MSP):【MSP(運用・保守・監視)】東京or大阪週5出社/未経験者歓迎★AWS,Google Cloudパートナー★
募集要項(二次運用):【クラウドインフラエンジニア(二次運用)】東京出社orフルリモート/経験者優遇