はじめに

こんにちは!クラウドインテグレーション事業部MSPセクション一次運用グループの小山と申します。IT未経験から採用をいただき、入社してあっという間に3年が経ちました。

本記事では次世代MSP(後述で説明します)に求められる一次対応における継続的な運用改善についてご紹介します!

アイレットに興味を持っている方、未経験から挑戦してみたいけどMSPって具体的にどんな業務しているかイメージがつかない、、、という方へ少しでも参考になれば幸いです。

最後に採用情報も掲載しています。IT未経験の方でもわかるように書いているので、お付き合いいただけると嬉しいです!

まず、従来型MSPと次世代MSPって?

MSPとは以下のように定義されています。

マネージドサービスプロバイダー(Managed services provider, MSP)は、ほとんどの場合、情報技術(IT)サービスプロバイダーであり、企業システムの運用・監視などを請け負う事業者のことである。

“マネージドサービス”.ウィキペディア百科事典

こちらは従来型と言われており、簡単にいうと「お客様のシステムの運用監視をします!」という意味です。

ですが現在ではMSPとして求められる期待値が高くなっており、以下のような「次世代MSP」への進化が必要な時代になってきています。

次世代 (次世代) MSP は、コンサルティング、プロフェッショナル サービス、管理された運用、継続的な最適化に重点を置いた完全なライフサイクル サポート プロバイダーです。

Next-Generation Cloud Managed Services: A Full Lifecycle Support Engagement

簡単にいうと「ただ運用・構築・監視しているだけでは足りないよ、サービスとしてそれ以上のサポートが必要だよ!」という意味です。サービス提供においてこれまで以上の価値を提供することが求められ、MSPは変わりゆく時代と共に進化し続けなくてはなりません。

次世代MSPについて下記記事で詳細を紹介しているので、気になる方は合わせて読んでみてください!

従来型MSPから次世代MSPを目指して :オブザーバビリティ編

MSP一次運用の私たちにできることって?

「MSPの進化」となると話が壮大ですが一次運用の私たちも貢献できることがあります。

MSP一次運用のメイン業務はアラート対応です。アラート対応とはお客様のサーバで異常が発生し、アラートを受け取った際にお客様への連絡や復旧作業を行います。弊社では約一万台のサーバーを24/365 有人体制で監視をしており、一次運用はその第一線で活躍しています。

メイン業務であるアラート対応の中で私たちは次世代MSPへの進化のため、継続的な運用改善を実施しています!

継続的な運用改善って?

まず、運用改善とは動かしているシステムやサービスを安定して稼働し続けるために問題を都度解決していくことです。

これまでも一次運用ではGoogle Cloud が提供するLookerstudioを使用して、状況を可視化して運用改善を行っていました。

ですが運用改善をしていくための基準や仕組みが整備されておらず、実際に改善ができていたかというとあまり運用としては成り立っていないのが現実でした。

そこで私たちグループではサービスレベル目標(SLO)に着目し、SLOに達していないインシデント(アラート)ごとに内容を分析して改善依頼を運用チーム(*)へエスカレーションしていく仕組みを考えました。

(*) 24/365の一次運用チームとは異なるプロジェクトごとの運用設計を担当する二次運用チーム

サービスレベル目標(SLO)って?

SLOとはサービスにおいて、サービス品質に関する目標・評価の基準を定めたものを指します。

弊社のサービスであるcloudpackでは一次対応完了までのサービスレベルを掲げており、障害の影響によって対応完了までの目標時間が設定されています。

ホワイトペーパー(3.3 cloudpack サポートデスクのサービスレベル目標(SLO) およびサービスレベル合意(SLA))

このSLOがアラート対応にどう関わっているか簡単にいうと、一次運用は障害が発生してからSLOで掲げている時間を目標値として復旧できるよう目指す指標となります。

私たちグループがつくった運用改善の仕組みのお話〜次世代MSPへ進化するために〜

お待たせしました、ここからが本題です!

はて?という部分もあったかもしれませんのでこれまでの説明を整理すると

「次世代MSPへの進化のために、MSP一次運用ではSLOに達していないインシデント(アラート)を調査して改善活動をしているよ」

ということです。

図にすると以下のようなイメージ。何らかの理由でSLOを達成することができなかった場合、必ず調査/修正が実施されるフローになるため同じ事象の発生を防止することができSLO遵守率のアップにつなげることができます。

前述の中にもありますが、弊社では約一万台のサーバーを監視しているため日々のアラートはかなり多いです。自動化が導入されている案件が増えているとはいえ人の手を介して対応するアラートは数多く、その中からどうやってSLO未達のアラートを抽出し改善まで実施しているのか仕組みについて解説します!

未達アラートの抽出方法

Google Cloudが提供するApp SheetへSLO未達のインシデントが転記されます。

未達アラートになってしまった原因の特定

アラートごとになぜSLO未達になってしまったのか、対応完了までに時間を要した理由を対応者が記入します

ここから1件ずつ分析を行います。対応者が選択したカテゴリから修正要否の判断を行い、必要があれば運用チームへ改善依頼を行います。

実際に運用チームへの改善依頼の一部を紹介します。以降の対応がスムーズにできるよう問題点と改善点を明確に記載します。

問題点の記載部分

MSP→運用チームへ改善依頼部分

このようにアラートごとに1件ずつ地道な修正をおこなっていくことで、お客様のサービスをいち早く復旧させSLO遵守率も向上させることができるようになるのです!

問題発生時は即時に解決することを長期的に活動していくことでSLO達成率が向上し、「継続的な運用改善」の実現につなげるため次世代MSPへの一歩となります。

最後に

この改善活動を実現するにあたり、グループメンバーと協働して運用開始までに至りました。IT未経験からでもここまでチャレンジできる!という事例にもなれば幸いです。

ITってよくわからないけど挑戦してみたい!という方にアイレットは全力で味方をしてくれる会社です。

他にもMSP一次運用には未経験で入社し、活躍しているメンバーが多くいます。以下記事を読むともっとMSPに興味が湧くかもしれません。

それいけMSP! – 次世代MSPを目指して、未経験から挑戦できる環境がここにある!

それいけMSP!-未経験からでも安心の研修体制 GoogleのClassroom使ってみた!

未経験でも安心して業務を覚えていけるよう研修制度も整っています。興味のある方は下記ページから応募してください。お待ちしております!!!

【未経験からクラウドエンジニアへ!】運用・保守・監視 ★AWS/Google Cloudパートナー★
https://hrmos.co/pages/iret/jobs/0001002

おまけ

運用改善をするにあたり同グループメンバーがApp Sheetやlookerstudioを用いてこのシステムを構築したのか別記事で紹介しているので気になる方は読んでみてください!!!

MSP daily task automation 社内ツールを自動化と可視化してみた