1. はじめに

私たちMSP(Managed Service Provider)は、クラウドインフラの運用保守において、お客様のサービスを支える重要な役割を担っています。特にインフラ環境や監視サービス基盤で大規模障害が発生した際には、お客様への迅速かつ正確な情報提供が求められます。

なぜ大規模障害時に素早く情報を開示することが大切なのでしょうか。それは、障害発生時にお客様が最も求めるのは「現状を知ること(影響範囲)」と「今後の見通し」と考えるからです。情報がない状態、お客様は大きな不安や混乱を引き起こし、ビジネスに影響を与えかねません。そのため、障害発生直後から早急かつ正確な情報を提供することで、お客様の不安を軽減し、信頼関係を維持することが非常に重要なのです。

今回のブログでは、私たちの大規模障害時の顧客連携フローを通じて、どのように迅速な情報共有と信頼性向上を実現しているのかをご紹介します。

2. 独自の障害検知システムの導入

障害を早期に検知するために、私たちは独自のシステムを導入しています。このシステムは、AWS、New Relic、Datadog、PagerDutyなど複数の監視ツールからリアルタイムでメトリクスを取得し、異常を検知すると自動的にアラートを発信します。

この仕組みによって、個別のサービス監視だけでは見逃しがちな異常も素早く検知できるようになり、対応スピードが大幅に向上しました。障害を検知する正確性と迅速さが、この後の情報提供フロー全体を支えています。

3. 対応フローの概要

こうして障害を検知した後の対応を迅速化するために、私たちが運用しているフローは以下の4つのポイントを軸に構成されています。

  1. お客様へメール配信による初動対応
  2. 自社WebサイトNewsでのリアルタイム更新
  3. Slackワークフローによる社内連携の自動化
  4. Backlogでの対応履歴の記録

これらの取り組みにより、障害発生からお客様への情報提供までをスムーズかつ効率的に行うことが可能になりました。

4. 対応フローの詳細

4.1 お客様へメール配信による初動対応

障害が検知されると、システムが自動的に担当者に通知を送り、即座に対応が開始されます。同時に、お客様への初動連絡として、あらかじめ用意されたテンプレートを使用し、第一報のメールを準備し送信します。このテンプレートには「障害発生時の概要」「影響範囲」「対応状況」などの必要な情報が含まれているため、状況を迅速にお伝えすることが可能です。

たとえば、以下のようなイメージでメールを送信します。


件名:【重要】cloudpackサービスにおける一次対応遅延のご連絡

ご担当者様

平素はcloudpack 監視運用保守サービスをご利用いただき、誠にありがとうございます。

現在、弊社SLOに影響が出る障害が発生しており、調査を進めております。
この影響により、多くのお客様への一次対応が遅れる可能性がございます。

原因の特定および復旧作業に全力を挙げておりますが、詳細が判明次第、改めてご報告いたします。
ご迷惑をおかけし大変申し訳ございませんが、何卒ご理解とご協力を賜りますようお願い申し上げます。

進捗状況については弊社ホームページからご確認頂ますようお願いいたします。
<<障害時に作成したWebページのURL>>

このようなテンプレートを活用することで、第一報として迅速に情報を提供します。

4.2 自社WebサイトNewsでのリアルタイム更新

メール配信と並行して、自社Webサイトの「緊急のお知らせページ」にも情報を掲載します。このページは、お客様がいつでも最新の障害情報を確認できるように設計されており進捗状況や対応の見通しなどがリアルタイムで更新されるため、お客様が状況を把握しやすくなります。

これにより、お客様側の情報の不足を解消し「今どうなっていますか?」といった問い合わせを減らすことを目指しています。


タイトル:【調査中】cloudpackサービスにおける一次対応遅延

【現在の状況】
【調査中】障害によりアラート対応に遅れが生じる可能性がございます。(xxxx年xx月xx日 xx:xx)
***********************************************************************************
【障害発生時間帯】
xxxx年xx月xx日 xx:xx頃

【詳細】
yy年mm月dd日 xx:xx 
弊社の利用している一部サービスで障害が発生いたしました。
事象としては主にアラート通知の機能で障害が発生しており、その影響を受けている状況です。

それに伴い、弊社が提供している監視サービスの一次対応に関しても、大幅な遅れや連絡の不達等が見込まれます。
お客様に対する影響範囲は現在調査中です。

今後状況のアップデートがあり次第、当ページにてお知らせいたします。

ご不明点な点につきましては、該当のBacklogプロジェクトにて運用担当者までお問い合わせください。
ご迷惑をおかけしますが、何卒宜しくお願いいたします。

yy年mm月dd日 xx:xx

4.3 Slackワークフローによる社内連携の自動化

障害発生時には、複数のチームが迅速に連携して対応に当たります。内部ではSlackのワークフロー機能を活用し、特定のチャンネルに自動で通知が行くように設定しています。これにより、担当者間での情報共有がスムーズになり、迅速な対応が可能になっています。

4.4 Backlogでの対応履歴の記録

障害対応の履歴はBacklogに課題として起票し、対応内容や経緯を詳細に記録しています。これにより、将来的に同様の障害が発生した際に迅速な対応ができるだけでなく、チーム内でのノウハウ共有や改善にも役立っています。

5. このフローがもたらす価値

これらの対応フローにより、私たちはご契約頂いているお客様に対して以下の3つの価値を提供できるようになりました。

お客様への迅速な情報提供による信頼性の向上
障害時の初動連絡とリアルタイムな情報更新によって、お客様へ状況を迅速に把握できるようになり、信頼性が向上
業務効率の向上と対応スピードの最大化
テンプレートやSlackワークフローなどの自動化により、手動作業が削減され、対応スピードが向上
社内のスムーズな情報共有とコミュニケーション精度の向上
社内の情報共有が効率化され、複数チームが同時に対応することで、対応の精度が向上

6. まとめ – MSPとしての価値向上に向けて

私たちMSPは、この独自の障害検知システムと対応フローを通じて、将来起きうるであろう大規模障害時にも迅速かつ正確な情報提供を行い、お客様に安心感と信頼を届けられるように準備をしています。

今後も、お客様に必要な情報の連携のためにも、これらのフローをさらに改善し続け、より高い価値を提供いたします。