これまでのBLOGでも記載しましたが
インシデント管理システム「PagerDuty」ってご存知でしょうか?
監視対象のサーバーでインシデントが発生した場合、
通常はアラートメールを受信して担当者の方が対応しますが
そのアラート数が、一人で捌ききれない量だったり複数人だった場合・休みの日に通知を受けたくない場合に有効なのがPagerDutyです。
https://www.pagerduty.com/
電話でもインシデントの通知を受け付ける事ができるので、一人運用にも有効です!
日本語での説明は下記BLOGで記載しています。
【cloudpack 大阪 BLOG】pagerduty始めました・・・[説明編]
http://unioce.hatenadiary.jp/entry/20150713/1436787871
cloudpackではPagerDutyを2015年の5月から導入し、
現在に至りますが最初自身一人で導入してからPagerDutyを基盤の
一つとしたMSP開発チームの立ち上げを行い、
MSPサーティフィケート(次世代MSP)の認証も2回認定をいただいた背景の
裏側にはPagerDutyのシステムやデータの可視化が有効に働きました。
cloudpack、AWSのMSPプログラムとビッグデータ コンピテンシーの認定を取得|AWS専業のcloudpack
AWSパートナープログラムにおける『次世代MSP』の認定を取得|AWS専業のcloudpack
そんな中、8月に自身のセクションから
大阪の別セクションにMSP開発チーム自体を移動したので、
もう自分のBLOGで新規のアップデートはあまりないなと思い、
今までcloudpackのMSP(開発)内で、どのようにPagerDutyを活用していったかを記載します。
導入の背景
導入当時のcloudpackですでに毎日うん千という、監視サーバーからのアラートメールを
MSPのメンバーがメールを見て、各々が申告して対応していましたが、
多くのインシデントを複数人で
漏れなく対応するのは現実的ではなくなりつつありました。
またcloudpackでは運用の冗長化(DR対策)で大阪にも運用の部隊があるので、拠点を超えての
阿吽の呼吸は事実上不可能で、インシデント管理でのシステム化は必須で、自社内で作ろうとする動きもありましたが、
PagerDutyというインシデント管理システムがあり、監視のSaaSでたくさんの監視サーバーやクラウドのサービスに対応
https://www.pagerduty.com/integrations/
しているので、PagerDutyの導入となりました。
試験導入と課題
試験的にまず導入してみようとのことで、10件程のサービスの監視(nagiosとsensu)を行って試験運用してみました。
そこで発生した課題は、下記で記載していますがスケジュールの作成問題でした。
【cloudpack 大阪 BLOG】pagerduty始めました・・・[いきなりの制約回避編 スケジュールとエスカレーションポリシーのハマりどころ] – 雑なA型によるクラウドとモバイルと運営と
cloudpackのスケジュールが特殊とは思わないので、もしスケジュール作成のスクリプトが(
google apps script版でコードは雑w)欲しいいって方は個別にお渡ししますのでメッセージください。
本格導入と課題
試験導入で現在の運用に対するPagerDutyの有効性はわかったので、本格運用に入ろうしましたが、ここで色々課題がでてきます。
- 圧倒的に多い監視対象
2015年5月の時点でnagiosだけで500以上のサービスを監視していたので、手動でやると間違いなくミスをするので
nagiosの監視設定を抽出し、必要な項目をスクリプトに食わして監視設定をスクリプトで自動に対応するようにして実行しました。UIでポチポチなんてやってれません汗 - 古い監視サーバーへのpagerdutyのpluginのインストール問題
弊社のnagiosサーバーは、複数個あります。多くのサーバーを監視しているサーバーはpluginの導入はうまくいったのですが
古くからある監視サーバーでpluginを普通にインストールするのが厳しいものがあり、本番運用もしているのであえて無理やり
pluginはインストールせずに、メールでのインテグレーションの対応にしました。
https://www.pagerduty.com/docs/guides/email-integration-guide/
導入に関してはリアルな運用含め色々と苦労もありましたが、
アラートメールで対応の漏れのないインシデント管理は
我々のようなMSP事業者としてはシステムで対応しなければまず無理なので、
MSP依頼時にはそういうシステム使ってますか?
ってのをまず聴いてみるのもありかもですね(slackで通知を受け付けてますってのは
平和なんだなーと思いますw)。
PagerDuty関連でのお仕事のお話があれば是非比企まで連絡していただければ、
ZOOMなどのTV会議でも対応可能ですのでよろしくお願いします〜
次回は運用時からPagerDutyを含めたエコシステムを記載します。)
元記事はこちら
「インシデント管理システム「PagerDuty」を導入してから1年と4ヶ月 現場の現在(イマ) 導入編 【cloudpack大阪BLOG】」