本記事は PagerDuty On Tour Japan 2024 にて行われたセッション「PagerDutyを中心とする運用監視の高度化 〜生成AIの活用、MSPサービスのこれから〜」のレポートです。

登壇者

クラウドインテグレーション事業部 MSPセクション セクションリーダー
蓮沼 翔悟

概要

アイレットはパブリッククラウドを中心に10年以上のマネージドサービスプロバイダーとしての実績があります。
本講演では、運用監視の高度化を目指す企業様向けに、10,000台以上にマネージドサービスを提供するアイレットがPagerDutyを用いてどのように業務をスケールさせ、運用監視の高度化を進めてきたか、その軌跡をご紹介いたします。
また、マネージドサービスとして自社内の利用に留まらず、多数の運用実績のノウハウを活かしたお客様のPagerDuty活用もご支援可能です。どのようなご支援ができるのか、併せてご説明いたします。

公式ページより引用

セッション内容

PagerDuty導入の背景と軌跡

当時、10年以上前の監視は「Nagios」というオープンソースを利用し、複数のAWSリージョンのEC2に独自で監視サーバーを構築していました。

また、監視サーバーから、お客様に対してOS内のリソース監視やAWSのCloudWatchメトリクスを中心に監視をしていました。

24/365対応するMSPは、アラートをメールで確認し、
別途付帯する手順書に沿って対応を行い、お客様や二次運用担当者にチケットシステムでエスカレーションをするという流れです。

当時はそれで良かったのですが、cloudpackの成長に伴い、アラート件数も飛躍的に増えたため、オペレーション上の課題が出てきました。

  • メールを受信して対応するというオペレーションには拡張性がない
  • 他の自動化ツールや分析ツール等との連動も難しい
  • 可視化が難しい

ここでPagerDutyを投入することによって、「検知」フェーズの拡張性は既存のメールに加えて、700以上のインテグレーションが可能となりました。

そして、「トリアージ」のフェーズでは、導入前、大量のメールから有人が優先度を判断してトリアージを行っていたころ、インシデント一覧画面をオペレーターが確認することで、どの優先度のインシデントがどれだけ発生していて、誰がどのアラートをどのように対応・解決したのか、容易に可視化でき、着手までのMTTA短縮、オペレーション品質の向上が可能になりました。

さらに、「トリアージ 〜 協力・解決」のフェーズにおいて、全てのインシデントに有人の手順書対応が必要でした。

そこで、自動化が急務だっためAMSと呼ばれる監視業務を自動化するシステムを開発しました。

NG判定で障害が発生している場合やその疑いがある場合には、PagerDutyのPrioriotyを付与した上で有人に引き継がれます。

このように、我々MSPでは有人対応が必要なものだけを優先対応できるように、
トリアージから協力解決までをPDとAMSで実現しています。

PagerDutyとAMSを中心に弊社の一万台を支える運用基盤が成り立っていることが分かります。

導入前はインシデント履歴が存在せず、データ分析ができない状況でしたが、導入後はPagerDutyのインシデント対応履歴を取得し、独自の運用分析PFというダッシュボードを構築しています。

2019年以降の自動化を中心に見たときのビジネスインパクトとして、
十分な費用対効果が得られており、直近2年間ではなんと1,000人月/年の運用工数削減が実現できています。

さらに今後の運用監視の更なる高度化に向けて、PagerDutyの生成AI機能PagerDuty Copilotの検証を進めています。

アラートの対応件数も年々増加し、今では年間100万件を超えるペースです。
PagerDuty と AMSを含む自動化を用いて、今では9割程度のアラートを自動化しています。
それに伴って、一次対応の平均秒数も大きく短縮できています。
PagerDutyと自動化が業務スケールと品質UPの鍵になったと言えるでしょう。

Slackから生成AIアシスタントを利用して有人の障害対応を支援、
インシデント対応後の事後レポートの作成にも本機能の活用を検証しています。

お客様の運用高度化支援の事例

保険会社様の事例:
お客様はオンプレミス、ネットワーク、クラウドの監視を個別に行っており、インシデント分析の仕組みがないため問題が再発し、監視情報がサイロ化されていました。これにより運用負荷が大きくなっていました。

解決策:
弊社は要件ヒアリングから運用設計、導入、運用支援までを実施しました。インシデント分析にはPagerDuty、監視データの集約にはDatadogを採用し、標準的な監視項目の設計・設定を行いました。クリティカルな項目にはPagerDutyでオンコール通知を導入し、cloudpackチームが一部運用を引き受ける伴走体制も整えました。チケットシステムで情報を共有し、インシデント管理から問題管理までの基盤を確立しました。

導入後の成果:
オンプレミスやクラウドからのデータをDatadogに集約し、サイロ化を解消しました。DatadogからのアラートはPagerDutyに集約し、周辺ツールと連携してインシデント分析の仕組みを構築しました。

まとめ:
弊社は、PagerDutyやAMS、オブザーバビリティツールなどを用いた次世代監視基盤と24/365の体制での運用保守サービス、およびSaaSの調達から運用高度化の支援まで幅広いサービスを提供しています。ぜひ一度ご相談ください。

お問い合わせはこちらから