はじめに

こんにちは!MSPセクションの後藤田です。

今回は、システム運用における課題を解決する「PagerDuty Runbook Automation」を活用した自動化についてご紹介します。

システム運用において、以下のような作業を手動で対応していませんか?

  • サーバーの負荷確認
  • サーバーの再起動
  • プロセスの再起動
  • ログの確認 … etc

今回は、手動運用が抱える課題に焦点を当て、その解決策となる「PagerDuty Runbook Automation」について解説していきます。

PagerDuty Runbook Automationとは?

PagerDuty Runbook Automation は、PagerDuty Operations Cloud の一部で、部門、テクノロジー、ネットワークにまたがる自動ワークフローを作成、管理、実行するための SaaSです。Runbook Automation は、セルフサービスの委任、およびイベントトリガーによる自動化を管理します。これらの自動化されたジョブは、運用やインシデントの復旧に活用できます。

この記事では、Runbook Automationが実際にどのように動作するのか、デモを交えながらご紹介していきます。

従来のインシデント対応における課題

従来の手動によるインシデント対応には、以下のような課題がありました。

  • 復旧作業の開始の遅延:すぐに復旧作業に取りかかれない場合や、状況確認に時間を要すことがある。
  • 復旧作業の遅延: 手作業による対応のため、どうしても時間がかかってしまう。
  • 人的ミスの発生: 繰り返しの作業や緊急時の対応において、ミスが発生する可能性がある。

これらの課題をRunbook Automationで自動化することで、より効率的で質の高い運用体制を構築できると考えています。

Runbook Automation導入のメリット

Runbook Automationを導入することで、主に以下のメリットが得られます。

  • システム運用の効率化: 定型的な作業を自動化することで、運用担当者の負担を軽減し、より重要な業務に集中できるようになります。
  • 復旧までの時間の短縮: インシデント発生時の対応を自動化することで、迅速な復旧が可能となり、サービス停止時間を最小限に抑えられます。
  • 手作業の減少による作業品質の向上: 人為的なミスを減らし、常に安定した品質で作業を実行できます。

今回ご紹介する自動化フロー

本ブログでは、具体的な自動化フローとして、「サーバーのリソース監視から異常を検知し、自動で再起動を行うフロー」をご紹介します。

Runbook Automationの概要図

まず簡単に概要図を紹介いたします。Runbook Automationは、主に「Runner」と呼ばれるコンポーネントを通じて監視対象にアクションを実行します。

事前設定

次にRunbook Automationを利用するための事前設定について簡単にご紹介します。
Runbook Automation側の設定
①ジョブの設定

PagerDuty側の設定
②Automation Actionの作成
Automation Actionを作成することで、Runbook Automationで作成したジョブを実行することができます。

③Event Orchestrationの設定
アラート検知をトリガーに、②で作成したAutomation Actionを実行するので、Event Orchestrationの設定を行う必要があります。
今回は、監視ツールから「Host Not Reporting」のアラートを検知した場合に、Automation Actionを実行するように設定していきます。

Automation Actionsを選択する画面があるので、②で作成したAutomation Actionを選択します。

実際のデモ

実際にアラート発報からの動きを見ていきましょう。
冒頭に記載しましたが、以下のフローで障害発生 ~自動復旧を行います。

①障害発生 (EC2インスタンス停止)

②監視サービスが障害検知、③Pagerdutyにインシデントが通知される

④Runbook Automationで自動対応

 Automation Actions logを開くと、 Automation Actionが実行中なのがわかります。

 

 Time lineに実行結果を自動で記載していきます。Statusが NOT OKなので、復旧対応を実施します。

 Runbook Automationの画面を確認すると、EC2のStop/Startを実行中とわかります。

しばらく待つと、、Timelineに実行結果が記載され、Instance Statusがokのステータスとなりました。

ステータスチェックが2/2になっています。

 

導入の効果 – Before & After

今回デモで行ったように、障害発生から状況確認、復旧対応を自動で行うことで、手動で実施するよりも障害からの早期復旧に繋げることが可能となります。
実際に、障害発生からクローズまで約2分で完了しています。

まとめ

今回のブログでは、PagerDuty Runbook Automationを活用したシステム運用の自動化についてご紹介しました。
手動運用が抱える課題を解決し、より効率的で信頼性の高いシステム運用体制を構築するために、ぜひPagerDuty Runbook Automationの導入をご検討ください。
弊社では、現在インシデント対応を「PagerDuty」と「AMS」というシステムを用いて自動化しております。
その知見を生かし、お客様のシステムの内製化支援等も行っていますので、ご興味がある方は、アイレットへお気軽にご相談ください。

最後に

PagerDuty ON TOURについて紹介します。今回ご紹介したPagerDuty様が4/10にイベントを開催します。

PagerDuty on Tour は、実際に PagerDuty を活用している企業ユーザーさまにご登壇いただき、インシデント対応に関する課題を解決するための AI や自動化を活用した IT 運用のベストプラクティスや、さまざまな業界におけるテクノロジーリーダーによる事例を紹介する、対面イベントです。

アイレットからはクラウドインテグレーション事業部 高橋 修一が登壇します。
是非ご来場ください。

登壇時間 登壇テーマ 登壇者
[ビジネスセッション]16:10〜16:30  AI × PagerDuty で進化する運用!10,000台の知見から学ぶ内製化と自動化 クラウドインテグレーション事業部
MSP開発セクション セクションリーダー
高橋 修一