07/26に開かれた「PagerDuty Summit Tokyo 2023」にいってきたのでレポートです!
https://www.event-info.com/pagerdutysummitjapan-2023/
PagerDutyが何にフォーカスしているか 、 実際のユーザー課題とPagerDutyによる解決・効果 、生成系AIの話 など聞くことができました。
今回、弊社のMSP開発という部署からは高橋(修)、山田、上地の三人で参加しました。「PagerDuty」を活用した次世代監視システム「AMS」の開発・運用なども行なっている部署です。
ざっくりですが各セッションの「概要」と「感想」という構成でレポートさせてもらいます。少しでも雰囲気が伝われば。
文末には今後のPagerDutyイベントについても記載しています。
クラウドインテグレーション事業部 高橋 修一
クラウドインテグレーション事業部 山田 顕人
クラウドインテグレーション事業部 上地 航平
Greeting、Keynote
登壇者: PagerDuty Japan Country Manager 山根 伸行、PagerDuty Chief Executive Officer ジェニファー・テハダ
セッション概要
PagerDutyは昨年(2022年)5月に日本法人を設立。
それ以来 名刺1,000枚以上交換し様々な期待とフィードバックをいただいている。
PagerDutyはエンジニアが対象のサービスであり、社会を支えるエンジニアはエッセンシャルワーカー、ヒーローのような存在。
エンジニアはインシデントの火消しではなく、本当にやりたいことに注力できるようにする経営の未来を支えていくことであり、イノベーションザフーチャーを実現すること。
コスト、効率性だけでなく、エンジニアの未来をエンパワーしていくことがPagerDutyの役割。
Key noteでは Incident Response、 AI Ops、 Customer Serice Operationsなどの機能の紹介や、どれだけの企業で使われているかという話など。
感想
現場の課題から生まれたのがPagerDuty。その声を聞き現場のエンジニアが創造的な時間を増やすという話が、このGreetingをはじめとしてSummitの中で何度もでてきていて、重要視されていると感じました。
PagerDutyにはペイジー君というマスコットがいて、ペイジーくんはいろんなところにツアーに行っており、テレビデビューもしたそうです。自分達も記念撮影してもらいました!
Keynoteのパートナー紹介スライドにはiretのロゴも。
「列車の予約システムにおけるインシデント対応の高度化」
登壇者: 株式会社JR東日本情報システム 取締役 Suica・駅サービスソリューション本部長 吉川 眞之 氏
セッション概要
- 会社紹介
- ミッション
- 「SUICA」と「えきねっと」を主軸としてシームレスな移動の実現をしたい
- 今後、チケット購入窓口は減らしていく発表をしている。「えきねっと」の重要性、ミッションクリティカル度合いが増してきている。
- → インシデント対応をモダナイズする必要性。
- インシデント対応の現状
- 課題① アラート発生から情報共有まで時間がかかる
- 課題② アラートが多く被疑箇所特定に時間がかかる
- 課題③ 簡易な対応にも人手がかかっている
- 課題解決
- PagerDuty導入POC
- PagerDutyはIN/OUTの連携できるサービスが多い(豊富なコネクター)。
- あらゆる通知を一手に受けられ、それをトリアージできる。課題解決にマッチ。
- いまPOCで検証を進めている。
- 効果測定
- PagerDuty導入POC
- 将来への展望
- 展開領域の拡大
- NoOpsと開発業務へのリソースシフト
- リソースシフトによる付加価値創出
- 最後に
- PagerDutyへの期待
感想
多くの人が利用しているSuicaや指定券予約サービスのえきねっと。レガシーな環境で運用しながらも、複数のツールを使い分けて回るようにオペレーションをしっかり組まれている印象を受けました。
運用支出を減らして品質を上げるという点は運用に携わるもの全てに言えることであるため、改めて重要性を理解しました。今後、POC後の話を聞かせていただける日がくるのを楽しみにしています。
「Digital CAFIS特区による組織・人材・ビジネスプロセス・システムの変革ストーリー」
登壇者: 株式会社NTTデータ ペイメント事業本部 カード&ペイメント事業部 デジタルペイメント開発室 室長 加藤 大樹 氏
セッション概要
- Digital CAFISとはどんなサービス
- CAFISのトランザクション推移
- CAFISを取り巻く環境と課題
- DegitaiCAFISを立ち上げ
- Degital CAFISのこれまで
- 大規模アジャイル方法論の適用
- Degital CAFISで実践した3つの変革
- ①組織変革
- ②技術変革
- 運用センターによる中央管理で抱えていた課題を解決するため、マイクロサービスやクラウド活用と親和性の高いPagerDutyを導入に至った。
- 運用センターから担当エンジニアへアラート発報をコールするまで時間を要していたが、PagerDuty導入により数秒から数分でコールが可能となった。
- 運用センターによる中央管理で抱えていた課題を解決するため、マイクロサービスやクラウド活用と親和性の高いPagerDutyを導入に至った。
- ③事業運営変革
- まとめ
感想
今では当たり前のようにいつでも利用できる回線の中でも金融を支えるCAFIS(キャフィス)について知れるとても重要なセッションだと思いました。
本セッションでも改めてCAFISの説明がありますが、成り立ちを知らなかったため、とても勉強になりました。
ちなみにCAFISというのは元々は与信照会の用途で使われていたオンラインシステムでしたが、今では金融業界においてとても重要な役割を担っています。
※CAFISは日本最大の決済インフラもしくは通信回線とも呼ばれることがあります。セッションではシンプルにCAFISと表現されていました。
「NTTドコモのサービスシステムにおけるDevOps推進とPagerDutyによる運用効率化」
登壇者: 株式会社NTTドコモ サービスデザイン部 担当課長 加藤 雅俊 氏
セッション概要
- かつての課題
- 2018年当時の課題
- (Biz)ビジネス部門・(Dev)開発部門・(Ops)監視チーム・開発委託先で連携が取れず、運用保守にコストがかかっていた。
- 2018年当時の課題
- 目指す姿
- 我々のサービス・プロダクトをお客様に利用して頂き価値を感じて貰えるように、開発業務多くの時間を割けるようにする。
- <やりたいこと>
- 故障しにくく自動復旧できるシステムを作る
- 問題発生時に迅速に気づき、発生原因の特定可能にする。
- <やったこと>
- システムのモダナイズ
- 仮想サーバーから→ AWS Fargate+Lambdaで再構築。
- ↳ GoogleCloud(GKE,Pub/Sub,CloudRun for Anthos,Spanner)で再構築。
- 統合監視ツール(NewRelic,Datadog)の導入
- インシデント管理ツール(PagerDuty)の導入
- DevOpsの推進
- PagerDutyの活用
- 速やかなアラート確認(Slack経由でPagerDutyへログインしインシデント情報にアクセス可能)
- 脆弱性対応の管理
- 社内連絡
- これまでの効果
- MTTA(平均確認時間)の減少
- MTTR(平均復旧時間)の減少
- 今後の展望
感想
セッション内で印象に残っていたこととしては以下の内容です。
2013年からAWSを使っていた。オンプレミスの考え方でAWSを使っていた。故障率高めで自動復旧のシステムがなかった。
オンプレミスからクラウドへの移行はリフトアンドシフトから始め、徐々にクラウドの特性を活かしたアーキテクチャにリファクタすることはたしかに多いです。
移行するにあたり考え方もシフトしアップデートしていくことが重要だなと再確認できました。
参考:移行向けのアーキテクチャのベストプラクティス、移行戦略と移行パスとは
また、DevOpsにもBizを加えてBizDevOpsという風にサービスを支える部署を表現していたことが印象的でとてもわかりやすかったです。
セッション内ではBiz Dev Opsが協力する体制にすることが必要
ということを強調されていました。
「PagerDuty最初の10年。そして、現在。」
登壇者: PagerDuty Co-Founder and General Manager, Workflow アレックス・ソロモン
セッション概要
このセッションでは、共同創設者の一人であるアレックス・ソロモンによって
2009年の創業以来PagerDutyがどのような思想を持って開発され、
また、その成長の過程でPagerDuty Japanが設立された経緯についてお話がありました。
感想
PagerDuty黎明期、最初に提供を開始した「アラートダッシュボード」や「オンコールローテーション」という機能は
現場のエンジニアのインシデント管理を解決するというミッションから生まれたそうで、
Greeting、Keynoteでのお話にもあったように創業当時から現在至るまで変わらない思想があると話されていました。
また、今回のPagerDuty Summit 2023で配布されたTシャツのデザインには
2010年の夏に作成したTシャツと同じメッセージ「We wake you up when s*IT breaks!(システムが壊れたときにあなたを起こす)」がデザインされていました。
- 2010年夏にデザインされたPagerDuty Tシャツ
- PagerDuty Summit Tokyo 2023デザインTシャツ
「デジタルオペレーションを取り巻く課題とその処方箋」
登壇者: PagerDuty Manager, Solutions Consulting 山田 索
セッション概要
- デジタルオペレーションを取り巻く環境
- 運用の複雑さは限界レベルに
- 運用をモダン化できないことで生じる問題
- 典型的なインシデント対応フローと課題
- 事例:導入前の課題
- 事例:PagerDuty導入後
- インシデントライフサイクルとPagerDutyの支援機能
- インシデント対応における課題と解決策
- PagerDuty AIOpsが解決する課題
感想
運用をモダン化していくことに比例して運用が複雑化していくことをマイクロサービスを交えて解説していたことが印象的でした。
特に運用の複雑さを軽減できないと損失を補うために多くの作業を伴うことについてはエンジニアがどう感じるかを説明しており、エンジニアの私としてはとても納得のいく内容でした。
セッション後半ではPagerDuty が選ばれる理由を信頼性、生産性、柔軟性の3つの観点で説明しており、とても魅力的に映りました。
「クラウドMSPサービスの進化:PagerDutyを中心とした次世代監視基盤」
登壇者: アイレット株式会社 執行役員 エバンジェリスト 後藤 和貴 氏
セッション概要
- 会社紹介
- クラウドの導入設計から構築・保守・運用をトータルでサポートする「cloudpack」および「Rackspace」、そしてシステム設計・開発・デザインをワンストップで行う「開発」を提供している
- 会社概要
- クラウド導入実績 2,500 社以上 年間プロジェクト 4,300 以上
- cloudpack とは
- クラウドの導入・設計・構築・運用を中心にお客様のインフラ環境を総合的に支援するフルマネージドサービス
- cloudpack運用・保守サービスについて
- クラウドの導入や運用を中心に、お客様のご要望に幅広くお応えする総合支援サービス
- cloudpack 初期の監視システム
- 当時、インシデントに関する情報は全社メールで受信し対応を行っていた。
- 日本国内 パブリッククラウド市場動向
- 2022年には2兆円規模となり、ビジネスも拡大。
- 成長と共にアラート件数も増大
- PagerDuty 導入前の課題
- 監視対象やアラート対応数の増加→人的リソース不足→対応時間・業務負荷・オペレーションミスの増加→対応品質の低下に繋がる。
- これらの課題を解決したのがPagerDuty
- 監視対象やアラート対応数の増加→人的リソース不足→対応時間・業務負荷・オペレーションミスの増加→対応品質の低下に繋がる。
- PagerDuty 導入後のフロー
- 統合監視ツール(Datadog,NewRelic)・AWSメール通知・Backlog緊急チケットをPagerDutyに集約しインシデント管理
- AMS
- インシデント管理に利用しているPagerDutyに発報されたアラートを起点に、自動化されたアクションを実行
- AMS 処理フロー
- AMS による処理後の状態
- AMS による効果
- 一次対応平均時間を大きく削減
- PagerDuty + AMS 効果
- 定型化された作業を自動化する事で、人間にしか対応できない作業にリソースを割くことができる
- 対応品質が向上=ビジネス拡大
- まとめ
感想
AIを導入する以前にPagerDutyを有効活用してAMSによって大きな削減効果を得られているため、セッションにもあるとおりAIOpsや生成系AIの導入にはまだ着手していません。
そのために本セッションを通してどのようにしてcloudpackの運用にAIを入れていくか
AMSを開発した部署としてこれからどのようなアクションをしていけば良いか
を改めて考える機会になりました。
「PagerDutyと築くテクノロジーの将来」
登壇者: 株式会社Digital Stacks カスタマーリレーションズ 内海 彩加 氏
セッション概要
PagerDutyと6年、創業は30年でネットが環境まだ存在しない時にプロバイダーを立ち上げた。今まで400社と関わりがある。3,993社ある上場企業の10%と関わる。
55,000 1日に発生する重大なインシデントの数 300万のインシデント、クリティカルなものだけで55,000件。
感想
具体的な数値と共に自社の実績を説明されていてわかりやすかったです。
世界中のあらゆる企業で採用されいているPagerDuty。
一日で発生する重大なインシデント件数55,000件は数に驚くとともに、重要なポジションであることを実感できました。
ブースでいただけるカタログ(DXable)にはPagerDuty山根さんのインタビューや、様々な取り扱いSaaSの紹介が掲載されていました。PagerDuty導入事理ブックもいただけました。
「PagerDutyを活用した運用モダナイゼーション」
登壇者: 株式会社スリーシェイク Sreake事業部 事業部長 尾張 厚史 氏
セッション概要
- 運用モダナイゼーションが必要となる背景
- 最近のシステムの特徴
- 管理外の機能の多様
- 通信量の増大と通信先の増加
- リリース頻度の早さ
- インフラの変化の早さ
- エンジニアに負荷がかかりやすい状況
- 最近のシステムの特徴
- 信頼性は機能要件の一つ
- 運用の現場でよく見られる状況
- PagerDutyは「今から」運用のモダナイゼーション
- SREチームによる事例
- 1次対応自動化
- 可視化対象の種類
- セキュリティ・品質管理
- 可視化の事例
- インシデントの分析
- Four Keys
- Four Keys,仕組みとして必要な機能
感想
モダンなアプリケーションのアーキテクチャについて述べ、その問題点が語られていました。
クラウドインフラは変化が速いため不定形の運用となりやすく、運用が複雑化しやすいことについても説明されており、そのためのオブザーバビリティについても説明がありました。
オブザーバビリティという話の中では可観測性を高めることが重要、ただ単にデータを貯めるのはo11yではない。
という話もありましたが、とりあえずログを出す
というスタンスでは良くないという啓蒙にもなりました。
「PagerDuty を活用した効率的な AWS 運用の実現」
登壇者: アマゾン ウェブ サービス ジャパン合同会社 AWS Technology Partnerships パートナーソリューションアーキテクト 櫻谷 広人 氏
セッション概要
- Amazonの運用に対する考え方
- 「故障しないものはない」
- Well-Architected*運用上の優秀性の柱から抜粋
- o11yの基盤
- 運用監視あるあるから見える課題
- o11yとはなにか
- AWS x PagerDutyで効率的なインシデント管理を実現
- ユースケース例:Webサイトのシンセティック(合成)監視
- ユースケース例:セキュリティイベントの監視
- PagerDuty+AWSでイノベーションの創出を!
感想
AWS Well-Architectedにある運用上の優秀性の柱
を引用しながらオブザーバビリティについて解説し、AWSではどのようにして実現するのかを説明されていました。
また、PagerDutyと連携する方法についていくつか紹介がありましたので改めて勉強になりました。
特にS3がパブリックになったことをPagerDutyで検知する例はわかりやすかったです。
※PagerDutyとAWSを連携してS3バケットの状態をPagerDutyで表示
Closing & コミュニティセッション
ビジネスセッションで話に出ていた機能の詳細をPagerDutyさんに聞きに行って詳しく教えてもらったりと有益でした。
後半のコミュニティセッションでは、PagerDutyを使った具体的な運用の話が聞け、オフラインだからこそ得られる情報がたくさんありました。
来年はぜひ、皆様もオフラインで参加してみてください。オフラインならではの貴重な話を聞けるチャンスがありきっと刺激になると思います。
おわりに
最後まで記事を見て頂き、ありがとうございます。
「インシデント管理にPagerDutyを導入検討してみようかな」など、
少しでもPagerDutyが気になったという方は2023年8月10(木)に、基礎的な内容をテーマとしたオンラインウェビナー形式の無料トレーニングが開催されますので、是非奮ってご参加ください。
イベント概要:https://www.pagerduty.co.jp/event/pdu-training/pagerduty-101/
PagerDutyメンバーが講師として「 セットアップ方法 」や「 基本的な使い方 」を分かりやすく日本語で解説しますので、PagerDutyの基礎的な内容を効率的に学ぶことが可能となっております。
今後のPagerDutyイベントは https://www.pagerduty.co.jp/event/ から確認できます。
またアイレットでは、日々の業務の中でPagerDutyを使ったソリューションの事例はもしています。
- クラウド監視・運用保守の品質がさらに進化。AMS 適用やインシデント対応品質を高める「運用分析プラットフォーム」を短期間で構築
https://www.iret.co.jp/works/126.html - 「PagerDuty」を活用した次世代監視システム「AMS」の開発
https://cloudpack.jp/casestudy/pagerduty.html
今後もアイレットでは、PagerDutyを活用し業務の改善・スピーディーな品質向上に努めながら、お客様にさらなる安心と価値を提供できるよう尽力してまいります。