Google Cloud Next Tokyo ’23 の Day1 にて行われたセッション「SLO 監視でサービス品質を 一段上げる!Google Cloud Monitoring 活用法」のレポートです。

Google Cloud Next Tokyo ’23 は、2023 年 11 月 15、16 日に東京ビッグサイトで開催される Google Cloud が主催するイベントです。
https://cloudonair.withgoogle.com/events/next-tokyo

登壇者

Google Cloud デベロッパー リレーションズ
シニア デベロッパー リレーションズ エンジニア 山口能迪 氏

セッション内容

サービスレベル目標とは

  • SREの根本的な考え方
  • 信頼性指標の計測
    • 信頼性という言葉では抽象的なので測れない
    • 「求められた機能」を、定められた条件の下で、定められた期間にわたり、障害を起こすことなく「実行する確率」
      • SLI:指標
      • SLO:目標
    • 信頼性指標の元データ(目安)として挙げられるもの
      • リクエスト、レスポンス
      • データ処理
      • ストレージ

SLIとSLOの定義

  • 信頼性指標の元データを確率に直すことでそれぞれを定義する
    • SLI:(良いイベント/有効なイベント) * 100%
    • SLO:SLI + 計測期間 + 目標値
  • エラーバジェット
    • SLOが決まるとエラーバジェット(許容できるエラーの量)が決まる
    • エラーバジェットが残っているうちはSLOを満たしているため、新機能開発やリリースを促進して良いと考えられる
  • バーンレート
    • エラーバジェットの消費速度 = どれだけ早く問題が顕在化するか
    • (例) バーンレート 1:想定通りの消費速度、バーンレート 2:想定の2倍速の消費速度
    • このバーンレートに対してアラートを設定したいが、既存のモニタリングツールで一から設定するとなるとなかなか難しい
    • サービスモニタリングで簡単に設定できる方法を紹介

デモ

  • GKEベースのマイクロサービス
    • 簡単なECサイトで、今回のモニタリング対象
  • サービスモニタリング
    • レイテンシ、可用性に関するSLI、SLOを作成
  • アラート設定
    • 作成したSLOから数クリックでバーンレートのアラートを作成
    • アラートの項目からだと従来のような閾値の決定から始まるので上記で設定するのが簡単
    • デモのイメージ

まとめ

  • SLOを設計し監視することで、ユーザのリアルタイムの満足度を観察し、積極的な開発と運用が可能になる
  • サービスモニタリングを活用しよう

感想

SLI、SLO とは何かというところから詳しく説明されており、初心者にもわかりやすい内容だったのではないかと思います。
肝心の Google Cloud Monitoring の活用法はデモによる操作でしたので本レポート上では伝わりにくいと思いますが、マネジメントコンソールから数クリックで設定できるようになっており、非常に簡単に感じました。