セッション概要
- サービスレベル目標とはなにか?
- Cloud Monitoring(モニタリングのデモ)
※SREに関してはオライリーの書籍に詳しく書かれています。会場で購入可能そうでした。
SREについて書籍で学習した内容が、本番サービスとして運用する具代的な形やモノとして使用する方法やデモを体感できました。Cloud Monitoringを使用を提案する案としても参考になりました。
セッション内容
1. サービスレベル目標とは何か?
- SRE→信頼性
- 信頼性を基準にする。共通理解を持って開発と運用
- 信頼性指標の計測
- 求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こすことなく実行する確率
信頼性の指標の元データ
- リクエスト/レスポンス
- データ処理
- ストレージ
例 SLIとSLOを定義
サービスAに対するリクエストのうちレスポンスコードが2XX, 3XX, 4XXを返すものの割合が28日間で99.9%
- SLI
- (良いイベント/有効なイベント)*100
- SLO
- SLIプラス計測期間プラス目標値
- SLOが決まるとエラーバジェットが決まる(許容できるエラーの量) = 不具合が発生すると、エラーバジェットを消費することになる。
バーンレートアラート
- エラーバジェットを消費「速度」=どれだけ早く問題が顕在化するか
- アラートの出し方に関係有り
2. SLIとSLO、バーンレート(に基づくアラート) → サービスモニタリング
- ECサイトでサービスモニタリングのデモ
- (フロントでのSLI, SLO)-> cloud monitoring GKE
- Cloud Monitoring で可用性、レイテンシを可視化
- エラーバジェットの追跡も可能
- SLO自動的にバーンレートアラート作成可能
- アラート → 従来型のしきい値ベース
- サービスレート → サービスから作成
- カスタムメトリクス→オンプレミスで使用する(サービスモニタリング使用可能)
3. まとめ
- ユーザーのリアルタイムの満足度が計測可能
- サービスモニタリングの積極的に活用へ
感想
Professional Cloud DevOps Engineerを取得するために、ちょうどSREについて勉強していた後でしたので自分の中でトレンドのある内容でした!
今回のセッション内容はサービス開発&運用していく中でお客様の満足度にも繋がるものでしたので今後のサービス開発にぜひ活かしていきたいのと、意外とモニタリングの設定が簡易にできるとデモを見ていて感じました。
改めて、今後の業務に活かしていきたいです。