はじめに

複雑化する現代の IT 環境に対応するため、弊社は New Relic をはじめとする様々なツールと専門知識を駆使し、サービスレベルマネジメント(SLM)や Application Performance Monitoring(APM)といった機能を活かし、次世代 MSP として取り組んでいます。

今回は、そんな取り組みの中でも重要なキーワードである「オブザーバビリティ」についてお話します。
わかりやすく説明していきますのでぜひ最後までお付き合いください。

いきなりまとめ

オブザーバビリティ = 健康診断
オブザーバビリティとは、健康診断のようなものでサービスのいろんなデータをあつめて観測します。

プロアクティブ = 先取り
プロアクティブとは、問題が発生する前に先取りして事前の対策を行うことです。

サービスの可用性 = 元気でいるための体 / 健康維持
サービスの可用性とは元気でいるための体を維持する力を表しています。

次の項目から上記のワードについて、より詳しく説明していきます。

オブザーバビリティってなあに?

「オブザーバビリティ」とは、元々制御工学で使われていた「可観測性」という概念がベースです。
可観測性なんて聞いてもあまりピンとこないと思いますので「健康診断」に例えるとわかりやすいかもしれません。

想像してみてください……。

健康診断では、体の各部を専門的に診て全体の健康状態を把握します。
IT におけるオブザーバビリティもその側面が非常に強く、サービスの各レイヤーごとの情報を集めて観測する
というのが、オブザーバビリティとなります。

リアクティブとプロアクティブってなあに?

MSP の主な業務内容は「監視、運用、保守」になります。
特に監視業務では、アラート発報を確認後、事前に定められた対応手順に基づいて迅速に対処を行います。
ただ、ここでさきほどご紹介したオブザーバビリティを思い出してみてください。

「監視も結局、良い状態か悪い状態かみているんだよね」
「それってオブザーバビリティと何が違うの?」

と疑問に思うかもしれません。
そこで、通風をイメージしてみてください。

通風とリアクティブ

「いきなり何をいっているんだ」と思われるかもしれませんが
監視業務と捉えるとこんな風に言い換えることができます。

アラート発報 = 「足が痛い!」
病院での診察 = 「問題箇所の特定」
薬で治療 = 「復旧作業」

このアプローチは「リアクティブ」、つまり受け身の対応です。
問題が起こってから対処するため、必然的にダメージが伴います。

通風とプロアクティブ

対照的に、健康診断は予防的に多くの検査を行い、医師からのアドバイスをいただく場合があります。
このアドバイスに従うことで病気を未然に防ぐことが可能です。
オブザーバビリティに置き換えるとどうなるか、といいますと

健康診断 = 「データを通じて状況を把握」
医師のアドバイス = 「データに異常が見られたら事前に対策」
健康維持 = 「改善を行い、予め問題を減らす」

これにより、システムの「健康」を維持し、大きなトラブルに至る前に対処することができます。
この先取りした対応を「プロアクティブ」と呼びます。

ここまではあくまで例え、でお話してきましたが次にご紹介する内容は、実際にオブザーバビリティを取り入れるとどうなるのかについて触れていきます。

サービスの可用性ってなあに?

これまではインフラの範囲でリアクティブな監視を行うがセオリーでしたが、
これからはインフラ以外のデータも収集、分析することで、サービスの可用性を保つためのプロアクティブな対応が可能となります。

可用性と聞くと堅苦しいですが、ようは「健康診断」を行い「元気でいるための体」を維持するための仕組みづくりだと思ってください。
そして、弊社ではこれらを実現するための強力なツールとして New Relic を活用しています。

New Relic について

アプリケーションを含めた複数レイヤーのテレメトリデータを収集、可視化、分析することに特化しており
Application Performance Monitoring では市場シェア No1 のすごい SaaS ツールです。

次に、次世代 MSP の取り組みの一部である APM と SLM について簡単にご紹介します。

APM

現在、MSP では OS から得られるメトリクスだけでなく APM 、SLM を利用して多角的にデータを収集し
適切な対応ができるよう取り組みを進めています。

APM について簡単にご説明すると、これはアプリケーション内部のトランザクションやクエリ、エラー状態をリアルタイムで収集し、データを可視化してアプリケーションの現状を明確に示してくれるツールです。

例えばですが、サービス自体には今のところ影響はないものの、APM によって取り込まれた情報から
WordPress の プラグイン でエラーが発生していることがわかったので New Relic の AI 機能「Ask AI」で分析し、
疑わしい箇所を特定することで改善活動に役立てる……なんてことができます。

SLM

次に SLM と呼ばれる サービスレベルマネジメントについてご紹介します。
サービスレベルマネジメントと呼ばれる管理手法を追加することで、監視対象の可用性を観測することができるようになりました。
特定のサービスレベル指標(SLI)に対するサービスレベル目標(SLO)を定義・可視化する
New Relic Service Levels という機能を利用することで導入できます。

Synthetics、 Log、 Browser、 APM のデータを利用して SLI /SLO を GUI 上で簡単に設定することができます。
SLM で作成した各モニターは個々にアラート設定も可能となっているので
例えばエラーバジェットが ◯◯% を下回った場合にアラート発報させる、みたいなことも可能です。

最後に

以上、オブザーバビリティと健康診断、プロアクティブとリアクティブ、サービスの可用性とその取り組みについてご紹介しました。

次世代 MSP として、弊社は New Relic を含めた様々なツールを活用し
クライアントの IT インフラ管理を最適化するための包括的なサービスを提供しています。
今後も進化する技術に対応しながら、最高のサービスを提供し続けてまいります。

また、以下のような課題でお困りのお客様はぜひ当社にご相談ください。

  • サービス障害時にインフラ観点だけでなく、俯瞰的なボトルネック調査を行い、問題の特定・解決を早めたい
  • New Relic の導入は決まったものの、ノウハウもなくどうしたらいいかわからない

お客様の課題に合わせて、「監視運用保守サービス」、「New Relic 導入支援サービス」等、当社が提供するサービスをご提案させていただきます。
ぜひお気軽にアイレットへご相談ください。