ここ数年、注目を集めているオブザーバビリティ。デジタルサービスの急増や IT システムおよびアプリケーションの複雑化に伴い、オブザーバビリティ強化へのニーズは年々高まり続けています。
アイレットでも、お客様の新しい価値の創出と成長を高いレベルで実現する真のパートナーを目指す中で、システムのモニタリングや運用・監視などを担う Managed Service Provider(MSP)の専門チームが中心となってオブザーバビリティの強化を積極的に推進しています。
この記事では、オブザーバビリティとは何か?オブザーバビリティ導入のニーズが高まっている背景や導入メリット、今後の可能性について、MSPチームの蓮沼 翔悟の解説を交えながら分かりやすく紹介します。
今回、解説してくれる専門家はこの人!
クラウドインテグレーション事業部
MSP運用セクションリーダー
蓮沼 翔悟
オブザーバビリティとは?
「オブザーバビリティ(Observability)」とは、システムの内部状況を把握する能力を示す指標や仕組みのこと。「Observe(観察する)」と「ability(能力)」を組み合わせた複合語で、日本語では「可観測性」と訳されます。
オブザーバビリティにおけるモニタリングとは、システムの特定の側面を監視する従来のモニタリングとは異なり、システム全体を把握し、データを収集、統合、分析して全体的な状態やトレンドを理解することを目的としています。この能力により、システムの異常やパフォーマンスの低下などを素早く検知し、その原因を特定することで迅速に問題を解決することが可能となります。
オブザーバビリティでは、システム全体の膨大な情報の中から、内部状況を把握するためのデータを取得し、複雑なシステムの状態やアプリケーションの動きを可視化します。すなわち、単に異常を検知するだけにとどまらず、エラー発生に至るまでのルートをさかのぼり、どこにトラブルの根本的な原因があるのかを探し出します。その結果、問題発生時に事後的に対処するだけではなく、潜在的な問題やボトルネックを早期特定し、予期せぬトラブルや振る舞いに対して予防的なアプローチを行なうことができるのです。
専門家のワンポイント解説
なぜオブザーバビリティが必要なのか?
オブザーバビリティという概念自体は新しいものではありません。しかし近年、急速に注目を集めるようになった理由の一つが、クラウドネイティブな分散型システムの普及です。クラウドネイティブな分散型システムとは、はじめからクラウドアプリケーションを実行したりソフトウェアを開発したりすることを前提として、特定の機能を持つマイクロサービスを複数組み合わせてシステムやアプリケーションを構築することを意味します。例えば、AWSや Google Cloud でシステムを構築する際は、複数のマイクロサービスを組み合わせて構成することが一般的となっています。
分散型システムは機能の追加・変更が容易にできるため、スケーラビリティや可用性といった観点で大きなメリットがあります。一方、マイクロサービス化やマルチクラウド化が進むにつれてシステム環境もどんどん複雑化していき、単一のメトリクスやログを監視するだけの従来のモニタリングの仕組みでは、システム全体を把握することが難しいという課題が生じています。トラブル発生時も複雑なシステム環境の中から原因を特定しなければならないため、対処に時間がかかってしまいます。こうした課題を解決する手段の一つとして、オブザーバビリティへのニーズが高まってきたのです。
オブザーバビリティの導入により、無数に考えられる障害原因の前兆や根本原因の特定ができるようになるため、迅速な問題解決はもちろん、事前対策も可能となります。複雑なシステムにおいても可用性やコスト効率を高めることができ、スピーディかつ安定した稼働を手助けすることにつながります。
専門家のワンポイント解説
オブザーバビリティで何が変わるのか?
オブザーバビリティ導入によって解決できる課題はたくさんあります。ここでは代表的な導入メリットをいくつか紹介します。
サービスの信頼性向上
オブザーバビリティの強化によって、常にシステムを監視・分析し、障害発生時に原因を迅速に特定・改善する体制を実現することで、サービスの信頼性を高めることができます。さらに、システムの脆弱性やエラーを予防的に対処することで、ユーザー体験を損なうことなく安定的なサービスの運用が可能となります。
特にサービスの信頼性向上にはサービスレベルなどのビジネス要件を踏まえて、事前にサービスレベル指標を策定することが重要です。規定のレスポンスタイムやレスポンスコードを満たすリクエスト数の割合、許容可能なデータの鮮度など、ユーザー体験に影響を及ぼす箇所をサービスレベル指標のメトリクスとして設計、設定することで、優先順位をつけた上で顧客のビジネスに影響度の大きいインシデントを優先して順次対処していくことができます。原因の推測や発見に余計な時間と手間を取られることが少なくなり、いわゆる“アラート疲れ”も解消されるため、エンジニアの生産性を高めることもできます。
運用と開発の連携強化
従来型のシステム監視が中心の MSP では、上がったアラートに対してインフラとアプリケーションを切り分けて対応することが主流でした。すなわち、アラートがインフラ起因ではないことを確認すると、アプリケーション開発者にエスカレーションするような体制です。
しかし、それでは根本的な原因究明からサービスの改善につなげたり、ビジネスインパクトを発見したりすることが難しく、このアラートは大丈夫なのか?ユーザーに影響はどれだけあったのか?といったユーザー体験の向上につながらないケースも散見されていました。また、サービスを洗練させるために新たな機能を導入したいと考える開発側、障害のリスクが高まる機能追加・変更はなるべく避けたいと考える運用側との間に対立構造が生じやすい側面もありました。
こうした課題に対して、アプリケーションの内部動作やトランザクションの詳細、データベースや外部システムとのやり取りなど、様々な観点から情報を収集し、アプリケーションの可視化・分析を実現する「APM」や前述のサービスレベル指標による信頼性の可視化なども含めたオブザーバビリティを強化していくことで、開発と運用のコラボレーションを実現し、さらなる改善が期待できます。
専門家のワンポイント解説
オブザーバビリティの強化で次世代 MSP を目指す
アイレットでは、主なオブザーバビリティサービスとして「運用保守サービス」と「New Relic One 導入支援サービス」を提供しています。
運用保守サービスは、AWS や Google Cloud のサーバー1台から契約可能で、アプリレイヤーのインサイトを持ち合わせていないお客様などを対象に、アプリケーションの問題点やボトルネック、負荷などを調査・可視化する APM や サービスレベルの可視化機能も提供しています。これにより、従来の仮想サーバーやクラウドのメトリクス、ログ、イベントなどのインフラレイヤーからアプリケーションまでを統合的にモニタリングし、システムの安定稼働とサービス向上に貢献します。
さらに、今後は不正利用や脆弱性情報などのセキュリティ面、クラウドのコスト部分やサービスレベル指標の可視化だけではカバーしきれないような実際の画面遷移まで含めたユーザー体験の監視などに対しても対応範囲を広げていく予定です。
また、サービスメニューの拡充だけでなく、サービス提供の裏側では業務効率化として生成AIの活用も進めています。システムの内部状態を把握するためのオブザーバビリティを推進していく上では、様々なレイヤー・角度からのデータ量を取得する必要があり、データの増加は避けられません。そして、そういった大量のデータに圧倒されず、データドリブンな障害対応や予防的措置を取る必要があります。そのために、我々はオブザーバビリティツールが提供する生成AI機能などを活用し、システムに起きた状況の素早い把握や、経験や勘に頼り切らない均質な保守対応を目指しています。
New Relic One 導入支援サービスは、New Relic の導入を予定しているが社内のリソースが不足しているため、導入まで至っていないお客様や、すでに導入しているがオブザーバビリティの導入が不透明であるお客様などを対象に、New Relic の監視設計、IaC を用いた監視設定やコンサルティングの提供など幅広い支援を行なっています。
システムのクラウド移行が多様化・複雑化する中で、障害検知時の素早い原因特定やシステムの内部状態の把握を含むオブザーバビリティへのニーズはますます高まることが予想されます。アイレットはインフラからアプリケーションまでワンストップでお客様を支援してきた知見・ノウハウをフル活用し、MSPの標準サービスに APM も加え、インフラ、アプリケーション、ユーザー環境をトータルに捉えてオブザーバビリティの強化を図ることで、次世代 MSP への進化を目指しています。オブザーバビリティの強化に関心のある方はぜひお気軽にご相談ください。
オブザーバビリティのことはアイレットにお任せください。
AWS運用・保守サービス |