クラウドの導入設計から構築、監視、運用保守までを総合的に支援する、アイレットのフルマネージドサービス「cloudpack」。2,500社以上、4,300プロジェクト超えと国内最大級のクラウド導入実績を誇り、お客様のビジネスにおける新しい価値の創出と成長を、高いレベルで実現するための真のパートナーを目指しています。
多岐にわたる cloudpack のサービスの中でも、多くのお客様にご利用いただいているのが、「24時間365日有人による監視・運用」です。この “24365”サービスを維持・向上させるべく、アイレットではお客様の環境のモニタリングや運用管理を担う Managed Service Provider(MSP)の専門チームを組織。さらなるサービス品質の向上を目指し、PagerDuty の導入や一次対応を自動化する仕組みの開発などに取り組んできました。
近年、生成 AI の登場やオブザーバビリティに対するニーズの高まりなど、世の中の市場環境が変化する中で、MSP にも大きな変化が求められています。
MSP の未来はどうあるべきなのか? ビジョンを実現するために必要なこととは?
次世代型 MSP のビジョンを描くアイレット執行役員 兼 経営戦略部 部長の遠藤 誠久と、その具体化と啓発活動に尽力するクラウドインテグレーション事業部の蓮沼 翔悟に、話を聞きました。
執行役員 兼 経営戦略部 部長
遠藤 誠久
クラウドインテグレーション事業部
蓮沼 翔悟
クラウド技術の進化とともに求められる監視すべき内容の多様化
— 近年、クラウド領域におけるお客様のニーズや困りごとにどのような変化が生まれているのでしょうか? そして、その変化に伴って MSP に求められる領域にもどんな変化が起きているのでしょうか?
クラウドという観点でいくと、AWS や Google Cloud、Microsoft Azure といった、いわゆるプラットフォームと呼ばれるクラウドサービスでは、物理サーバーで運用していた環境をクラウドに移行するという手法で、フロントエンドにアプリケーションサーバーがあり、Web サーバーがあり、バックエンドにデータベースやキャッシュがあるというような、比較的シンプルな構成だったので、MSPに求められる対応もシンプルなもので事足りていました。
しかし近年、クラウドの技術がどんどんアップグレードされていく中で、コンテナ化やマイクロサービス化がすでに主流になりつつあります。それに伴い、MSP が監視すべき項目もどんどん増加しているのが現状です。
— 監視項目が増えると、どのような影響があるのでしょうか?
例えば、今までは Load Balancer からホストへのアクセス状況を監視しておけば、流入が多すぎてサーバーが落ちたとしても、原因を特定して復旧するのは簡単でした。しかし、コンテナ化やマイクロサービス化が進むと、システム全体を可視化しなければならなくなります。実際、従来の監視サーバーでは見えない領域がどんどん出てきました。
そのような変化に対応すべく、アイレットでは Datadog や New Relic といったサービスを導入し、監視サーバーを SaaS に移行しました。これにより、監視できる範囲が大幅に増えたことに加え、監視サーバー自体のメンテナンスも不要になったことで MSP 業務の効率化を実現しました。
さらに、監視業務の一次対応を自動化・高度化することを目的に、「
次世代監視基盤 AMS(Advanced Monitoring System)」を自社開発。AMS がアラートを解析し、予め定義しておいたシナリオに基づいて動作確認・情報取得、復旧対応、復旧確認、エスカレーションまでを自動で実行できるようにしました。
— 近年はオブザーバビリティに対するニーズも高まっていますが、MSP への影響はいかがでしょうか?
まさに、従来のインフラだけではなくアプリケーションやログ、ビジネスメトリクスなどシステム全体をシームレスに可視化するオブザーバビリティ(可観測性)へのニーズも急増しています。
従来型 MSP がカバーしていたのは、主にクラウドのリソース監視です。CPU やメモリ、ディスク使用量などのリソースを監視し、アラート発生時は AMS で一次対応を実施する。未定義のアラート等は一次対応担当者がチェックし、必要に応じて二次対応担当者に引き継ぎ、お客様と連携して解決するというものです。
しかし、アプリケーション側に起因する障害の場合、お客様に調査・対応をお願いせざるを得なくなり、お客様側の負荷が高くなるという課題が発生していました。そこで最近、MSP サービスを拡大し、アプリケーション領域までをカバーするアップデートを行ないました。これにより、障害発生の原因をインフラ側からアプリケーション側まで踏み込んで調査し、原因特定から対応までのリードタイムを大幅に短縮することが可能となります。
それに加えて、Datadogや New Relic などのツールを活用することにより、お客様のサービスがリリースされる前段階から負荷テストやボトルネック調査も提供することで、オブザーバビリティの強化を実現しています。
— 実際に現場のオブザーバビリティ対応を主導しているのは蓮沼さんだと聞いていますが、現場に導入する上で難しいポイントはありますか?
オブザーバビリティの重要性をエンジニアの皆さんに正しく理解してもらうのが一番重要であり、一番難しいポイントだと思っています。アイレットはインフラの運用に関しては約1万台の運用実績があり、プロフェッショナルなエンジニアが揃っています。しかし、コンテナ化やマイクロサービス化などクラウドの特性を生かしたアーキテクチャが出てくる中で、インフラだけでなくアプリケーションも含めたシステム全体を見るというオブザーバビリティの文化を浸透させるのは一朝一夕にはいかず、今もなお啓発活動を続けているところです。
— オブザーバビリティの重要性を広めるために、どのような啓発活動を行なっているのでしょうか?
オウンドメディアの
オブザーバビリティ導入事例を積極的に発信したり、日本におけるオブザーバビリティ浸透を推進する New Relic Trailblazer に認定された
MSP セクション グループリーダーの大園を中心にオブザーバビリティを推進するチームを組成したり、私自身もAWS Summit 2024 にて従来のインフラ監視だけでないオブザーバビリティを取り入れた MSP サービスの高度化に関して発表したり、
New Relic 社との合同トレーニングを開催したりするなどの活動を行なっております。
— 啓発活動のほかに、オブザーバビリティ対応に向けて実施したことはありますか?
オブザーバビリティに対応した監視・運用保守を標準化させるために、既存のインフラ監視の領域からアプリ・ユーザー体験の領域に至るまで、マニュアルを作成したり、社内で勉強会を継続的に開いたりと、割と地道な取り組みを続けてきました。加えて、システム全体を俯瞰できるように、オブザーバビリティダッシュボードを設計、テンプレート化しました。
ダッシュボードでは可用性やユニークユーザーのアクセス状況と応答速度、SLI/SLO(サービスレベル指標/目標)と言ったユーザー体験に関わる部分、CPU・メモリ使用率などの従来のインフラに関わる部分、アプリケーションの可視化に至る部分までを可視化することが可能です。
サービスの品質をSLI/SLOとして可視化・維持しながら機能開発も進めることで、システムの信頼性を高めながら、ユーザー体験の継続的な改善を行なうことができる可視化の仕組みを整えました。
詳細に関しては、実際にこれらの仕組みを試験的に導入し、継続的な運用改善に取り組んでいる以下の公開事例をご覧ください。
複数オウンドメディアのサーバーレス化と New Relic を活用したモニタリング基盤構築。運用コスト効率化とオブザーバビリティ強化を実現!
(導入事例より抜粋)
— そのような啓発活動を通じて、オブザーバビリティの実用化には一定の成果が出ているのでしょうか?
実際に従来のインフラ監視では解決できなかった障害対応やお客様からの問い合わせに対して、フルスタックでオブザーバビリティを導入したからこそ解決につながったケースがあります。
以下がまさにその一例で、従来のインフラ監視では調査すら困難だったアプリケーション領域の問題に対して、アプリケーション監視(APM)の導入によって、MSPサービスの障害対応の可能な領域を広げ、モニタリングの方面からオブザーバビリティを強化を可能にした公開事例となります。
インフラとアプリの様々なデータを収集し、障害発生時の素早い原因特定が可能に。インフラ監視の拡張として APM を利用して、オブザーバビリティを強化
具体的なAPMを活用したオブザーバビリティの実践に関しては、以下のブログ記事をご覧ください。
New Relic の APM を利用した DB のボトルネック特定とパフォーマンス改善
このブログ記事では、データベース負荷のアラートをトリガーに、該当時間帯のトランザクションからドリダウンして問題のスロークエリとなるボトルネック箇所を特定、推奨事項の提案からパフォーマンス改善に繋げるところまでをオブザーバビリティの実践として紹介しています。
まだまだこれからですが、現場ではこのようなオブザーバビリティの実践通して、少しずつ成果は出始めていると言えます。
キーワードは生成 AI 活用と内製化支援。次世代型 MSP の展望とは
— アイレットでは次世代型 MSP を「MSP2.0」と称しているようですが、今後どうなっていくのでしょうか?
MSP の展望は大きく二つあります。
まず一つ目が、生成 AI 活用ですね。これまで、私たちの MSP サービスは有人による24時間365日監視・運用が強みの一つだったのですが、生成 AI の進化によって人間が介在する領域はこれからどんどん狭まってくると予想しています。すでにアイレットのサービスでは生成 AI を導入する領域が増えていますし、MSP も自動化が進んでいます。今後、MSP にどう生成 AI を活用していくことがお客様の価値向上やクラウドの進化につながるのか、MSP 領域をリードしてきたアイレットが率先して示していくべきだと考えています。
もちろん、現状は有人であることでお客様にメリットを提供できるケースもあると思いますが、例えば、トランザクションが少ないシステムなど、人がずっと張り付いて見ていることが負荷になっているシステムに対して、監視・運用から障害発生時の復旧までをフル自動化できるような MSP のサービスを作ることも計画しています。最終的には人が介在しない MSP サービスを作りたいですね。
すでに既存のインフラ監視については AMS 等を活用することで、人間が介在する領域がどんどん減ってきています。それによって生まれたリソースを、ビッグデータや生成 AI の活用に注力することで、事後対応ではなく予防的な対応や、未知の脅威に対するプロアクティブな対応を可能とする次世代型 MSP の開発につなげていきたいですね。
— 未知の領域に対応するのはすごく難易度が高い印象があるのですが、どうやって実現するのでしょうか?
確かに、既存のインフラ対応とは違ってパターン化されていないものが未知の領域なので、答えのない問題に対して備えることは簡単ではありません。ただ、アイレットには1万台の運用実績を通じて蓄積した膨大なノウハウやデータがあります。それらの資産に生成 AI などの技術を組み合わせることで、未知の領域への対応も可能にする MSP の高度化が実現できるのではないかと考えています。
そういった未知の領域への対応を可能にする MSP の高度化に向け、まずはオブザーバビリティの実践を通して収集した大量のデータに対して、生成 AI を活用した障害対応の取り組みを進めています。
システム全体をシームレスに可視化するオブザーバビリティの実践のためには様々な観点での大量のデータが必要となります。
大量のデータをもとに未知の障害対応を行なうことは容易ではありません。
そこで我々は、生成 AI を意思決定のサポートとして活用することで大量のデータに圧倒されず、システム状況の素早い把握や、オペレーターの属人性を排除した均質な障害対応を目指しています。
(AWS Summit 2024 での発表資料「【AWS Summit 2024】従来のインフラ監視だけじゃない!
生成AI x オブザーバビリティを取り入れたcloudpack MSPの高度化」より抜粋)
オブザーバビリティを実現することで、未知の問題が発生した際の原因究明までの時間を限りなく短縮する。そして、解決できれば未知の問題は既知になるわけだから、自動化もできるはず。そうやってどんどん未知を既知に変えながら自動化できる領域を増やしていくような PDCA サイクルを回していけるのが理想ですよね。
— もう一つの展望も教えてください。
近年、急速にニーズが高まっている運用保守の内製化支援を強化したいと考えています。まずは cloudpack をご活用いただき、インフラ構築からシステム開発、デザイン制作、監視・運用保守までをワンストップで対応させていただきます。
MSP に関しては、リリース前の負荷テストやボトルネック調査も含めて、オブザーバビリティの観点から安定性や可用性だけでなくコスト最適化も含めてお客様に合わせた監視・運用保守の構築を行ない、お客様が自走できる状態になるまで徹底的にサポートします。それこそが、私たちが掲げている「お客様にとっての真のパートナーになる」という姿勢を体現することにつながると思っています。
お客様のクラウドジャーニーを移行計画から最適化までワンストップでサポートするのが次世代型 MSP であり、そのために開発や運用の垣根を作らずに、お客様のクラウドジャーニーをトータルで支えながら価値を提供することが、MSP 2.0の目指すべき世界観だと思います。
その道のりは決して平坦ではありませんが、アイレットのエンジニアはプロフェッショナルであることはもちろん、難易度の高い課題の解決や新しいテクノロジーの活用に情熱を捧げられるメンバーが揃っています。それこそ、当社のパーパスである「技術と探究心で今日の「できない」を明日の「できる」に」を推進力に、MSPの新しいスタンダードを切り拓いていきたいです!