DX開発事業部モダンエンジニアリングセクションの田村です。
Google Cloud Next ’24現地参加1日目の1本目のイベントレポートをお届けいたします。

セッション情報

セッションタイトル: Troubleshoot cloud applications in the AI era

あらゆる種類のアプリケーションが誕生し、クラウドに移行され続けている中でアプリケーションの管理とトラブルシューティングは、ツールと技術の両方の継続的な改善から恩恵を受けることができます。しかし、これまでのツールでは情報の複雑さと管理が増大してしまうため、迅速な解決に対する期待も高まります。このセッションでは、Google Cloudでの最新の運用とGeminiが提供するAI支援を最適に組み合わせる、AIOpsのサービスが紹介されました。

導入

最初に伝統的な監視運用の複雑性について述べていました。アプリケーションの監視と運用の目標自体は長い間大きな変化はないですが、技術の進化によって監視はより複雑になってきています。(以下写真を参照)

これに加えて、システムのワークロードはクラウドに移行し続けており、ハイブリッドインフラストラクチャの観点から考慮をしていく必要があります。

伝統的なAIOpsの役割

伝統的なAIOpsの役割としてプロアクティブな異常検知や横断的なサービスの依存関係、ログパターンの分析があります。しかし大量のツールやデータソース、依存関係によるデータが結合不能、高価なワークフローの自動化、大規模なデータ処理など制限事項を多く抱える状況となっています。
手動による事後対応の調査が大量に行われていることが、大きな問題として指摘されています。

オブサーバビリティ観点での生成AIの活用

LLMモデルの利用から、エンべディング、Retrieval Augumentationに加えて異常検知やログ分析を行うAIOpsを統合させて活用するワークロードが示されました。

Gemini Cloud Assist

上記までの課題を解決するサービスとしてGemini Cloud Assistが紹介されました!

1.デザイン
ビジネスニーズを瞬時に最新のクラウドアプリへシームレスに変換します。
リソース管理を合理化して、最適なセキュリティ、コンプライアンス、信頼性を実現します。

2.最適化
カスタマイズされた最適化によって、すべてエンタープライズのセキュリティとプライバシーを備えています。
継続的な最適化対策を簡単に実装して、リソースの効果的な使用を確保します。

3.操作
リアルタイムのアラートと通知により、重大な問題を先取りします。
機敏なインシデント解決と迅速な復旧により、信頼性の高い運用を実行します。

アプリやシステムで取得した全てのデータを送信し、Geminiは生成AIとしてのパフォーマンスを出しながらトラブルシューティングができるため、運用についてそこまで詳しくない素人目でも運用監視の迅速性はかなり向上するものだと思います。

Evolution Horizon

Google Cloudの展開として4つの展開が想定されています。
– Level 1: Reference Guide(昨年リリース)
– Level 2: Information retrieval (Releasing soon)
– Level 3: Advisor (Releasing soon)
– Level 4: Autopilot


生成AI技術及びGeminiの進化によってようやくLevel 3の段階まで来ている状況となるようです。
Level 2では生成AI(Gemini)がメトリクスやログ、コストデータにアクセスさせ難しく複雑なクエリなしにデータを取得することが可能になり、Level 3では生成AIに質問をすることで診断結果など回答を得られるようになります。
将来的にはLevel 4としてAutopilotまで想定していることまで聞いて、システムの監視運用が自動化して人的な管理コストがほとんどかからない状況もそう遠くないように感じました。

まとめ

今回はAIOpsという分野でGemini Cloud Assistというサービスの紹介がされました。
普段は開発をしておりあまり運用監視に詳しくはなかったですが、テクノロジーの進化によって複雑化する運用監視の問題を生成AIで解決できるということ知り、あらゆる分野で生成AIは我々の問題に対応しうることを感じました。