クラウドインテグレーション事業部の遠地です。
2024年9月9日から12日まだラスベガスで開催されたOracle CloudWorld 2024に参加してきました。
キーノートや技術セッションの内容をエンジニア目線でいくつかお届けします。

今回は以下のセッションの内容です。

セッション概要(原文)

Modernizing Observability & Management with GenAI: Strategy and Roadmap [LRN1447]

The Oracle Cloud Observability and Management platform unifies all types of observability telemetry and provides modern generative AI (GenAI), AIOps, and machine learning analysis. It improves cloud native and Oracle Applications performance, enables application threat activity monitoring, and offers advanced database management, capacity, and SQL observability across cloud and on-premises environments. Learn about how GenAI is integrated into our observability offerings, new offerings, capabilities, and investment areas.

ざっくりとした概要

Oracleが計画しているGenAIを使用したオブザーバビリティに関するイノベーションをデモを交えて解説してくれました。
セキュリティの強化やSRE/DevOpsの効率化についても話がありました。

セッション内容

導入

まずは既存のオブザーバビリティ製品に対してユーザは不満を抱えているとの視点が提示されました。

  • オブザーバビリティ製品は狭い範囲にフォーカスしていて対象の環境に対する完全かつ統合された全体像を把握することができていない
  • オブザーバビリティ製品はまだ初期段階もしく発展途上段階だと感じている

Observability製品利用者の60%は不満を抱えている

続いてOracle CloudのObservabilityやManagement関連サービスの全体像が紹介されました。
主要な機能としては以下の4つ。

  • Monitoring
    • Real user monitoring
    • Infrastructure monitoring
    • Availability monitoring
    • Service/SLA monitoring
  • AIOps/Analytics
    • Logs and trace analytics
    • Anomaly detection
    • Event correlation
    • Cluster & pattern recognition
    • SQL insights
    • Capacity planning
    • Cost optimization
  • Diagnostics/Tuning
    • Application tuning
    • DB diagnostics
    • SQL tuning
    • Workload regression detection
  • Security
    • Security analytics
    • Threat activity monitoring
    • Vulnerability detection and patching (O/S and database)

それを実現するサービスとしては以下のようなものがあります。
※OCIのコンソール上でObservability & Managementにカテゴライズされているサービスはこれ以外にもあります。

  • Application Performance Monitoring
  • Stack Monitoring
  • Logging Analytics
  • Database Management
  • OS Management Hub
  • Ops Insights

Oracle CloudWorld 2024ではマルチクラウドが大きなテーマとしてあげられていたのですが、ここでもマルチクラウドは強調されています。
OpenTelemetryやFluentdをサポートしているので、OCIだけでなくオンプレや他のクラウドからもメトリクスやログを収集してOCIで集約して監視や分析を行うことが可能です。

今後の方向性

ここからは今後の戦略やロードマップの話になります。
ここで話されていることが今すぐに実現するわけではないことは注意してください。

テーマとしては以下の3つです。
このセッションでは主にひとつめのテーマを重点的に話していた印象でした。

  • GenAIを利用したイノベーション
  • セキュリティに関するインサイトと強靭化
  • SREやDevOpsの効率化

生成AIを利用したイノベーション

ObservabilityやManagementの機能にGenAIを組み込むことで進化させるという内容でした。
ObservabilityとGenAIの統合というテーマでは以下の2つの観点があります。

  • GenAIを利用して監視や分析を簡素化・効率化する
  • GenAIを利用したアプリケーションやワークロードに対する監視や分析の指標を提供する

GenAIを利用した効率化では調査に必要な情報の収集やボトルネックを特定をチャットボットが支援するという未来が紹介されていました。
チャットボットに自然言語で質問することで必要なメトリクスのグラフを集めたダッシュボードを自動生成したり注目して見るポイントを提案してくれたりする動作をデモを交えて見せてくれました。

GenAIを使用したチャットボットの概要です。
「今日はなぜアプリが重たいのか?」というような自然言語で質問するとトラブルシュートしてくれます。その結果をまとめてグラフで表示してくれたり、データを検索するためのクエリを提示してくれたりもします。

以下のアーキテクチャで実装しています。

デモもありました。
チャットボットに質問を入力していくことで、必要なメトリクスを表示させ原因を絞り込んでいく様子が実演されました。
これまでは自分自身でやるかチームのメンバーに依頼してやってもらっていたような情報収集と分析を生成AIが肩代わりしてくれています。

デモの2つめは不審なIPアドレスをログから調査するというお題でした。
膨大なネットワークのログの調査はとても時間のかかるものですが、自然言語でログを洗い出しさらに関連するKubernetesクラスタの情報も表示させています。

2つめのGenAIアプリケーションの監視です。
GenAIアプリケーションの監視については以下の3つの機能を提供します。

  • リアルタイム・モニタリング
  • トラブルシューティングと分析
  • キャパシティ・プランニングとコスト最適化

リアルタイム・モニタリングでは生成AIアプリケーションに関連する様々なメトリクスを収集します。

OCI上でGenAIアプリケーションを稼働させることで、アプリケーションのワークロードとCPUやGPUのメトリクス、さらにネットワークの問題とも関連づけて分析することができます。

アプリケーションの監視では、ユーザの利用状況の監視やGenAIアプリケーションのボトルネックの特定、LLMに費やされるコストの最適化といった機能を提供します。

GPU、CPU、メモリ等のコンピュート・リソースの必要量を予測し最適化します。

セキュリティの強化

GenAIを使用したオブザーバビリティのイノベーションの話はここまでです。
次はセキュリティの話に移りました。
脅威のモニタリングだけでなく、不審なデータアクセスの追跡、脆弱性のあるアプリケーションの検出、さらにパッチの適用プランの作成までおこないます。

SRE/DevOpsの効率化

最後にSREやDevOpsの効率化の話です。
TerraformやAnsibleを使用した自動化、ダッシュボードを使用した見える化、カスタムメトリクスの作成などの話がありました。

パフォーマンス診断の高速化についてもいくつか機能が提供されます。

最後に改めて強調されたのはオープン・スタンダードだということです。
OCIはオープンな技術を元につくられている、だからベンダーロックインは発生しない、ということは以前から強調されていました。
実際、AWSでいうCloudFormation的な機能であるResource Managerは Terraform そのままですし、OCI Functionsも Fn Project をベースにしています。
オブザーバビリティに関しても、OpenTelemetryやFluentdなどのオープンな規格やオープンソースソフトウェアに対応しています。

まとめ

現時点ではまだ実現していない機能でしたがGenAIとオブザーバビリティの統合の未来は好ましいものだと感じました。
お客様環境に対して監視や運用保守サービスを提供している身としては、生成AIが情報を収集し分析しまとめてくれる機能は今すぐにでもほしいものです。
セキュリティのところで触れられていたアプリケーションの脆弱性の管理も運用の負荷がとても高いものなので、どこにどんな脆弱性があってどのパッチを適用しないといけないのかというようなことを容易に管理できるようになればとても嬉しいです。
生成AIはOracle CloudWorld 2024全体を通して大きなテーマの一つでしたし、セキュリティは以前からずっと重視されているテーマです。
Oracle CloudがターゲットとするのはやはりOracle Databaseを中心とした大規模なエンタープライズ・システムになるでしょうし、大規模環境での効率的な運用やセキュリティ管理は当然求められる機能かと思います。
この方向性で進化していけば更に使いやすいクラウドサービスになるのではと思いました。