はじめに

この記事はGoogle Cloud Next Tokyo 2025で公開されたセッション
「最新の生成 AI モデルへのアップデートに必要な LLMOps」についてのセッションメモです。誤りなどがありましたら随時、修正していく予定です。

本セッションを理解するために必要な知識をおさらい

本セッションはLLMOpsを題材にしており、Google CloudでプロダクションレベルのLLMアプリケーションを問題なく運用していくにはどうしたら良いかが紹介されていました。

  • 生成AI/大規模言語モデル(LLM): 「Gemini」のように、文章などを作成するAIです。技術の進化が非常に速く、常に新しいモデルが登場するため、継続的なアップデートが必要になります。
  • LLMOps(エルエルエムオプス): 進化し続けるLLMをビジネスで安定して活用するための運用方法や考え方のことです。モデルの性能を維持し、ビジネス価値を生み出し続けることを目的とします。
  • プロンプト: AIに与える「指示文」のことです。AIモデルをアップデートする際には、このプロンプトも新しいモデルに合わせて最適化する必要があります。
  • 精度の監視(モニタリング): AIの性能は、新しい商品や話題が登場するなど外部環境の変化によって、知らないうちに劣化することがあります。そのため、リリース後も継続的に性能を監視することが非常に重要です。
  • Vertex AI: これらLLMの運用課題を解決するためにGoogle Cloudが提供するプラットフォームです。プロンプトの管理や最適化、モデルの評価、作業の自動化といった機能を提供します

セッションで登場したサービス名

登場したGoogle Cloudのサービス名は以下の通りです。

  • Vertex AI: LLMの運用課題を解決するための統合プラットフォームとして中心的に紹介されています。

また、Vertex AIの具体的な機能や関連サービスとして、以下の名称が挙げられていました。

  • Vertex AI Studio: プロンプトの管理や試行錯誤を行うためのサービスです。
  • Vertex AI Pipelines: モデルの評価やデプロイといった一連の作業を自動化するための機能です。
  • Vertex AI Workbench: ノートブックベースの作業を自動化できる環境
  • Prompt Optimizer: 新しいモデルへ移行する際に、既存のプロンプトを最適化する機能です。
  • Gen AI Evaluation Service: モデルの性能を評価するための機能です。

セッションの内容を要約するとつまり

  • LLMの進化は非常に早いため、常に最新のモデルを使って高い精度を保ち、ビジネス価値を生むための運用設計が重要である
  • LLMOpsとは、LLMの管理と運用に関連する手法やプロセスのことであり、データの管理、トレーニング、デプロイ、モニタリングの4つの側面から整理できる
  • PoCで用意したデータセットと、実際にリリースした後のデータは必ずしも一致しないため、入力データの変化やモデルの精度、サービス自体の品質を評価するモニタリングが不可欠である
  • Google Cloudは、LLMOpsを支援するため、Vertex AIという統合プラットフォームを提供している
  • Vertex AIは、プロンプトの管理・最適化、モデル評価、そしてVertex AI Pipelinesによる様々な作業の自動化といった機能を提供し、最新モデルへの迅速な対応が可能である

セッションの内容(本編)

近年、大規模言語モデル(LLM)の進化は目覚ましく、新しいモデルが次々と登場しています。これにより、生成 AI を活用したシステム運用は複雑化し、常に最新のモデルを使って高い精度を保ち、ビジネス価値を生むための運用設計が重要になっています。

このセッションでは、今使っている生成AIのモデルがいつまで使えるかという問いかけから始まりました。Google Cloud で Gemini のようなモデルを使用してアプリケーションを構築する場合、ベースとなるモデルの選択が重要ですが、Gemini の場合、公式のコメントでも、ベースとなるモデルにはすでに終了日が決まっていることが示唆されており、新しいモデルへの移行が必要になります。このようにLLMの進化は非常に早いため、日々の進化に対応するための運用が不可欠です。

本記事では、この課題を解決するための考え方である「LLMOps」と、Google Cloud が提供する関連サービスについてご紹介します。

LLMOpsとは

LLMOps(大規模言語モデル運用)とは、LLMの管理と運用に関連する手法やプロセスのことを指します。
※公式ドキュメントより引用: https://cloud.google.com/discover/what-is-llmops?hl=ja

これは単一の正解があるものではなく、ビジネスの優先度や追跡したい指標(KPI)に基づいて、アプリケーションやモデルのパフォーマンスを自動化しながら管理していくという考え方です。

LLMOpsは、以下の4つの主要な側面から整理できます。

  1. データマネジメント: LLMを効果的にトレーニングするには、大量の高品質なデータが必要です。トレーニングに使用するデータがクリーンで正確であり、目的のユースケースに関連していることを確認する必要があります。また、トレーニングと推論中に膨大な量のデータが生成されるため、効率的なデータマネジメント戦略を実装する必要があります。LLMOpsのライフサイクル全体を通じてデータの安全かつ責任ある使用を確保するために、明確なデータガバナンスポリシーと手順を確立することも重要です。
  2. トレーニング: LLMの学習プロセスにおいて、どのようなアルゴリズムやパラメータ設定を使用したかを記録・管理することが重要です。これにより、異なるデータサイエンティストが同じ結果を再現できるようになります。
  3. デプロイ: モデルをどの環境にデプロイし、最適化するかを管理します。
  4. モニタリング: 推論フェーズにおいて、ビジネス上のKPI(離脱率など)やモデルのパフォーマンス(精度、レイテンシなど)を追跡するための指標を確立することが不可欠です。PoCで用意したデータセットと、実際にリリースした後のデータは必ずしも一致しないため、入力データの変化や、モデルの精度、サービス自体の品質を評価することが重要です。

LLMOpsを支援するGoogle Cloudサービス「Vertex AI」

Google Cloudは、これらのLLMOpsの課題を解決するため、統合されたプラットフォームである「Vertex AI」を提供しています。

  • Vertex AI Studio: プロンプトの試行錯誤の過程を記録・管理する機能です。プロンプトのバージョン管理やパラメータ設定の記録、出力結果の比較などが可能です。
  • Prompt Optimizer: 新しいモデルに移行する際に、既存のプロンプトを新しいモデルに合わせて最適化する機能です。少量の参照データ(5件程度)があれば動作し、元のプロンプトテンプレートを新しいモデルで最適なパフォーマンスが出るように書き換えることができます。
  • Gen AI Evaluation Service: モデルの評価機能で、モデルベースの評価指標と計算ベースの評価指標の2つのアプローチがあります。
    • モデルベースの評価指標: 判定モデルを使用して、記述的な評価基準に基づいてパフォーマンスを評価します。グランドトゥルース(正解データ)がなくても評価が可能ですが、費用と処理速度がやや高くなります。また、2つのモデルの出力を比較するペアワイズ指標も可能です。
    • 計算ベースの評価指標: 数式を使用してパフォーマンスを評価します。通常グランドトゥルースが必要ですが、費用が低く高速に評価できます。
  • Vertex AI Pipelines: 定型化できるタスクを自動化し、運用のコストとヒューマンエラーを減らすための機能です。ワークフローベースでプロセスが自動化できます。Vertex AI Workbench上でのノートブックベースの作業も自動化が可能です。

これらの機能を活用することで、日々進化する生成 AI のモデルに迅速に対応し、ビジネス価値を最大化するシステム運用が可能になります。

セッションで紹介されたサービス・機能について

セッションのレポートは以上です。ここでセッションで紹介された機能についてドキュメントや過去の記事をベースにして参照します。

  • Vertex AI Studio
  • Vertex AI Pipelines
  • Vertex AI Workbench
  • Prompt Optimizer
  • Gen AI Evaluation Service

それぞれの機能を見ていくと

Vertex AI Studio

プロンプトの管理や試行錯誤を行うためのサービスです。アプリケーションに生成AIを実装するまえにプロンプトのテストやモデルのチューニングができます。

Skills BoostにVertex AI Studio を使ってみるというコースがあるので興味のある人は触ってみると良いでしょう。
忙しい人向けにはYouTubeに5 分で解説!Vertex AI Studio の使い方もあります。

Vertex AI Pipelines

モデルの評価やデプロイといった一連の作業を自動化するための機能です。Google Cloudに古くから存在するサービスであり、機械学習のパイプラインとして利用されます。

機械学習を含む、AI技術において重要なことはモデルのトレーニングと評価を自動化することです。感覚としてはアプリケーション開発者がCI/CDを構築するのと同じです。

Skills BoostにVertex AI Pipelines: Qwik Startというコースがあるので興味のある人は触ってみると良いでしょう。

Vertex AI Workbench

ノートブックベースの作業を自動化できる環境 です。

Googleでノートブックというと多くの人はGoogle Colabを思い浮かべるかもしれません。
なお、Google CloudにはGoogle Colabのエンタープライズ版としてColab Enterpriseというのがあります。いずれにしてもJupyter環境をベースとしたものです。

Google CloudのVertex AI Workbenchはつまり、Colabと同じくJupyterLab環境をマネージドで利用できるようにしたものです。

(ちなみに)Google Cloudでノートブックを開く方法

ノートブックを開く方法をまとめると以下のとおりです。

  • CloudShellの環境を構築し、Editorで開く
  • Colab Enterpriseで開く
  • Vertex AI Workbenchで開く
  • Cloud Workstationsで開く
  • Cloud Run/Compute EngineでJupyterLabをホストして開く
  • GKEでJupyterHubをホストして開く

Prompt Optimizer

新しいモデルへ移行する際に、既存のプロンプトを最適化する機能です。

公式ブログでは「プロンプト疲れ」を軽減する機能として紹介されました。自動プロンプト最適化(APO)手法に関する Google Research の論文(NeurIPS 2024 で採択)をもとに指示の言い換えを実行します。

Gen AI Evaluation Service

モデルの性能を評価するための機能です。

セッションにもありましたが、一定の評価指標に基づいてモデルを評価します。

本機能はラスベガスで開催されたGoogle Cloud Nextの「How good is your AI? Evaluate it at every stage」というタイトルでIrina Sigler氏、Ivan Nardini氏、Nicolas Venegas氏の3名によるセッションで紹介されました。

それ以外にも公式BlogやPodcastがあります。

また、iret.mediaにおいては実際に使ってみたブログもあります。

クイックスタートしたい人やYouTubeでざっと概要を知りたい場合は以下の資料が役に立ちます。

感想

今一番ホットな話題かなと思い、選択したセッションですが、聞いてよかったと思いました。
実際にGoogle CloudのVertex AIで開発したものがあるのですが、継続的にモデルの評価などができておらず、放置気味でしたので勉強になりました。
それと同時にAIエージェントを実装して継続して管理していくことは思ったより難しいということも本セッションでよく理解できました。

セッションでの気づきも含め、改めてVertex AIの凄さを知ることができました。