概要

セッション詳細: From prototype to production: generative AI with Vertex AI
スピーカー:
Rofaida Abdelaal (Yahoo, Senior Manager, Product Management)
Nenshad Bardoliwalla (Google Cloud, Director of Product Management, Vertex AI)
Lavi Nigam (Google Cloud, DevRel Engineer)
Bhopal Singh (Yahoo, Director of Engineering, Mail Intelligence & Transactions)

セッション内容

このセッションでは生成AIを用いたアプリケーションを開発環境から本番環境へリリースする際に、どのようなことを考慮する必要があるのか、というテーマのセッションでした。

シンプルなLLMでは、図の上側のように単純なクエリとLLMモデル、それと回答があれば問題ありません。一方でLLMを組み込んだアプリケーションを運用するにあたっては、どのLLMモデル (バージョン) を利用するのか、LLMに与えるプロンプトはどのように構成するのか、そのLLMモデルの回答が適切か判断する継続的なテストはどのように行うのか、と言ったことを考える必要が出てきます。

同じくRAGを用いたナレッジ検索アプリケーションでは、通常のステップの追加ステップとして、LLMがトークン上限内で処理を行えるように、グラウンディング対象のドキュメントを適切にChunking(分割すること)する必要があります。

現在、各社のLLMモデルが乱立しており、さらにそのLLMごとにも複数バージョンがあり、さらにLLMモデルごとにTemperatureなどのパラメータが存在します。さらにはオープンソースのLLMモデルも存在します。
Neshad氏によると、このモデルの選択とそれらのモデルの性能を評価することが最も難しいとのことです。これはLLMは基本的に回答を自然言語で返してくるので、その内容が正しいか or 精度が高いかを評価するというのが難しい要因として考えられます。
また性能が良かったLLMモデルを特定できたとしても、ランニングコストも考慮して最終決定を行う必要があります。

上の図はMLOpsの全体像です。
上側がLLMアプリケーション、下側がRAGアプリケーションですが、特にLLMアプリケーションはテストデータの用意からプロンプト設計、ファインチューニング、性能評価とやるべきことが膨大でLLMアプリケーションの開発・運用の大変さが伝わります。

また下図は、Neshad氏によるMLOps内の各フェーズでやるべきことの一覧です。生成AIを用いたアプリケーションを本格的に開発・運用を行うとするとかなり大変な作業となることが、この図から読み取れるのではないでしょうか。

これらの詳細を説明するととても40分じゃ終わらないとのことで、次に米国のYahoo社でシニアマネージャーをされているRofaida氏による、Yahoo Mailへ生成AIを導入した際のナレッジの紹介がされました。


Yahoo Mailが持つ機能を考慮して、生成AIを取り入れた意図としては以下の4つとのこと。

  • 従来のアプローチでは限界に達した
  • 最終送信者をカバーできない
  • モデルを定期的に更新できない
  • 本番デプロイまでの時間が遅くなる

そこでYahoo社は、以下のスケジュールでYahoo Mailに生成AIを導入したとのことです。

Yahoo Mailのサービス規模や影響度を考慮すると、1年足らずで本番導入できたのはかなり早かったのではないでしょうか。
また生成AIを導入するにあたってチャンレンジしたことは以下の5つとのこと。

  1. ハイブリッド(オンプレミスと GCP の一部)ソリューションの状態の管理
  2. 機械学習モデルの信頼できるトレーニングのための適切なインフラストラクチャの選択
  3. インターネット規模のリアルタイムユースケース向けに、GenAl 推論ソリューションを構築
  4. GCP での最初の GenAl デプロイメント(実稼働規模)
  5. エラー分析、モデル監視、アクティブラーニングループのためのハイブリッドソリューション

そして得られた結果が以下とのことです。

最後に

生成AIを本番導入を見据えて本格的に開発・運用を行おうとすると以下に大変なのかが伝わったのではないでしょうか。

生成AI自体は導入されることで、大規模なトレーニングデータに基づいた回答を自動で行ってくれるため、非常に効率的な技術ではありますが、現在の精度だとアプリケーションに組み込む場合は、基本 / 詳細設計や運用設計がいかに大変なのかわかったかと思います。

【iret presents】Google Cloud Next’24 Recap 4月19日16時より「【iret presents】Google Cloud Next’24 Recap」を開催します。4月9~11日にラスベガスで開催される Google Cloud が主催する「Next’24」のポイントを解説する Recap イベントです。

詳細はこちら:
https://cloudpack.jp/event/googlecloud-next-2024-recap.html