Google Cloud Next Tokyo ’24 セッションレポート Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める

はじめに

当記事は、「Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める」についての紹介セッションレポートです。
主にマルチモーダル生成 AI を利用した場合の、アーキテクチャについての紹介で、考慮点や様々なパターンについての紹介でした。

Google Cloud にて提供している2つの特徴的なモデル

始めは現在注目されている、マルチモーダル生成 AI の Gemini の特徴の紹介でした。

Gemini 1.5 Pro

このモデルの最大の特徴はロングコンテキストで、200万トークンに対応しており、複雑な処理に適しています。

Gemini 1.5 Flash

高速なレスポンスが特徴であり、レイテンシに敏感なアプリケーションに適しています。

利用するケースについて考える

次にどのようなケースで利用出来るかの紹介です。生成 AI のユースケースとして、以下のような形で考えると、活用方法をイメージしやすくなるとのことです。

ユースケース例

ユースケースとしていくつか紹介されていました。
ある情報から必要なデータを抜いてきて、それを活用するなどのケースが多く見られるとのことです。

現在求められている活用と利用にあたっての課題

以下のようなビジネス用途での利用が多く求められております。

またそれらの用途を考えられている中で課題と考えられている点があり、それに対する対応案として以下のような内容を検討しておく必要があるとのことです。

このセッションの中では知的財産部分については触れられておりませんでしたが、 RAG とセキュリティ観点で触れられていました。

アーキテクチャ

基本的なアーキテクチャ

データソースから DB にベクトル化したデータを保存しておき、ユーザからの質問を受けて質問のテキストをベクトル化し、ベクトル化されたデータの説明文を取得しLLMへ連携され、最終的に結果が得られます。

マルチモーダル RAG

構築サービスの選択

Vertex AI Agent Builder で行うか、スクラッチで実装するか？の選択を検討する必要があります。

まずは、Vertex AI Agent Builder で要件が満たせるか確認し、それで難しい場合、スクラッチの実装を行うようなイメージです。
例えば、入出力データを改善したい場合など、細かく調整を行いたい場合、スクラッチでの対応が必要となるので、検討が必要になるとのことでした。

データの前処理

マルチモーダルだと前処理の実装方法が大きく変わってきて、主な内容としては、テキストとテキスト以外をどのように対等に扱うかで、パターンが分かれるとのことです。
画像もテキストも対等に扱う状態にすることを考慮する必要があるとのことです。

上記画像にあるそれぞれのパターンについて以下に補足します。

パターン1

テキストも画像も同じ空間に入れてしまい処理する。
この場合、画像からの取り込むことによりどれだけの情報が取り込めるか、が課題で、ただ構成はシンプル。

パターン2

テキストはテキストのベクトル空間に入れ、画像は画像のベクトル空間にいれて、Google Cloud が提供している Reranking を利用し関連性でランキング化する。こちらに関しては、モデリング方法がシンプルですが、Reranking を用いると複雑性が増してしまう。

パターン3

テキストと、画像をテキストに変換した情報を、同じベクトル空間へ保存する。これの場合、前処理の負荷が高く、高度な LLM が必要などの課題がある。

マルチモーダルモデル

プロンプトエンジニアリングの大切さが改めて説明されており、以下のように画像の読み解きプロセスを記載して要求することが大切となるため、その点実装時の考慮が必要となります。

課題となる精度向上とセキュリティへの対応

精度向上

API として以下2つが Google Cloud から提供されており、精度向上に向けた取り組みが可能です。
Reranking API：RAGの類似性を順位付けできる
Check grounding API：ドキュメントに関する引用先のリンクの精度記載する

セキュリティ

機密情報を検知する Google CLoud の仕組みを活かした対応も可能とのことで、元データだったり、入出力の間に入れることで、セキュリティチェックが可能です。

問題のあるデータの表示を抑止を Gemini を利用して、検閲フィルターとして利用するという対策をすることも可能です。

まとめ

Google Cloud では Gemini があるだけでなく、生成 AI を利用するための要素が整っていて、アーキテクチャを組むことも可能であることが理解できました。
インフラ担当ではあるものの生成 AI を利用したアーキテクチャを検討する機会はでてくると思うので、こちらをきっかけに学んでみたいと感じ、勉強になりました。

この記事を書いた人

齋藤寛隆 AWS、Google Cloud のインフラに関する設計、構築、運用をしています。最近は Google Cloud にふれる機会が多く、記事は Google Cloud が多くなりそうです。新しめの機能やサービスを中心に書いていこうと思います。AWS を使ってる人は Google Cloud に対する敷居を、Google Cloud を使ってる人は AWS に対する敷居を下げられるような記事も書ければと思っています。
趣味はキャンプと清掃員です。齋藤寛隆が書いた記事

Google Cloud Next Tokyo ’24 セッションレポート Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める

はじめに