はじめに

2024年4月にラスベガスで開催されたGoogle Cloud Next’24では生成AIを中心とした様々なアップデートがありました。
その中でもVertex AIサービスでModel Builderというツール群がありますので、各機能を実際の使用方法をイメージしながら使ってみようという記事です。

まずVertex AI Model Builderとは

Vertex AIはGoogle Cloudをよく利用している方にとっては馴染みの深いサービスかなと思います。AIアプリケーションのために大規模言語モデル(LLM)をカスタマイズしたり、APIで使用したりできるMLのプラットフォームです。
生成AIを使う上でモデルの評価やチューニング、プロンプトのデザインなど効率よく生成AIモデルを活用していくための機能がまとまっております。
この記事ではパブリックプレビューとなったプロンプト管理の以下の機能が使用されています。

  • Prompt Version Management:バージョン管理機能
  • Prompt Notes:ノート機能
  • Side-by-Side Comparison:生成結果の比較機能
  • Rapid Evaluation:Ground Truthによる定量的な評価を返す機能

プロンプト管理

バージョン管理編

これは生成モデルに渡すプロンプトをパラメータを含めてバージョン管理を行ったりできる他、ノートを残せたりコンソール上でプロンプトの実行結果を比較することができる機能です。
Vertex AI Studio上の「マイプロンプト」から保存しているプロンプトを表示できるようになっています。

「プロンプトを作成」を押下するといつものプロンプトの画面が表示されますので、試しに1つ保存しています。
プロンプトの名前も自由につけることができます。

少し質問を変え、またパラメータも少し変更しています。
最後にNOTESを記入して保存します。記入したNOTESもしっかりバージョン管理されるので有益な情報を残しておきましょう。

今度は3点リーダの「履歴」から確認してみます。
※画面サイズによってはタブバーにあります。

この画面でバージョンごとのプロンプト文やNOTES、パラメータの値を確認することができます。

プロンプトの内容はもちろんのこと、NOTESやパラメータの値までしっかり保存されバージョン管理できるようになっています。

プロンプトを都度修正して精度検証することは多いかなと思いますが、過去バージョンのプロンプトデータを確認できるのはかなり有用かなと思います。

💡便利な複数プロンプトの同時実行と指標による比較機能

コンソール上で複数プロンプトを実行して、生成結果を比較する機能が提供されています。
それがSide-by-Side Comparisonという機能になります。

コンソールで作成した限りでは最大3つまで同時に比較できるようです(2024年4月24日現在)

比較する際の指標として4つの定量的な評価値が表示されています。

評価項目名 評価内容 評価値の範囲
一貫性 生成された文章が整った構造になっていて前後の文章の間に論理的な流れがあるかどうかの評価。 1(最低)~5(最高)
流暢さ 生成された文章の文法や言語的な正確性の評価。 1(最低)~5(最高)
安全性 生成された文章がヘイトスピーチやハラスメント、整形に露骨な表現、危険なコンテンツなどの有害なコンテンツを含むかどうかの評価。 0(危険)~1(安全)
フルフィルメント 生成された文章が要件や指示を含めたプロンプトの内容に正確に従っているかの評価。 1(最低)~5(最高)

Ground Truthを使った定量的な比較

その他にGround Truthという機能を使った比較が可能です。
これはプロンプトに対して推奨される回答のことで、他のすべてのモデルレスポンスは、Ground Truthの回答に対して評価されます。

Ground Truthとはなんぞや
👉一言で言うとモデルのトレーニングやモデル精度のテストをするための「正しい答え」です。
モデルの精度を高めたり、レスポンスの回答が期待通りの結果になっているのかなど高品質なモデルとして運用していくためにとても重要な存在ですね。

コンソール上では3点リーダから「グラウンドトゥルースとして使用」と画面右端の「グラウンドトゥルース」ボタンから利用可能です。

続くポップアップから正解となる生成文を指定することで、別の評価指標を設定することができます。

グラウンドトゥルースを設定することで「ROUGE」と「BLEU」という指標が生成されました。

評価項目名 評価内容 評価値の範囲
ROUGE 生成された文章とグラウンドトゥルースとの間で最長共通部分列の長さを測定して結果を集約したスコアの評価。 0(最低)~1(最大)
BLEU 生成された文章とグラウンドトゥルースとの間の類似性の評価 (完全に不一致)~1(完全に一致)※一般的に0.5以上だと高品質

設定した期待する回答と生成AIの結果を比較を類似度と文字列の一致具合という2つのアプローチで評価するための機能のようですね。

さいごに

プロンプト管理周りの機能はここまでですが、さまざまな機能が追加されて使いやすくなっているかと思います。
個人的な願望としてはAPI経由でコンソールで保存したプロンプトを使えるようになることでしょうか✨
プロンプトの保存や運用は色々手段があり、管理が煩雑になってくるのも少なくはないと思いますが、アプリ側からAPIで使えるようになればさらに使いやすさも増すのではないかと思っています。

タグ付けが可能になるPrompt TagsやAIがフィードバックを返してくれるAI-Assistなどが近日リリース予定ですので、この辺りも要チェックですね!