はじめに
Vertex AI Searchデータストア作成時のCloud Storageデータインポートの同期頻度にストリーミングが追加されたので、実際にどのような動きをするのか試してみました。
Google Cloud Next ’24でも発表された新機能「ストリーミング同期」
実際に2025/4/7から使えるようになりました。
では実際にやってみたいと思います。
①、対象のCloud Storageを用意します。
PDFをアップロードします。
※ストリーミングに対応しているのは非構造化(PDF・HTML・TXTなど)データのみとなります。
②、データストアを作成していきます。
他の同期と違うのがフォルダやファイルを選ぶのではなくバケットを選択する形となっています。
注意点として
service-{プロジェクト番号}@gcp-sa-discoveryengine.iam.gserviceaccount.comにストレージを操作する権限がないとエラーになります。
私はこのサービスアカウントにストレージ管理者権限を付与しました。
③、同期状況の確認をする
それでは同期の状況を確認していきましょう
先ほどアップロードしたPDFが取り込まれています。
次に追加でファイルをアップロードしてみましょう
ちゃんと即時追加されています。
次にファイルを削除した場合はどうなるか見てみましょう。
まず先ほどのバケットのPDFを削除します。
削除されているのかデータストアを見てみましょう。
ちゃんと削除されていました。
まとめ
今までは同期タイミングが最短で1日毎でした。即時反映させるには取り込み処理を自前で作成する必要があったりと使い勝手が悪い部分もありました。
しかし、このストリーミング機能が追加されたことにより自前で取り込み処理を作り込む必要もなくデータストアにファイルを追加することが可能となります。
これにより、リアルタイムでRAG情報が更新されるのでより実践向きになったと言えます。
只、今のところは非構造化データのみなので構造化データも対応してくれることを願いたいです。