Google Cloud Next ’24 にて行われたセッション「Power data analytics with generative AI using BigQuery and Gemini」のレポートです。
Google Cloud Next ’24 とは?
2024 年 4 月 9 ~ 11 日にラスベガスのマンダレイ ベイで開催されている、Google Cloud が主催する最大級規模のイベントです。
https://cloud.withgoogle.com/next/
登壇者
Google Cloud , Developer Advocate
Alicia Williams 氏
Google Cloud, Engineering Director
Tomas Talius 氏
Faraday, Co-founder and CTO
Seamus Abshere 氏
セッション内容
既存のAI サービスと課題
Google Cloudにある既存のAI、データ関連のサービスは以下の通りでした。
既存のデータアーキテクチャはAI時代に求められるニーズを満たしておらず、現状19%の企業しかデータから価値を最大化できていないとのことです。具体的には以下のような課題があります。
- 構造化データと非構造化データが異なるシステムにわたってサイロを起こしている
- データの移動により、複雑さ、下りコスト、セキュリティ上の懸念、コンプライアンスリスクの増大
- データアクセスが共有されておらず、チームがデータに基づいた意思決定を行うのに苦労している
BigQueryのAIによるビジネス変革
BigQueryのAIを使用することで以下のメリットを得られます。
- すでに準備が整ったデータプラットフォームから始める
- 構造化データ、非構造化データ、ストリーミングデータの両方に対応する、信頼性と安全性を備えた完全なデータ基盤
- データにあらゆる機能を導入
- プラットフォームに統合されているため、すべてのユーザーがML、LLMS、エンべディングなどを活用できる
- 使い慣れたツールを使用してAIデータエクスペリエンスを実現する
- 生産性の向上、顧客との有意義な会話の創出、より適切な意思決定を支援
例えばBigQuery MLは、BigQueryとVertex AIを統合し、AIを用いたデータ移行を加速させてくれます。
さらに、Vertex AIの統合を通じてGeminiにアクセスできるBigQueryのGemini モデルが少し前に発表されています。
Geminiモデルを使用したBigQuery Generative AIパイプライン
パイプラインにAIを組み込むことで以下のメリットがあります。
大規模なデータや複雑な管理から脱して、その恩恵としてコスト削減などに繋がるのは魅力的です。
- パイプライン上でAI機能が使用可能
- AIモデルを呼び出すための、カスタムコードの作成および管理が不要に
- スケール(クォータ、再試行)を自動的に処理
- パフォーマンスを損なうことなく、ペタバイト規模のデータ分析が可能
- BigQueryのすべてのデータにわたる広範なモデル機能
- ガバナンスを合理化しデータの移動を回避することで、データ損失のリスクを軽減
- 簡素化されたアーキテクチャにより、コストを削減
Gen AI with BigQuery Continuous SQL (プレビュー)
Gen AI with BigQuery Continuous SQLという機能がプレビューリリースされました。
テキスト生成がストリーミング パイプライン上で利用可能になり、その出力先を以下から選べます。
- Cloud Pub/Sub
- Cloud Bigtable
- 個別のBigQueryテーブル
BigQuery Generative AIパイプラインでのPythonの使用
データサイエンティスト向けの機能として、以下がGAされています。
なおNotebooks in BigQuery Studioのスケジューリング機能が、まもなくプレビュー予定とのことでした。
- BigQuery DataFrames API (GA)
- Notebooks in BigQuery Studio (GA)
考慮すべき点
以下の観点を理解して扱う必要があります。
- パイプラインサービス
- Dataform、Cloud Composer、dbtなどの用途に合ったデータ エンジニアリング ツールを使用してGenerative AIパイプラインを実行する
- 組み込みのバッチ処理
- BigQueryは、Generative AIインフラストラクチャへの呼び出しを自動的に並列化してバッチ処理し、通常のインタラクションよりも低い優先度でタスクを実行する
- エラーとリトライ
- Generative AIモデルでは部分的な成功となる可能性がある
また、以下についてのベストプラクティスや具体的な例も紹介していました。
- エラーとリトライ
- モデルのチューニング
- モデルの評価
Faraday社の事例
BigQueryへの移行に伴い、AI/MLを活用したことで以下のメリットを生み出したとのことでした。
- すべてがGoogle Cloudで実行される
- スループットが1100%向上、エラー率が99%削減
- 50%~400%のコンバージョン上昇
またBigQueryのGenerative AIを使用する上で、3つのTipsが紹介されました。
- 部分的に成功した処理結果になっていないか注意すること
- クォータの数を適切に調整すること(デフォルトの100だと少ない)
- 構造化された出力を取得すること(カスタマイズやGeminiへの明示的要求)
他の機能との連携
BigQuery ML Generative AIパイプラインでは、他の機能を組み合わせることが可能です。
このように既存のAPIと組み合わせることで、幅広く柔軟に活用することができるのかなと思いました。
感想
BigQueryのAI/MLおよびパイプラインについて新機能も含めて紹介されていました。
私はまだBigQueryのAIに関する機能を試したことがないので、その効果を聞いて純粋にメリットだらけですごいなと感じました。
Gen AI with BigQuery Continuous SQLのプレビューも興味深く、リアルタイムでのデータ処理においてどのくらい効率化できるのか気になりました。
今後ますますアップデートが期待できるサービスだと思います。