概要
Google Cloud Next Tokyo ’23 の Day1 にて行われた『BigQuery と Google Cloudによる次世代のデータ分析』のレポートです。
セッションを通して気になった内容を記載いたします。
内容
BigQuery Studio
Google Cloud のデータ分析スイートのための統合された共同ワークスペース
機能概要
- 堅牢な SQL エディタ。コード補完、クエリ検証、処理されるバイト数の推定値を提供
- Colab Enterprise を使用して構築された埋め込み Python ノートブック。
- Dataform 上に構築された、ノートブックや保存したクエリなどのコードアセットのアセット管理と変更履歴。
- Duet AI 生成 AI上に構築された、SQL エディタとノートブックでのコード開発支援。
- データ検出、データ プロファイリング スキャン、データ品質スキャンのための Dataplex機能。
- ユーザーごとまたはプロジェクトごとにジョブ履歴を表示する機能。
- LookerやGoogle スプレッドシートなどの他のツールに接続して保存したクエリ結果を分析し、他のアプリケーションで使用するために保存したクエリ結果をエクスポートする機能。
BigQuery Omni
BigLake テーブルを使用して、Amazon S3または Azure Blob Storage に保存されたデータに対して BigQuery 分析を実行するサービス。
クロスクラウド結合機能を導入
これにより単一の SQL ステートメントでクラウド全体のデータにクエリを実行可能!
AWS・AzureのデータレイクデータをETL 経由で BigQuery にコピーする際のパイプラインの構築と実行の複雑さを解消できるメリット。
これは便利すぎますね!
Data Clean Room
個人を特定することなくプライバシーを保護しながらデータの分析・利活用ができる。
データの提供者は、クリーンルーム内でテーブルやビューを公開したり、機密情報を集約、匿名化して保護が可能。
データに対して実行できるクエリの種類を制限することも可能。
プライバシーを強化したクエリにより機密情報の共有ができる。
異なる組織間でのデータの利活用において活躍できそうですね!
Dataplex
「自動データプロファイリング」
BigQuery テーブルの列の統計的特性をレポーティングする機能。
テーブルの各列の「値の分布」「null の数」「ユニークな値の数(概算)」「最大値・最小値・平均値・標準偏差・近似中央値」などを出すことが可能。
公式ドキュメント
Data Lineage
「データの取得下と送信先の分析に」
テーブル間の依存関係をGUIで可視化ができる。
公式ドキュメント
Duet AI in BigQuery
「自然言語によりAI によるクエリ生成やクエリ補完が可能」
SQLが苦手な人に対して生成し作業を促進し、理解している人も補完により作業の効率化が促進できる機能かと思いました。
その他
等々取り上げられておりました。
感想
セッションに参加し、データをGoogleCloudに統合していくと
AIやデータ分析への更なる活用、クロスクラウドへの柔軟な対応によるコストの縮小
データ分析の作業自体の効率化、ガバナンス管理等々
様々ユーザのニーズを捉えた痒い所に手が届く内容だと思いました!
お客様へ活用の幅が広がりそうな内容ばかりで参加できてよかったです。