Google Cloud Day ’23 Tour in TOKYOのDay1にて行なわれたセッション「データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス」のレポートです。
※画像は本セッションの資料から抜粋しております。
Google Cloud Day ’23 Tourとは
Google Cloud Day ’23 Tour in TOKYO は、2023/5/23〜5/25の3日間に渡って、
Google Cloudの最新ソリューションとお客様事例についての、数多くのセッションが行なわれるイベントです。
オンデマンド配信もあるため、気になったセッションがあれば以下からチェックしてみましょう。
https://cloudonair.withgoogle.com/events/google-cloud-day-23
概要
登壇者
- Google Cloud 西村 哲徳 様
- ソリューション & テクノロジーグループ データ アナリティクス スペシャリスト
セッション内容
BigQuery Migration Service を利用することでアセスメント、SQL 変換、データ転送、データ検証などデータウェアハウス移行に伴う様々な作業の工数やリスクを低減して、移行を加速しデータ分析を始めるまでの時間を短縮することができます。
本セッションでは移行フレームワークとともに BigQuery Migration Service がどのように移行の支援ができるかをご紹介します。
レポート内容
なぜデータウェアハウス(DWH)の移行が必要なのか?
- 導入当初は良かったが、時間の経過と共にビジネス要件への対応が難しくなった
- 運用面を含むシステム的な課題の積算により、DWHの見直しが必要となってくる
ビジネスの求める分析要件 | システム的な課題 |
---|---|
分析対象のデータソースの増加 | ハードウェアやソフトのEOL |
データの鮮度、リアルタイム性 | パフォーマンス低下 |
高度な予測分析(機械学習など) | アーキテクチャ複雑化、運用負荷増大 |
多様なワークロードやデータ | コストの増大 |
多様なツールのサポート | セキュリティ |
- ただ移行するだけでなく、モダナイズが必要
- 単に現状のハードウェアやソフトなどのユースケースを移行するだけでは課題は解決できない
- システムの進化の恩恵は受けられるがそれだけではビジネスニーズに答えられない
- 今後のビジネス要件に柔軟に答えられるようなModernizeをやっていくことが重要
モダナイズ先としてのBigQuery
なぜBigQueryが良いのか?
- 以下の特徴に力を入れている
- 無制限のデータ
- 構造化データ以外にも画像や動画、イベントログやIoTのデータなど、どんどん増えていくものに対してちゃんとスケールして効率的に捌いてくれる
- オブジェクトデータで非構造化データの分析が可能
- 無制限のワークロード
- SQL以外の分析エンジンを使っている場合も、効率的にデータを引き出して分析できる
- BQ MLだけでなく、Sparkのワークロードを動かせるようになった
- 無制限のアクセス
- その人の使っているそれぞれのツールでアクセスできる
- 無制限のデータ
- BigQueryは幅広いニーズをカバーできている
- アーキテクチャを複雑化せずに、先程のビジネス要件を網羅できている
- ガバナンスも一元管理できるので、システム的な課題も抑えられる
- 実際に移行する際に、どのような悩みが出てくるか?
- そもそもどうやって移行するのかわからない
- 移行作業にかかる工数はどのくらいか?
- これらを解消するフレームワークを紹介していく
データウェアハウス移行フレームワーク
移行方法
- 以下の方法が挙げられる
- リフト & リホスト
- そのままの移行になってしまうので、おすすめしない
- リフト & リプラットフォーム、Modernize
- 一部のユースケースを移行して、その後段階的にModernizeしていくことをおすすめしている
- 段階的に行うことでメリットを得られるため、リスクを抑えながら進められる
- リフト & リホスト
移行方式
- オフロード移行
- 一部のユースケースに必要なデータのみ分析環境へ移動する
- メリット
- 新環境でできるだけ早く稼働できる
- デメリット
- 既存環境も残るため、2面管理するという複雑性がある
- 完全移行
- 上流のパイプラインから全て移行する
- メリット
- 既存環境を廃止して完全にModernizeできる
- デメリット
- オフロード移行に比べて、立ち上がるまでに時間がかかる
移行フレームワーク
前提として以下の用語の理解しておく
ユースケース 販売管理ダッシュボードなど 1 つのデータ活用ケースを実現するのに必要な全てのデータ、データパイプライン、分析ツールなどの要素 ワークロード 依存関係(データ、パイプライン等)を共有しているユースケース ユースケースの集合
以下のような移行フレームワークが考えられる
- 準備と発見
- ワークロードとユースケースについて、どんなものがあるかを調査して移行準備を行う
- 関係者やユーザーにヒアリングをして、ユースケースの目的や課題などを整理する
- 単に整理するだけでなく、BigQueryへの移行やTCO的にどんなメリットがあるかを含めることがポイント
- 評価と計画
- 準備と発見で得られた結果を評価し、移行計画を立てる
- ユースケースの分類および優先順位付けが重要
- 最初の移行に失敗すると計画が大幅にズレて、移行メリットがわかりづらくなる
- 成功たとしても、効果が得られないユースケースを先にやってしまうとメリットがわかりづらい
- 効果の大きいもの、リスクが最小限のものから実施する
- 何を以て成功とするかの指標を明確化することも大事
- 実行
- ユースケースごとに以下のステップを実行して、繰り返していく
- 設定とデータ ガバナンス
- スキーマとデータを移行
- クエリを翻訳
- ビジネスアプリを移行
- 上流パイプラインを移行
- パフォーマンスを最適化
- 検証と妥当性を確認
- ユースケースごとに以下のステップを実行して、繰り返していく
移行を支援するBigQuery Migration Service
BigQuery Migration Serviceとは?
一言で言うと、無料で使えるBigQuery への移行のための包括的なソリューション
- 既存のDWHの利用状況をレポート化して、優先順位付けなどに役立てる移行評価のツール
- SQL変換やデータ転送、データのバリデーションなどが内包されている
- 先程の実行ステップを全てカバーできるわけではないので、どうしても手動部分は出てくるが、SQL変換などの大変なところはカバーできている
BigQuery Migration Serviceの機能
- 移行評価(preview)
- 既存の DWH の利用状況から Looker Studio で評価レポートを自動生成
- 対応 DWH
- Teradata
- Redshift
- 評価レポートの内容例
- ハイライト:既存のDWHの規模感などが表示される
- 推奨事項:パーティションするべき、クラスタリング使うべきなどを出してくれる
- 詳細は資料を参照
- 使い方
- メタデータやクエリ情報を抽出し、Cloud Storageに上げる
- コンソールから数クリックでBigQuery上のテーブルに展開されるので、そこからレポート生成するだけ
- SQLトランスレーター(preview & GA)
- 移行作業の工数削減や手動変換によるリスクを抑えることが可能
- 対応DWHはGAされているものとpreviewのものがあるが、大体はカバーできている
- 変換の仕方
- バッチによる一括変換
- インタラクティブ変換
- オブジェクト名のマッピング
- バッチSQLトランスレーター
- SQLが含まれるソースファイルを一括変換
- バッチ処理などで既に使われているSQLの変換に適している
- オブジェクト名の変更(preview)
- テーブル名やスキーマ名を新たに変更したい場合にマッピングができる
- インタラクティブSQLトランスレーター
- SQLをBigQueryのエディタに貼り付け手動変換していくイメージ
- データ分析者が自前で作成した分析SQLを変換するのに適している
- バッチSQLトランスレーターで変換したルールを指定することも可能
合わせて使える機能
- Data Transfer Service(DTS)
- ソース DWH から BigQuery へデータ転送
- マネージド、ノーコード、サーバレス、無料
- 対応 DWH
- Teradata
- Redshift
- データ検証
- オープンソースのツール。移行後のソースとターゲット データベースのデータの整合性を検証することが可能
- 対応データベースは豊富で、DWHだけでなく通常のデータベースにも使える
- Validation タイプ
- テーブルレベル:行数チェックや列の集計など
- 列レベル:データ型やスキーマのチェック
- 行レベル:ハッシュ値の比較
- カスタムクエリによる検証
総評
- データ ウェアハウスは単に移行するだけではなくビジネス ニーズを満たすようにモダナイズをする必要がある
- ただ、実際に移行するには移行方法について理解する必要があり、移行作業は費用も工数もかかる
- Google Cloud では移行フレームワークだけでなく、移行の実行のステップを支援する BigQuery Migration Service を提供している
終わりに
Google Cloud Day ’23 Tour in TOKYOのDay1にて行なわれたセッション「データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス」のレポートでした。
そもそもどうやって移行するのか?という部分から、DWHの一般的な移行方法について紹介されており、それに対してBigQuery Migration Serviceを利用してできることは何か、どのような観点で優れているのかがしっかり理解できました。
該当セッション(資料も掲載されています)
データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス