Google Cloud Day ’23 Tour in TOKYOのDay1にて行なわれたセッション「データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス」のレポートです。
※画像は本セッションの資料から抜粋しております。

Google Cloud Day ’23 Tourとは

Google Cloud Day ’23 Tour in TOKYO は、2023/5/23〜5/25の3日間に渡って、
Google Cloudの最新ソリューションとお客様事例についての、数多くのセッションが行なわれるイベントです。
オンデマンド配信もあるため、気になったセッションがあれば以下からチェックしてみましょう。
https://cloudonair.withgoogle.com/events/google-cloud-day-23

概要

登壇者

  • Google Cloud 西村 哲徳 様
    • ソリューション & テクノロジーグループ データ アナリティクス スペシャリスト

セッション内容

BigQuery Migration Service を利用することでアセスメント、SQL 変換、データ転送、データ検証などデータウェアハウス移行に伴う様々な作業の工数やリスクを低減して、移行を加速しデータ分析を始めるまでの時間を短縮することができます。
本セッションでは移行フレームワークとともに BigQuery Migration Service がどのように移行の支援ができるかをご紹介します。

レポート内容

なぜデータウェアハウス(DWH)の移行が必要なのか?

  • 導入当初は良かったが、時間の経過と共にビジネス要件への対応が難しくなった
    • 運用面を含むシステム的な課題の積算により、DWHの見直しが必要となってくる
ビジネスの求める分析要件 システム的な課題
分析対象のデータソースの増加 ハードウェアやソフトのEOL
データの鮮度、リアルタイム性 パフォーマンス低下
高度な予測分析(機械学習など) アーキテクチャ複雑化、運用負荷増大
多様なワークロードやデータ コストの増大
多様なツールのサポート セキュリティ
  • ただ移行するだけでなく、モダナイズが必要
    • 単に現状のハードウェアやソフトなどのユースケースを移行するだけでは課題は解決できない
    • システムの進化の恩恵は受けられるがそれだけではビジネスニーズに答えられない
      • 今後のビジネス要件に柔軟に答えられるようなModernizeをやっていくことが重要

モダナイズ先としてのBigQuery

なぜBigQueryが良いのか?

  • 以下の特徴に力を入れている
    • 無制限のデータ
      • 構造化データ以外にも画像や動画、イベントログやIoTのデータなど、どんどん増えていくものに対してちゃんとスケールして効率的に捌いてくれる
      • オブジェクトデータで非構造化データの分析が可能
    • 無制限のワークロード
      • SQL以外の分析エンジンを使っている場合も、効率的にデータを引き出して分析できる
      • BQ MLだけでなく、Sparkのワークロードを動かせるようになった
    • 無制限のアクセス
      • その人の使っているそれぞれのツールでアクセスできる
  • BigQueryは幅広いニーズをカバーできている
    • アーキテクチャを複雑化せずに、先程のビジネス要件を網羅できている
    • ガバナンスも一元管理できるので、システム的な課題も抑えられる
  • 実際に移行する際に、どのような悩みが出てくるか?
    • そもそもどうやって移行するのかわからない
    • 移行作業にかかる工数はどのくらいか?
      • これらを解消するフレームワークを紹介していく

データウェアハウス移行フレームワーク

移行方法

  • 以下の方法が挙げられる
    • リフト & リホスト
      • そのままの移行になってしまうので、おすすめしない
    • リフト & リプラットフォーム、Modernize
      • 一部のユースケースを移行して、その後段階的にModernizeしていくことをおすすめしている
      • 段階的に行うことでメリットを得られるため、リスクを抑えながら進められる

移行方式

  • オフロード移行
    • 一部のユースケースに必要なデータのみ分析環境へ移動する
    • メリット
      • 新環境でできるだけ早く稼働できる
    • デメリット
      • 既存環境も残るため、2面管理するという複雑性がある

  • 完全移行
    • 上流のパイプラインから全て移行する
    • メリット
      • 既存環境を廃止して完全にModernizeできる
    • デメリット
      • オフロード移行に比べて、立ち上がるまでに時間がかかる

移行フレームワーク

前提として以下の用語の理解しておく

ユースケース
    販売管理ダッシュボードなど 1 つのデータ活用ケースを実現するのに必要な全てのデータ、データパイプライン、分析ツールなどの要素

ワークロード
    依存関係(データ、パイプライン等)を共有しているユースケース
    ユースケースの集合

以下のような移行フレームワークが考えられる

  1. 準備と発見
    • ワークロードとユースケースについて、どんなものがあるかを調査して移行準備を行う
    • 関係者やユーザーにヒアリングをして、ユースケースの目的や課題などを整理する
    • 単に整理するだけでなく、BigQueryへの移行やTCO的にどんなメリットがあるかを含めることがポイント
  2. 評価と計画
    • 準備と発見で得られた結果を評価し、移行計画を立てる
    • ユースケースの分類および優先順位付けが重要
      • 最初の移行に失敗すると計画が大幅にズレて、移行メリットがわかりづらくなる
      • 成功たとしても、効果が得られないユースケースを先にやってしまうとメリットがわかりづらい
        • 効果の大きいもの、リスクが最小限のものから実施する
    • 何を以て成功とするかの指標を明確化することも大事
  3. 実行
    • ユースケースごとに以下のステップを実行して、繰り返していく
      1. 設定とデータ ガバナンス
      2. スキーマとデータを移行
      3. クエリを翻訳
      4. ビジネスアプリを移行
      5. 上流パイプラインを移行
      6. パフォーマンスを最適化
      7. 検証と妥当性を確認

移行を支援するBigQuery Migration Service

BigQuery Migration Serviceとは?

一言で言うと、無料で使えるBigQuery への移行のための包括的なソリューション

  • 既存のDWHの利用状況をレポート化して、優先順位付けなどに役立てる移行評価のツール
  • SQL変換やデータ転送、データのバリデーションなどが内包されている
  • 先程の実行ステップを全てカバーできるわけではないので、どうしても手動部分は出てくるが、SQL変換などの大変なところはカバーできている

BigQuery Migration Serviceの機能

  • 移行評価(preview)
    • 既存の DWH の利用状況から Looker Studio で評価レポートを自動生成
    • 対応 DWH
      • Teradata
      • Redshift
    • 評価レポートの内容例
      • ハイライト:既存のDWHの規模感などが表示される
      • 推奨事項:パーティションするべき、クラスタリング使うべきなどを出してくれる
      • 詳細は資料を参照
    • 使い方
      • メタデータやクエリ情報を抽出し、Cloud Storageに上げる
      • コンソールから数クリックでBigQuery上のテーブルに展開されるので、そこからレポート生成するだけ
  • SQLトランスレーター(preview & GA)
    • 移行作業の工数削減や手動変換によるリスクを抑えることが可能
    • 対応DWHはGAされているものとpreviewのものがあるが、大体はカバーできている
    • 変換の仕方
      • バッチによる一括変換
      • インタラクティブ変換
      • オブジェクト名のマッピング
  • バッチSQLトランスレーター
    • SQLが含まれるソースファイルを一括変換
    • バッチ処理などで既に使われているSQLの変換に適している
  • オブジェクト名の変更(preview)
    • テーブル名やスキーマ名を新たに変更したい場合にマッピングができる
  • インタラクティブSQLトランスレーター
    • SQLをBigQueryのエディタに貼り付け手動変換していくイメージ
    • データ分析者が自前で作成した分析SQLを変換するのに適している
    • バッチSQLトランスレーターで変換したルールを指定することも可能

合わせて使える機能

  • Data Transfer Service(DTS)
    • ソース DWH から BigQuery へデータ転送
    • マネージド、ノーコード、サーバレス、無料
    • 対応 DWH
      • Teradata
      • Redshift
  • データ検証
    • オープンソースのツール。移行後のソースとターゲット データベースのデータの整合性を検証することが可能
    • 対応データベースは豊富で、DWHだけでなく通常のデータベースにも使える
    • Validation タイプ
      • テーブルレベル:行数チェックや列の集計など
      • 列レベル:データ型やスキーマのチェック
      • 行レベル:ハッシュ値の比較
      • カスタムクエリによる検証

総評

  • データ ウェアハウスは単に移行するだけではなくビジネス ニーズを満たすようにモダナイズをする必要がある
  • ただ、実際に移行するには移行方法について理解する必要があり、移行作業は費用も工数もかかる
  • Google Cloud では移行フレームワークだけでなく、移行の実行のステップを支援する BigQuery Migration Service を提供している

終わりに

Google Cloud Day ’23 Tour in TOKYOのDay1にて行なわれたセッション「データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス」のレポートでした。
そもそもどうやって移行するのか?という部分から、DWHの一般的な移行方法について紹介されており、それに対してBigQuery Migration Serviceを利用してできることは何か、どのような観点で優れているのかがしっかり理解できました。

該当セッション(資料も掲載されています)
データウェアハウス移行の悩みを解決する BigQuery マイグレーションサービス