「データ分析を始めてみたい」と思ったとき、最初に直面するのが「分析するためのデータが手元にない」あるいは「データの収集や整理に時間がかかりすぎる」という課題ではないでしょうか。

Google Cloudが提供する一般公開データセット(Google Cloud Public Datasets)は、こうした「準備の負担」を補助してくれるリソースの一つです。本記事では、この仕組みを使って分析の体験を深め、さらには自社のデータと組み合わせて新しい発見を得るためのヒントをまとめました。

1. 導入:データ分析の第一歩を「収集」で止めないために

通常、データ分析を行うには「データの収集」「クリーニング(不要な情報の削除)」「データベースへのロード」といった多くの工程が必要です。しかし、一般公開データセットを使えば、これらの工程を一部スキップして、即座にクエリ(SQL)を書くフェーズから始めることができます。

まずは、Googleが提供している「参照可能なデータ」に触れて、BigQueryの操作感を確認することから始めることが可能です。

2. 実践:3層構造で読み解く「注文データ」の構造

一般公開データセットは、自分のプロジェクトにデータを読み込む必要がありません。SQLの中で「データの場所」を正しく指定するだけで、即座に集計が可能です。

実行例:架空のECサイト「theLook」の売れ筋を確認する

以下のSQLをBigQueryコンソールで実行することで、100万行を超える注文データの中から、売れ筋の商品カテゴリを集計できます。

SELECT
  category,
  COUNT(*) AS order_count
FROM
  `bigquery-public-data.thelook_ecommerce.products`
GROUP BY
  category
ORDER BY
  order_count DESC
LIMIT 10

参照のルール(3層構造):
* bigquery-public-data(プロジェクト名)
* thelook_ecommerce(データセット名)
* products(テーブル名)

このように、一番左に bigquery-public-data と記述するだけで、大規模なデータ処理基盤の動作を直接確認することができます。

3. 探索:国内分析のヒントが見つかる5つのデータセット

グローバルなデータセットの中から、日本国内のビジネスや日常の分析でも参考にしやすいものを5つ整理しました。

データセット名 日本のデータを扱うヒント 更新の目安 分析のテーマ例
google_trends country_name = 'Japan' で絞り込み 毎日(※1) 社会の関心事と自社KPIの連動。
ghcn_d (気象) 観測所ID JA(日本)から始まるものを抽出 毎日(※2) 天候による来客数や売上の変動要因。
geo_openstreetmap 緯度・経度の範囲を指定してフィルタリング 不定期 近隣施設の密度と店舗実績の相関。
world_bank_wdi country_code = 'JPN'(日本)を指定 年次 各国の経済指標と日本の現状比較。
thelook_ecommerce (模擬データ)実務に近いデータ構造 静的 ECサイトの分析ロジックの雛形として。

(※1)直近30日間のトレンドが対象となります。長期的な履歴を追う場合は、定期的に自分のプロジェクトへ保存しておく必要があります。
(※2)観測所からの報告にタイムラグがあるため、数日前のデータが最新となる場合があります。リアルタイムの速報値ではない点に留意が必要です。

現在進行形で更新されているデータを利用できる点が、利便性の一つと言えます。

4. 発展:自社のデータと「外部情報」を重ねて見えてくるもの

一般公開データセットの活用に加え、自社データとの組み合わせ(結合)を行うことで、数値の背景をより具体的に把握できるようになります。社内の数値(内部要因)に、世の中の動き(外部要因)という背景を添えることで、要因の特定を補うことが可能になります。

具体的な活用のシナリオ

  • 売上の変化 + 国内の気温変動:
    「売上が変動した理由が、施策の影響なのか、あるいは当日の天候によるものなのか」を客観的に検討する材料となります。
  • サイトの流入ログ + 国内の検索トレンド:
    「サイトへの訪問が増えた理由が、自社の広告効果なのか、それとも特定のワードが世間で注目された影響なのか」を切り分ける一助となります。

このように、性質の異なるデータを「結合(JOIN)」させることで、社内の数値に外部の要因を重ね、分析の精度を高めることが期待できます。

5. 留意点:安価でスムーズに運用を続けるための配慮

最後に、継続して活用していくために把握しておきたい、いくつかの考慮事項をまとめました。

コスト:スキャン量に応じた指定

ストレージの料金はGoogleが負担していますが、クエリを実行する際のスキャン量に応じて課金が発生します。
* SELECT *(すべての列)を避け、必要な列だけを指定する。
* 日付などのパーティション列(WHERE 句での絞り込み)を活用する。
これらに配慮することで、コストを抑えつつ分析を進めることができます。

リージョン:配置場所のルール

一般公開データセットの多くは USEU に配置されています。東京リージョンなどにある自社データと直接結合することはできません。
異なるリージョンのデータを組み合わせる場合は、一度自社のプロジェクト(同じリージョン)へデータをコピーしてから結合を行う手順が必要になります。

権限:読み取り専用の仕組みと保存の手順

提供データは「読み取り専用」のため、直接書き換えることはできません。データを加工したい場合は、CREATE TABLE AS SELECT... を使い、自分のプロジェクトに新しいテーブルとして保存して利用する形になります。

6. おわりに:調べた内容の振り返り

今回は、BigQuery一般公開データセットを活用するための基本的な情報を整理しました。

  1. 参照のルール: bigquery-public-data を指定するだけで、すぐにクエリを試せる。
  2. データの選定: 日本国内の分析にも役立つソース(Googleトレンドや気象データなど)が用意されている。
  3. 運用の注意点: リージョンの制約など、実務でスムーズに使うためのいくつかの決まりごとがある。

「データの準備」という高いハードルを下げてくれるこのリソースは、分析の第一歩を後押ししてくれる便利な仕組みだと感じました。本記事の内容が、皆さんのデータ活用のヒントになれば幸いです。