「データ分析を始めてみたい」と思ったとき、最初に直面するのが「分析するためのデータが手元にない」あるいは「データの収集や整理に時間がかかりすぎる」という課題ではないでしょうか。
Google Cloudが提供する一般公開データセット(Google Cloud Public Datasets)は、こうした「準備の負担」を補助してくれるリソースの一つです。本記事では、この仕組みを使って分析の体験を深め、さらには自社のデータと組み合わせて新しい発見を得るためのヒントをまとめました。
1. 導入:データ分析の第一歩を「収集」で止めないために
通常、データ分析を行うには「データの収集」「クリーニング(不要な情報の削除)」「データベースへのロード」といった多くの工程が必要です。しかし、一般公開データセットを使えば、これらの工程を一部スキップして、即座にクエリ(SQL)を書くフェーズから始めることができます。
まずは、Googleが提供している「参照可能なデータ」に触れて、BigQueryの操作感を確認することから始めることが可能です。
2. 実践:3層構造で読み解く「注文データ」の構造
一般公開データセットは、自分のプロジェクトにデータを読み込む必要がありません。SQLの中で「データの場所」を正しく指定するだけで、即座に集計が可能です。
実行例:架空のECサイト「theLook」の売れ筋を確認する
以下のSQLをBigQueryコンソールで実行することで、100万行を超える注文データの中から、売れ筋の商品カテゴリを集計できます。
SELECT category, COUNT(*) AS order_count FROM `bigquery-public-data.thelook_ecommerce.products` GROUP BY category ORDER BY order_count DESC LIMIT 10
参照のルール(3層構造):
* bigquery-public-data(プロジェクト名)
* thelook_ecommerce(データセット名)
* products(テーブル名)
このように、一番左に bigquery-public-data と記述するだけで、大規模なデータ処理基盤の動作を直接確認することができます。
3. 探索:国内分析のヒントが見つかる5つのデータセット
グローバルなデータセットの中から、日本国内のビジネスや日常の分析でも参考にしやすいものを5つ整理しました。
| データセット名 | 日本のデータを扱うヒント | 更新の目安 | 分析のテーマ例 |
|---|---|---|---|
google_trends |
country_name = 'Japan' で絞り込み |
毎日(※1) | 社会の関心事と自社KPIの連動。 |
ghcn_d (気象) |
観測所ID JA(日本)から始まるものを抽出 |
毎日(※2) | 天候による来客数や売上の変動要因。 |
geo_openstreetmap |
緯度・経度の範囲を指定してフィルタリング | 不定期 | 近隣施設の密度と店舗実績の相関。 |
world_bank_wdi |
country_code = 'JPN'(日本)を指定 |
年次 | 各国の経済指標と日本の現状比較。 |
thelook_ecommerce |
(模擬データ)実務に近いデータ構造 | 静的 | ECサイトの分析ロジックの雛形として。 |
(※1)直近30日間のトレンドが対象となります。長期的な履歴を追う場合は、定期的に自分のプロジェクトへ保存しておく必要があります。
(※2)観測所からの報告にタイムラグがあるため、数日前のデータが最新となる場合があります。リアルタイムの速報値ではない点に留意が必要です。
現在進行形で更新されているデータを利用できる点が、利便性の一つと言えます。
4. 発展:自社のデータと「外部情報」を重ねて見えてくるもの
一般公開データセットの活用に加え、自社データとの組み合わせ(結合)を行うことで、数値の背景をより具体的に把握できるようになります。社内の数値(内部要因)に、世の中の動き(外部要因)という背景を添えることで、要因の特定を補うことが可能になります。
具体的な活用のシナリオ
- 売上の変化 + 国内の気温変動:
「売上が変動した理由が、施策の影響なのか、あるいは当日の天候によるものなのか」を客観的に検討する材料となります。 - サイトの流入ログ + 国内の検索トレンド:
「サイトへの訪問が増えた理由が、自社の広告効果なのか、それとも特定のワードが世間で注目された影響なのか」を切り分ける一助となります。
このように、性質の異なるデータを「結合(JOIN)」させることで、社内の数値に外部の要因を重ね、分析の精度を高めることが期待できます。
5. 留意点:安価でスムーズに運用を続けるための配慮
最後に、継続して活用していくために把握しておきたい、いくつかの考慮事項をまとめました。
コスト:スキャン量に応じた指定
ストレージの料金はGoogleが負担していますが、クエリを実行する際のスキャン量に応じて課金が発生します。
* SELECT *(すべての列)を避け、必要な列だけを指定する。
* 日付などのパーティション列(WHERE 句での絞り込み)を活用する。
これらに配慮することで、コストを抑えつつ分析を進めることができます。
リージョン:配置場所のルール
一般公開データセットの多くは US や EU に配置されています。東京リージョンなどにある自社データと直接結合することはできません。
異なるリージョンのデータを組み合わせる場合は、一度自社のプロジェクト(同じリージョン)へデータをコピーしてから結合を行う手順が必要になります。
権限:読み取り専用の仕組みと保存の手順
提供データは「読み取り専用」のため、直接書き換えることはできません。データを加工したい場合は、CREATE TABLE AS SELECT... を使い、自分のプロジェクトに新しいテーブルとして保存して利用する形になります。
6. おわりに:調べた内容の振り返り
今回は、BigQuery一般公開データセットを活用するための基本的な情報を整理しました。
- 参照のルール:
bigquery-public-dataを指定するだけで、すぐにクエリを試せる。 - データの選定: 日本国内の分析にも役立つソース(Googleトレンドや気象データなど)が用意されている。
- 運用の注意点: リージョンの制約など、実務でスムーズに使うためのいくつかの決まりごとがある。
「データの準備」という高いハードルを下げてくれるこのリソースは、分析の第一歩を後押ししてくれる便利な仕組みだと感じました。本記事の内容が、皆さんのデータ活用のヒントになれば幸いです。