近年、企業が取り扱うデータの量や種類が大幅に増加する中で、大規模データをスピーディかつスケーラブルに収集・分析するデータ分析基盤へのニーズが高まっています。しかし、「大量のデータをどう活用したらいいのか分からない」「社内のどこに、どんなデータが溜まっているのか把握しきれない」といった課題を抱えているケースも少なくありません。

こうした課題・ニーズに応えるべく、アイレットでは Google BigQuery を活用した大規模データ分析基盤を提供する「Google Cloud Data Lake 構築サービス」を展開しています。

今回は Data Lake 構築のプロフェッショナルチームに、大規模データ分析基盤にできることや、構築する際に押さえておくべきポイントを聞いてみました。

※量・質・速度または頻度が膨大なデータのこと。アイレットではペタバイト規模のデータを扱っている

メンバー紹介

システムごとにデータの定義が異なり、社内で全容を把握するのが難しいケースも

— ここ数年、テクノロジーの進歩や DX 推進に伴い、さまざまな業界で大規模データを取り扱う企業が増えていると思います。データを活用したビジネス成長や価値創出が期待できる一方で、新たに生じている課題やニーズはありますか?


とにかくデータの量や種類が多いので、通常のデータを扱うときには考えられないような問題が生じます。


— どんな問題ですか?


たとえば、単純な加工処理でもなかなか終わらない、データを取り出すのに時間がかかる、そもそもデータを格納する場所がない、といった問題が起きます。通常であれば数回しか行わない処理も、規模が大きいので数百〜数万回実行しなければなりません。そして、データ処理のために一時的に大量のコンピュータリソースが必要になる場合もあります。


— それは確かに大変ですね…。


また、大規模データを取り扱う企業に多いのが、システムごとに異なる部署で管理しているケースや、外部の委託先企業が異なるケースです。各システムでデータ設計の考え方や方法が違いますし、利用しているデータベースのサービスも違ったりするので、それらを統合して分析できる環境を構築するのは簡単ではありません。


そうですね。同じ会社であっても、データの種類ごとにテーブルの定義などがバラバラで、どのデータがどのように管理されているのかを社内でも把握できていないというのは、大きな課題だと思っています。

データの統合・分析・可視化はもちろん、データ管理のルール整備も重要

— そのような課題に対して、アイレットではどんなアプローチを取っているのでしょうか?


アイレットの「Google Cloud Data Lake 構築サービス」では、まず、Google Cloud が提供しているエンタープライズ向けデータウェアハウスの Google BigQuery を活用して、あらゆるアプリケーションのログなどを収集し、まとめて管理・分析が可能な状態をつくります。さらに、データカタログと呼ばれるツールを利用し、テーブル生成日時やカラム変更履歴などを把握することで、膨大なデータセット群を一元管理しています。そして、データ分析結果やビジネス指標の可視化には Looker などのツールを活用しています。


また、取り扱うデータの規模が大きくなると、誰がどういう目的で作ったデータなのかが分からなくなりがちです。それを回避するために、データの命名規則を整備し、何のデータなのかを瞬時に判断できるようにするためのデータ管理のルールづくりにも注力しています。


— 大規模データ分析基盤を構築する上で、気をつけているポイントはありますか?


たとえば、「権限管理」は意識しているポイントです。データ分析基盤を社外も含めた色々な組織が活用するときに、A 社にはこのシステムのデータを見せたい、逆にこのシステムのデータは見せたくないといったケースがあります。大規模データになると、一つひとつ権限管理を設定するのが大変なので、Google Cloud のサービスを利用して権限管理のルールを設定し、データごとにルールを当てはめられるような仕組みを用意しています。

また、「上限値(クオータ)」も意識しているポイントの一つです。クオータは Google Cloud のリソース量の上限値のことで、たとえば API の呼び出しを実施できる量には上限値が設定されているのです。通常のデータ基盤であればそこまで気にする必要はないのですが、大規模データになるとクオータを超えてしまう可能性があります。制限がかかると別の処理に影響が出るなど、クリティカルなインシデントにつながるリスクがあるので、クオータを管理するための技術的な工夫も必要になってきます。


「法改正」に対する意識も重要です。データの中には個人情報などデリケートなものが含まれるケースがあるのですが、法改正によって取り扱いのルールに変更が生じるケースがあります。当然、データの規模が大きければ大きいほど、対応しなければならない範囲も大きくなるので、法改正の動向は常に注視しなければなりません。

お客様に最適なデータ分析基盤を、スピーディかつ低コストに提供

— なるほど、大規模データ分析基盤を構築するサービスは他にもあると思いますが、アイレットならではの強みはありますか?


大規模データ分析基盤の構築ノウハウと専門のチーム体制を揃えているので、極端に言えばデータを丸投げしていただくだけで、こちらでデータを統合し、データ分析ができる状態までご用意することが可能です。もちろん、データの詳細な仕様をいただけるほうが早く適切に対応できますが、お客様の状況に応じて柔軟に合わせられる点が特徴です。

また、データが数百種類に及ぶと1個ずつ分析基盤に入れるだけで手間がかかるのですが、その作業自体をスクリプトで自動生成することで、データ構造を保ったままスピーディかつ欠落させず安定して基盤を構築できる点も強みだと思います。


コスト最適化に対するノウハウがあることもポイントだと思います。プロジェクトに関する現状のコストを可視化し、ストレージやクエリ実行における料金体系のシミュレーションを行なうことで、できる限りコストを抑える使い方をご提案することができます。


データ活用にお悩みのお客様は、お気軽にアイレットまでご相談ください。

Google Cloud Data Lake 構築サービス
お問い合わせはこちらから