Databricks Unity Catalogの使用方法についての記事です

はじめに

今回毎年サンフランシスコで行われる
Databricks Data + AI Summit 2025
に参加しましたので、サービスの紹介を行います

Data + AI Summitについて

Data + AI Summitは、Databricks が主催する、データ・機械学習・生成AIに関する世界最大級のカンファレンスです

日時:2025年6月9日〜12日
場所:米・サンフランシスコ Moscone Center(オンライン参加もあり)
規模:22,000人以上の参加者、700以上のセッションを予定

データエンジニア、データサイエンティスト、分析担当者、経営者らが最新技術と実践を学び、ネットワーキングする場
ハンズオン・ワークショップ、基調講演、実践セッションを通じて、ビジネスへのデータ/AI活用を支援

記事の内容

特に印象に残ったUnity Catalogについてのセッションに関して、スライド付きで機能紹介を行っていきます

3


Unity Catalogメタストアの設定例です。様々なクラウドからの連携例です。
4


大事なこととして、1Databricksアカウントごとに複数のメタストアとの接続が可能です。
ただし、1リージョンに対して1つのメタストアです
5


Unity Catalogの権限の親子関係図です。
メタストアだけ見ると、
アカウントアドミン→カタログオーナー→スキーマオーナーと権限が渡っていることがわかります
6


ではどのようにクラウドストレージからデータをとるのでしょう
7


Databricksにクレデンシャルを設定して、外部のストレージからとる形になります。
8


こちらもDatabricksのクレデンシャル設定例です。
9


以下画像の大枠として Scheme Volume Tablesの3つがあり、それぞれSQLで作られます。
また必要な権限は以下のとおりです。
UIでもSQLでも作れます
10


Unity Catalogのストレージ定義は以下のような親子関係になっています
12


ベストプラクティスは、外部テーブルはカタログレベルで設定することです
13


Databricksのマネージドテーブルと外部テーブルの違いです
マネージドテーブルは基本Delta型ですが、外部テーブルは様々な種類に対応しています
14


Unity Catalogを用いて様々なテーブルを包括的に使いましょう。
Unity Catalogはオープンソースで透明性の高いものです
15


下記の図はDatabricks が提供する自動データリネージ機能の概要を説明しています
・Databricks 上での処理をリアルタイムにトラッキング
・標準化された権限管理との統合
・AI・BI・ETL すべてをまたぐ広範なデータフローの可視化


機微情報のマスクなども簡単に設定できます。
例えば顧客の個人情報など
こうすれば、selectをしても情報を取れなくなります。
またそのマスク設定はいろんなテーブルに使い回すことができます。


この図はDatabricks の Feature Tables(特徴量テーブル)です
Unity Catalog 上で主キーを持つ Delta テーブルは、ML モデルの Feature Store に登録可能で、
Feature Store は特徴量の再利用・一元管理に非常に便利です。


Vector SearchもDeltaテーブルで実現可能です


MLモデルのレジストリーとしても、Unityカタログは使用可能です。
バージョン管理もできれば、簡単にエンドポイントのデプロイも可能です


Slackへの通知をSQLに仕込むfunction機能なども充実しています。
これで、SQL結果の値をSlackに通知など
またその機能の使い回しなど、柔軟な設定が可能です。

SQLクエリで「売上が急減していたら通知」なども実現可能です
NULL値が異常に増加 → データ品質アラート

他には日次バッチが0件処理 → 通知なども


アプリケーションがGenieとSQL結果を組み合わせて、
実際のデータと生成AIを柔軟に組み合わせた実装が可能です。
これはUnity Catalogによって開発が加速する仕組みです

以上となります。