セッション概要
- Data から Valueを生み出すためにどうすれば良いのか
- なぜDataformを使用するのか
- 実際の企業での活用例
SQL自体を実際に書かずとも、SQL文が作成されるのには時間短縮に繋がるのではないかと感じました。
セッション内容
1. なぜデータパイプライン管理ツールが必要なのか
- より早く、より安全に、より再現性高く → Data を Value につなげることが重要
- 68% の企業がValueを見いだせていない
- ETL データの個数が増えるとTransformするとデータの信頼性も下がってくる → BigQueryを使用するなどで回避
- Dataform:DataOps実現可能 → パイプラインの作成
2. Dataform 概要
Dataform の構成要素
- リポジトリ:SQL ワークフローを構成する SQLXファイルとJavaScript ファイルのコレクション、Dataform 構成ファイルとパッケージの格納場所。gitと接続可能。
- 開発ワークスペース:リポジトリ内ファイルの開発やテスト実行を行う。
- リリース構成:リポジトリ内ファイルのコンパイル設定
- ワークフロー構成:SQL ワークフローアクションの実行設定。cron 形式で実行時間を指定。
- SQLXファイル概要、SQLXからクエリの作成可能 → 膨大なSQLを書かなくても良い
3. Dataform 実践編
- イベント実行したい
- Workflowsを使用
- Git Actionを使用
- JavaScriptを使用することも可能
4. まとめ
感想
まとめにもありましたが Dataform 自体は無料らしいとのことで、実際に動かしてみて便利さを体験してみようと思いました。