DX開発事業部の西田です。
re:Inventはキーノートで新サービスの発表があるとそれに関連するセッションが途中で追加されることがあります。
そんなNEW LAUNCHのセッションに運良く順番待ちで入れたので、レポートを書きたいと思います。
ただ、セッションが始まるまでセッションカタログが更新されず、なんのNEW LAUNCHか不明のまま入ることになり、しかもあまり詳しくない分野だったため、本記事はセッションの新機能スライドの内容解説とさせていただきます(あしからず)。
セッション概要(ツールにより翻訳)
データウェアハウス、データレイク、それともその両方ですか? 統合されたオープンで安全なデータレイクハウスである Amazon SageMaker Lakehouse が分析と AI を簡素化する方法をご覧ください。このセッションでは、SageMaker Lakehouse が既存のアーキテクチャを変更することなく、Amazon S3 データレイク、Amazon Redshift データウェアハウス、サードパーティソース全体のデータへの統合アクセスを提供する方法を紹介します。データサイロを解体し、Apache Iceberg 互換性でデータ資産を開放し、好みのクエリエンジンとツールを柔軟に使用して洞察を得るまでの時間を短縮する方法を学びます。妥協することなくデータを民主化するのに役立つ、一貫性のあるきめ細かいアクセス制御などの堅牢なセキュリティ機能を発見してください。
スピーカー
Maheshdatta Mishra
Principal Product Manager, Amazon Web Services
Neeraja Rentachintala
Director of product management, Amazon
セッション内容
Amazon SageMaker Lakehouse
- S3データレイクとデータウェアハウス(Redshift)を統合したLakehouseに、Apache Iceberg APIによるAWSや3rdパーティアプリケーションからアクセスでき、Glue Data CatalogやAWS Lake Formationによるきめ細かなアクセス管理を実現。
- データのアーキテクチャを変えることなく利用できる。
Zero-ETL integrations
- パイプライン管理無しでトランザクションへのリアルタイム分析を実現。
- AWSマネージドデータベースとエンタープライズアプリケーション(Salesforce、SAP、ServiceNow、Zendesk、etc…)をサポート。
- ストレージ形式を指定してデータをロード。
Amazon S3 Tables
- Apache Icebergデータレイク向けの新しいS3ストレージクラス
- S3テーブルを読み書きするためのAmazon S3 API
- Icebergテーブルのメンテナンス管理
- Lakehouseとのシンプルな統合(プレビュー)
- 標準的なS3バケットと比較し10倍のリクエストパフォーマンス
- 圧縮:小さなオブジェクトを大きなオブジェクトに統合してクエリのパフォーマンスを向上させる
- スナップショットの保持:使われていないスナップショットを削除
Redshift Managed Storage (RMS)
- 既存のRedshiftデータウェアハウスからLakehouseにデータを公開
- Lakehouseの中でRMSの新しいデータセットを作成できる
- 頻繁に実行されるワークロードに対し、MLを活用した最適化
Unified Technical Catalog
- ストレージシステム内のデータを整理するための動的なカタログ改装
- 各カタログはストレージタイプにマッピング
- 管理されたカタログ
- RMS
- S3
- フェデレーションカタログ
- Amazon Redshift
- Amazon S3 テーブルバケット
- MySQL、BigQueryなどの外部ソース
Multi-catalog hierarchy
- RedshiftとLakehouseのカタログ階層の対応
Apache Iceberg compatibility
- データにアクセスするためのApache Iceberg RESTカタログAPI
- データレイクを超えた互換性をもつApache Iceberg
- AWSと3rdパーティエンジンのサポート
Apache Iceberg REST catalog APIs
- Apache Iceberg OSSコミニティによって管理されたOpen API仕様。
- カタログに依存しない実装。
- Apache Iceberg テーブルメタデータの正規表現。
- サーバサイドカタログへのRESTベースのリクエスト。
Register your Redshift data warehouse
- RedshiftコンソールからRedshiftクラスターまたはサーバーレス名前空間をLakehouseに登録。
Mount your Redshift data in a catalog
- Redshiftデータをマウントするためのカタログを承認し作成。
- 権限を定義。
Query Redshift data using Iceberg APIs
- Redshift、Athena、EMR、Glue、またはOSSからデータをクエリ。
Create data on Redshift Managed Storage
- マネージドカタログを作成。
- ストレージプロパティをRedshiftに設定。
- カタログのユーザーに権限を付与。
- Redshift、EMR、Athena、またはOSSエンジンから新しいデータセットを作成。
実はLakehouseという概念が初見だったので本日リリースされたばかりのAmazon Nova Proに聞いてみました(関連記事はこちら)!
Lakehouseは、データレイクとデータウェアハウスの長所を組み合わせたアーキテクチャアプローチです。この概念は、データエンジニアリングとデータ分析の両方の要求に応え、柔軟性とパフォーマンス>の両方を提供することを目的としています。Lakehouseの主な特徴には、以下のようなものがあります。
- 統合されたストレージ: データレイクのように、生のデータを格納しますが、データウェアハウスのような構造化されたデータの処理もサポートします。
- 高速なクエリ: データウェアハウスのように、高速なクエリ処理を提供します。
- スケーラビリティ: クラウドネイティブな設計により、需要に応じて簡単にスケールできます。
- データガバナンス: データの品質と整合性を保証するためのガバナンス機能を備えています。
ブログは薄くなってしまいましたが…。
なかなか予定通りに回るのが難しいre:Inventでは、手近な会場にWalk upで知らない、普段触らないサービスのセッションに飛び込んで見るのも見聞が広がることでしょう。
是非たまには列に並んでみましょう。意外と予約なしでも入れることが多いです!