はじめまして!スポーツ大好き uyama です。
最初の投稿ということで少し分かりづらい内容となっているかもしれませんが、最後まで読んでいただけると嬉しいです!
先日、幕張で開催された AWS Summit Japan 2024 に初めて参加させていただきました。
初参加ということで立ち回りが全くわからず、とりあえず色々なセッションに参加して気付けば2日間があっという間に終わっていました、、
本記事は、その中から「生成 AI が変える、データアナリティクス(AWS-11)」のセッションのまとめ記事になります。
目次
- セッション概要
- ⽣成 AI の概要と AWS ⽣成 AI スタック
- ⽣成 AI ✕ AWS アナリティクスサービスの可能性
- 主な AWS アナリティクスサービススタック
- Amazon DataZone
- イノベーション加速のために必要なガバナンス
- ビジネスメタデータ管理における課題
- AI recommendations for descriptions in Amazon DataZone
- AWS Glue
- ETL 開発における課題
- Amazon Q data integration in AWS Glue
- Amazon Q による ETL ジョブ開発の効率向上
- ⾃然⾔語を使⽤してジョブを作成するための新しい機能
- Amazon Redshift クエリエディター
- ビジネス側での活⽤が進む際に起きる課題
- Amazon Q Generative SQL in Amazon Redshift クエリエディター
- Amazon QuickSight
- BI 利活⽤における課題
- Generative BI capabilities in Amazon QuickSight
- Generative BI 機能
- ⾃然⾔語によるダッシュボード作成
- ⾃然⾔語によるデータとの対話 data Q&A
- ⾃然⾔語によるデータストーリーテリング⽣成
- ⽣成 AI によって変わっていくデータアナリティクス
- まとめ
セッション概要
Level 300: 中級者向け
テーマ:生成 AI
生成 AI は猛烈なスピードで様々なドメイン、ロールに適用されつつあります。AWS re:Invent 2023 では Generative BI という キーワードと共に、Amazon Q in QuickSight が発表され、QuickSight の AIアシスト機能がより一層強化されました。また、Amazon Q generative SQL が発表され、Amazon Redshift クエリエディタ経由で自然言語による SQL 生成が可能となりました。本セッションでは、生成AI × Analytics というテーマで、主要な Analytics サービスにおける生成AI機能を紹介します。また、生成AIがデータアナリティクスにもたらす影響と、それに対応するために必要とされるスキルセットについても一部考察していきます。
今回の AWS Summit での注目トピックの一つとして、「生成 AI」があげられていました。実際に、生成 AI に関連するタイトルのセッションは一番多かったんじゃないかというくらい、目玉のトピックだったように感じます。
このセッションは、そんな生成 AI とアナリティクスが掛け合わさることでどのような価値が生まれていくのか、イメージや考察を交えた上で、生成 AI 時代のアナリティクスに備えるための内容でした。
⽣成 AI の概要と AWS ⽣成 AI スタック
⽣成 AI とは ?
まず生成 AI とは、大量のリソース(データ、パラメータ、計算リソース、時間、コストなど)を投下して出来上がった巨大な機械学習のモデルです。
従来の機械学習モデルと生成 AI の違いを以下に示します。
従来の機械学習 -> 予測や分類といったタスクにフォーカス
生成 AI -> 人間の創造性を模した形で、全く新しいコンテンツを生み出すことにフォーカス
AWS は⽣成 AI アプリケーション開発を強⼒に⽀援
AWS には生成 AI を開発するベストな環境が整っています。
まず、生成 AI のアプリケーション開発には「構造化データ」「非構造化データ」「ベクトルデータベース」など、あらゆるデータストアが必要です。AWS はそれらのデータストアを包括的に保持しています。
次に、データストア同士のデータを連携しなければなりません。連携をする際に、基本的には ETL スクリプトを開発してデータを連携する必要がありますが、 Zero-ETL などの技術でデータストア同士のデータを、開発せずにシームレスに連携できるようになってきています。
最後に、ガバナンスに関してはユーザーと LLM との間の規制機能がきめ細やかに制御をかけられるようになってきています。そのおかげで、責任ある生成 AI を達成するのにも AWS の環境が適しています。
AWS ⽣成 AI スタック
下の段から、AWS Trainium、AWS Inferentia に代表される、高パフォーマンスかつ低コストのインフラストラクチャがあります。
中段には、Amazon Bedrock があります。これはサードパーティの基盤モデルを含め、ありとあらゆる基盤モデルを選択できます。つまり、生成 AI のアプリケーションの目的に応じて、それに特化したモデルを選択することが可能ということです。
一番上には、Amazon が提供する生成 AI のアシスタントである、Amazon Q があります。
Amazon Q
Amazon Q にはさまざまなサービスが存在します。主にビジネスユーザを支援する Amazon Q Business、開発者を支援するAmazon Q Developer を筆頭に、中にはサービスの中に組み込まれる形で提供されているものもあります。
今後、AWS を利用する際に、ありとあらゆるシーンで Amazon Q が業務を支援するようになっていくでしょう。
⽣成 AI ✕ AWS アナリティクスサービスの可能性
主な AWS アナリティクスサービススタック
今回は、主な AWS のアナリティクスサービス群の中から、データエンジニア、データアナリスト、ビジネスユーザーの方向けに「Amazon DataZone」「AWS Glue」「Amazon Redshift クエリエディタ」「Amazon QuickSight」の4つのアナリティクスサービスと生成 AI のコラボレーションについて話していきます。
Amazon DataZone
データマネジメントレイヤーの「Amazon DataZone」と生成 AI のコラボレーションについてです。
イノベーション加速のために必要なガバナンス
上記3点がデータガバナンスを推進していく上で最も基本的な要件になってきます。
これらの最も基本的なデータガバナンスの要件を達成するのに適しているのが「Amazon DataZone」です。
ビジネスメタデータ管理における課題
データエンジニアリングの界隈にはいくつかメタデータの種類があり、最も重要なメタデータがビジネスメタデータだと思っています。
データの利用者にとって、このデータがどういう意味を持つのか、どういう風に使えるのかがわからないとデータが使えません。
ビジネスメタデータを拡充していくことが、組織の中にデータ利活用を広げていく上で非常に重要になります。
しかし、既存のアプローチだと、データの管理者やデータエンジニアの方(データのことがわかっている方)が手動で説明を生成して、帳票ツールで管理していることが未だに多いです。
AI recommendations for descriptions in Amazon DataZone
ビジネスメタデータ管理における課題を解決するために「AI recommendations for descriptions in Amazon DataZone」を活用することができます。
AI recommendations for descriptions は 生成 AI とのコラボレーションで誕生した、 DataZone におけるビジネスメタデータ生成機能です。
これは生成 AI を使って簡単に上記3点を達成することができます。
AWS Glue
続いて、データ統合、加工ツールである「AWS Glue」と生成 AI のコラボレーションについてです。
ETL 開発における課題
昨今の ETL 開発において、データのニーズの高まりによってデータエンジニアリングに注目が集まってきています。
それと同時に、あらゆるデータソースと繋ぎ、あらゆるフォーマットに対して変換統合し、場合によってはリアルタイムの要件を実現するパイプラインも作らなければいけないなど、複雑化してきています。
その中でもデータエンジニアは開発効率を上げていかなければいけない状況にあります。
Amazon Q data integration in AWS Glue
ETL 開発における課題を解決するために「Amazon Q data integration in AWS Glue」が登場しました。
「Amazon Q data integration in AWS Glue」は一言で言うと、「自然言語で ETL パイプラインのスクリプトが自動生成できる」という機能です。
Amazon Q による ETL ジョブ開発の効率向上
AWS Glue においては通常のスクリプトエディター型とノートブック型のエクスペリエンスが用意されています。双方で Amazon Q Developer の支援を受けることが可能です。
⾃然⾔語を使⽤してジョブを作成するための新しい機能
このリリースに合わせて、上記のように機能強化がされています。これらの機能も自然言語でスクリプトとして生成することができるようになっています。
Amazon Redshift クエリエディター
ここからは、データアナリストまたはビジネスユーザー向けの内容になっていきます。まずは、「Amazon Redshift クエリエディター」と生成 AI のコラボレーションです。
「Amazon Redshift クエリエディター」は無料のウェブベースの SQL クライアントです。
基本的なスキーマの管理、SQL の実行だけではなく、ノートブックのインターフェイスを保持しています。そのため、SQL の結果を残したり、その結果に対して考察を加えたり、可視化した上でチームと共有することが可能となっています。
ビジネス側での活⽤が進む際に起きる課題
組織においてデータ利活用のニーズが高まれば高まるほど、データアナリストの負荷が上がっていきます。
そうなるとデータアナリストの方がボトルネックになって、組織としてのデータ利活用が阻害されてしまうことがしばしば起こっています。
この問題の解決には、ビジネスユーザー側で簡単なデータ抽出や、簡単な SQL を書いてレビューの依頼をするなど、分析の一部をビジネスユーザーができるようになることが理想です。
Amazon Q Generative SQL in Amazon Redshift クエリエディター
ビジネスユーザーの理想を実現するために登場したのが「Amazon Q Generative SQL in Amazon Redshift クエリエディター」です。
「Amazon Q Generative SQL in Amazon Redshift クエリエディター」は一言で言うと、「自然言語で SQL が自動生成できる」という機能です。
これは、データのコンテキストを推測して SQL を生成してくれます。これは曖昧なプロンプトを投げるだけで、必要なテーブルを判定して、必要な項目も判定して SQL を抽出してくれます。
また、使えば使うほど生成する SQL の精度が増していきます。
Amazon QuickSight
続いてもデータアナリストやビジネスユーザー向けとなっていて、Amazon が提供する BI ツールである「Amazon QuickSight」と生成 AI のコラボレーションです。
BI 利活⽤における課題
データアナリストのよくある課題として、いろんな BI ツールが世に出回っているために生じる BI ツールの初期学習コスト、BI ツールが高機能になることで開発効率が悪くなる、などがあります。
またビジネスユーザーの課題として、ダッシュボードなどの与えられたデータ以外のところから気付きを得ることができない、ダッシュボードからグラフを切り取って週次や月次の定例に持っていくレポート作成するのに時間がかかる、などがあります。
Generative BI capabilities in Amazon QuickSight
BI 利活⽤における現状を解決するべく登場したのが「Generative BI capabilities in Amazon QuickSight」です。「Generative BI capabilities in Amazon QuickSight」は Amazon QuickSight の生成 BI 機能です。
Generative BI 機能
「Generative BI capabilities in Amazon QuickSight」には、データアナリスト向けとビジネスユーザー向けに合計3つの機能がリリースされています。
⾃然⾔語によるダッシュボード作成
まずはデータアナリスト向けのダッシュボードを作るところです。簡単に言うと、自然言語によりダッシュボードが作れます。
すごく曖昧なプロンプトを入れたとしても、ビジュアルがその場で生成されますが、現時点ではまだ英語でのプロンプト投入が必要なのが注意点です。
そして、BI ツールを使っていく上で結構面倒なのが、計算フィールドだと思います。計算フィールドの仕様が BI ツール毎に違ったりするので、それを覚えるのが大変ということはよくあることだと思います。
しかし、自然言語でやりたいことを記載すると、勝手に計算フィールドが生成されます。
次に見た目の調整です。ダッシュボードを作る時に不要な項目が結構多く、細かな書式の設定をするケースが多いと思います。
通常だとそれらの操作には複数回のクリックをもって、調整しなければなりません。
しかし、自然言語が使えると書式の設定すらもまとめて行えます。
⾃然⾔語によるデータとの対話 data Q&A
続いてビジネスユーザー向けに、自然言語によるデータとの対話機能があります。
これには、トップムーバーや異常値を出してくれたりエグゼクティブサマリー機能が備わっています。
また、ダッシュボードに対して問い合わせをしてくれたり、答える時にはマルチビジュアルで答えを返してくれたりします。つまり、プロンプトで問い合わせしたら、マルチビジュアルの BI で返してくれるということです。
⾃然⾔語によるデータストーリーテリング⽣成
最後にビジネスユーザー向けの機能で、自然言語によるデータストーリーテリング生成機能です。
これはビジネスレポートを簡単に生成してくれるというものになり、かつそのビジネスレポートがストーリーに則った形で自動で生成されます。
⽣成 AI によって変わっていくデータアナリティクス
データアナリティクスにおける認知的飛躍の加速
通常分析は「仮説」「分析」「解釈」「アイデア出し」のサイクルを人で回していました。しかし、これからの時代は AI が「分析」「解釈」「アイデア出し」をやってくれるようになってきました。
人と AI が作り出す双方のアウトプットを踏まえた上で、意思決定の高度化が必要になってくるというのがこれからの大きな変化の一つです。
人と AI の分析結果を使えることで、人の認知機能が拡大されていくという意味で、認知的飛躍の加速が進むとしています。
データアナリストとビジネスユーザーの関係の変化
通常だと、ビジネスユーザーとデータアナリストは分業をしていて、ビジネスユーザーが意思決定、データアナリストは意思決定のためのデータ分析を提供する必要がありました。
ところが、生成 AI が出てきたことによって、ビジネスユーザー側で簡単な分析もできるようになりました。データアナリストとしては、簡単な分析をビジネスサイドに任せれるようになったので本当にやるべき分析に注力したり、場合によってはデータアナリストが意思決定者になっていくことも予想されます。
このように、ビジネスユーザーとデータアナリストの同化がより一層進んでいくのが今後のインパクトの二点目です。
データアナリストに求められるもの
このような状況の中で、データアナリストに求められるものは当然変わってきます。
大切なことは、AI に頼りすぎず、AI を最大限に使いこなすということではないかと思います。
まとめ
生成 AI の登場により、データアナリティクス領域において「開発効率の向上」「分析の見える化の加速」「人間の認知機能の拡大」の3つが起きると予想されます。
データ分析の技術的ハードルが下がることで、データ分析がより身近な存在になっていくことでしょう。
それに伴い、これからのデータアナリストに求められる力と生成 AI は切り離せない関係になっていくと思われます。
本記事では「Amazon DataZone」「AWS Glue」「Amazon Redshiftクエリエディタ」「Amazon QuickSight」の4つのアナリティクスサービスと生成 AI のコラボレーションについて触れてきました。
オンデマンド配信ではそれら4つの生成 AI 機能をデモを用いてわかりやすく解説しているので、興味のある方は合わせてご視聴ください。