セッションタイトル

Presented by AWS: Bringing Clarity to GenAI Operations: Tackling Scale and Compliance Challenges with Datadog and AWS

はじめに

生成AI(Generative AI: GenAI)は、ビジネスに大きな変革をもたらす可能性を秘めていますが、その導入と運用には、スケーリング、コンプライアンス、そしてセキュリティといった多くの課題が伴います。本記事では、AWSとDatadogがどのように連携し、これらの複雑なGenAIアプリケーションの運用課題を解決し、信頼性の高いシステムを構築しているかを探ります。

GenAIアプリケーションの複雑なデプロイメントと共通の落とし穴

多くの企業がGenAIアプリケーションを導入する際、単一リージョンだけでなく、マルチリージョン、マルチアカウント、さらにはマルチクラウドといった多様なデプロイメントモデルを検討します。デプロイメントの形態は、事業部門がそれぞれ独立してアプリケーションをデプロイする「分散型」、IT部門が集中してAIモデルを管理・提供する「集中型」、またはそのハイブリッドである「フェデレーション型」など様々です。
しかし、これらの先進的なアーキテクチャには共通の落とし穴があります。それは「オブザーバビリティ(可観測性)の欠如」と「コストのチャージバック」の難しさです。複数のアカウントやリージョンにアプリケーションが分散している場合、全体像を把握し、ユーザーごとのコストを正確に割り当てることは非常に困難になります。

Datadogが提供する解決策

DatadogはAWSとのネイティブ統合により、AWS Lambda、Amazon OpenSearch、Amazon Bedrockなどのサービスから自動的にログやメトリクスを収集し、アカウント、リージョン、さらにはクラウドを横断した統一的なダッシュボードを提供します。これにより、複雑なGenAI環境全体の可視化を実現し、パフォーマンスのボトルネックや異常を迅速に特定できます。

また、チャージバックの課題に対しては、LLMopsアノテーションを活用し、トレーシングデータにユーザーやコストセンターの情報を付加することで、消費量に応じた正確なコスト割り当てを可能にします。

LLM推論のスケーリングとパフォーマンスの最適化

Amazon BedrockでLLMを利用する場合、「オンデマンドモデル」と「プロビジョニング済みスループット」の2つの消費タイプがあります。オンデマンドモデルは手軽ですが、特定のクォータ制限があり、高いリクエスト量ではサービスレベルを保証できない可能性があります。

このスロットリングの課題を解決するため、以下の戦略が紹介されました。

  1. プロンプティング(インテリジェントルーティング): これは、プロンプトの複雑さ、同時実行性、そして利用可能な各モデルのパフォーマンスを分析し、最もコスト効率の良いモデルにリクエストをインテリジェントにルーティングする仕組みです。これにより、需要の高い高コストなモデルへの負荷を軽減できます。
  2. フィーチャーフラグによる自動フォールバック: DatadogがAPIコールがスロットリングされたことを検知すると、Webフックを通じてLaunchDarklyのようなフィーチャーフラグツールに自動的に通知します。これにより、アプリケーションは別のモデルに切り替わり、人間の介入なしに自動的にレジリエンス(回復性)を確保できます。
  3. データ駆動型意思決定: オンデマンドからプロビジョニング済みスループットへの移行を検討する際には、推測や見積もりではなく、アプリケーション全体、全リージョン、全クラウドにわたる実際の入力・出力トークン量を把握することが重要です。Datadogは、この実データに基づいて最適なスループットを判断するのに役立ちます。

モデルの品質評価とトピックベースのオブザーバビリティ

GenAIアプリケーションの成功には、モデルの応答品質を常に監視し、改善していくことが不可欠です。

  • 応答品質の評価: Datadogに統合されたオープンソースのデモを活用することで、フォームやデータセットに基づいてモデルのパフォーマンスを評価できます。また、ユーザーが応答に対して行う評価(良い/悪いなど)をトレースにアノテーションとして付与し、品質の可視化に役立てることも可能です。
  • トピックごとの評価: チャットボットのようなアプリケーションでは、ユーザーが様々なトピックについて質問します。Datadogの「トピック評価」機能を使うと、各トピック(例:パーソナルファイナンス、仮想通貨)に対するアプリケーションのレイテンシーやパフォーマンスを可視化し、問題のあるトピックを特定してトラブルシューティングに役立てることができます。

生成AIアプリケーションのセキュリティ強化

GenAIは急速に進化しており、新たなモデルや技術が次々と登場するため、セキュリティチームがそれらを追跡するのは非常に困難です。不適切なコンテンツの伝播など、責任あるAI(Responsible AI)の観点からも、セキュリティ対策は最優先事項です。

OWASP Top 10 for LLM Applications とは、LLMアプリケーションにおける最大の脅威を特定するため、研究者グループによってOWASP Top 10 for LLM Applicationsが策定されています。これには、ユーザーとアプリケーション間、アプリケーションとモデル間、アプリケーションとベクトルデータベース間といった各フローで発生しうる脅威(プロンプトインジェクション、誤情報、制限のない出力など)が含まれます。

典型的な GenAI システムにおいてマッピングすると以下のようになります。

セキュリティ対策の具体例

対策としては以下のようなものが考えられます。

  1. ログのデフォルトでの収集: Amazon Bedrockで発生するログをDatadogにデフォルトで送ることで、クロスアカウント、クロスリージョン、クロスクラウドでの統一的なログ監視が可能になります。
  2. 自動脅威分類: Datadogのソリューションは、ログのスパンを自動的に分類し、問題のあるパターン(例:プロンプトインジェクションの試行)をフォレンジックや手動検索なしに自動でフラグ付けします。これにより、セキュリティ担当者は可能性のある脅威に迅速に目を向け、優先順位を付けて対応できます。
  3. 統合ダッシュボードとモニタリング: Datadogのダッシュボードを通じて、アプリケーションレベルでのセキュリティ状況を監視し、プロンプトインジェクションの多発などの特定の条件でアラートをトリガーし、自動的な対策(例:前述のモデル切り替え)を実行できます。

まとめ

成功するGenAIアプリケーション構築のために今日のセッションで強調された主要なポイントは以下の通りです。

  • 適切なオプションの選択: 組織のAI戦略、専門知識、ビジネス要件に基づいて、GenAIアプリケーションの構築とデプロイに最適なアプローチを選択することが成功の鍵です。
  • セキュリティファースト戦略: 常にセキュリティを最優先する戦略を採用すること。
  • 責任あるAIの事前考慮: 責任あるAIについては、後から修正に戻るのではなく、事前に十分に検討しておく必要があります。
  • データ駆動型アプローチ: 推測や見積もりではなく、実際のデータに基づいて意思決定を行うこと。

生成AIの領域は常に進化していますが、これらの原則を適用することで、最も成功するGenAIアプリケーションを構築し、運用できるでしょう。