DX開発事業部 フルスタックセクションの田村です。
Google Cloud Next ’25 現地参加3日目のイベントレポートをお届けいたします。

セッション情報

セッションタイトル:How to: RAG Observability

概要:

検索拡張世代(RAG)アーキテクチャを使用するAIアプリケーションは、AIモデルに内蔵された知識だけで構築されたものよりもはるかに精度が高くなる可能性がある。しかし、RAGは監視が必要な追加の処理ステップを導入する。その方法を紹介しよう。

Agentic RAG とは何か

Agentic RAGは「エージェントによる意思決定 × マルチツール活用」で構成されています。

  • LLM単体ではなく、「Retrieval Agent」が最適なツールを選択する
  • Vector Search / Structured Query / API / Functions などを駆使して文脈取得する
  • 双方向で複数ツールを呼び出して、LLMが文脈に基づき回答生成する

RAGにおけるObservabilityの活用

ピラー 内容
Logs イベントの履歴(プロンプト、レスポンス、ツール呼び出しなど)
Metrics 成功率、失敗率、トークン数、レイテンシなどの定量情報
Traces リクエスト〜ツール〜レスポンスまでのフロー
Evaluations 精度・文脈性・関連性などの品質評価(RAGならでは)

※Observability(O11y)とは?

Kubernetesユーザーではk8sと略すように、ObservabilityはO11y(オーイレブンワイ)と略されるようです。
“Observability” の O と Y の間の11文字を短縮した名前となっています。


Evaluationの4指標

  1. Correctness:回答が正解(ground truth)に一致してるか
  2. Relevance:回答が質問内容と適切に対応しているか
  3. Groundedness:回答が取得した文脈にきちんと基づいているか
  4. Retrieval Relevance:取得したドキュメントが質問に関連してるか

Tools for RAG Observability

RAGワークフローの可観測性を強化するための主要ツールとして以下が挙げられていました。

  • LangSmith
  • MCP Toolbox for Databases
  • Vertex AI Agent Engine
  • その他にOpenTeleMetry, LlamaIndex, Ragas など

LangSmith

  • 実運用トレースのモニタリング、ダッシュボード化
  • @traceable デコレータで簡単導入が可能
  • LangChain未使用でもトレース可能で、OpenAIクライアントもラップ可能。

UIが用意されていて、運用フェーズにおいてエージェントの実行監視が行いやすいエンタープライズ向けのサービスと思います。ダッシュボードで視覚的に確認できたり、事前定義された評価指標で確認できる点がメリットとなっているようです。


MCP Toolbox for Databases

  • DB接続・認証・クエリをツール化して抽象化
  • YAML定義をすることで、LangChainやLlamaIndexに簡単連携

OpenTelemetry対応で Cloud Trace / Monitoring へすぐに出力することも可能なようです。


Vertex AI Agent Engine

  • LangChainエージェントをVertex AIでデプロイ
  • enable_tracing=True でトレース可視化
  • Cloud Trace上で処理スパンやコンテキスト内容まで確認可能

このサービスはGoogle CloudのVertex AIで提供されていることから、Gemini × RAG × Agent × Observabilityの構成で構築デプロイからトレースまで行えるのが大きなメリットかと思います。

個人的に刺さったポイント

「RAGだけじゃなく、その裏側も観測できないと意味がない」という思想がグッと来ました。特に最近何かと話題のMCPを利用した、MCP Toolboxでツール化&トレーサビリティを両立できるアーキテクチャが今後のRAGエージェント運用にとても役立つと思います。
またVertex AI Agent Engineでエージェント観測までクラウド上で一括管理できるのはGoogle Cloudならではと思います。

最後に

RAGやAgentの導入は「どうやってエージェントを測り、品質を維持するか」までを考慮して開発を進める段階にあると思います。
AIエージェントを観測する方法がいくつか挙げられていたため、実際に試してみたくなるようなセッションでした。