はしがき

先日、DASH 2025 RecapというDatadog社が年次で開催される日本向けのWebセミナーに参加いたしました。
先月末の7/29に日本でWebセミナーが開催されたので、この度機会があり受講しました。
セミナーを受講し、アップデート情報に関する記事として投稿させていただきます。
なお、本稿は2025年7月29日時点での最新情報となります。

全体イメージ

今回のアップデートの全体イメージは以下のようなものになります。

DatadogのAI駆動監視とLLM Observabilityの新展開

最近、監視・運用プラットフォームとして人気のDatadogが、AI技術を使った画期的な機能を続々と発表されています。これまでのように人が頑張って監視していた時代から、AIが自分で問題を見つけて解決してくれる新しい時代へと変わろうとする機能が増えています。

BitsAI:AIエージェントによる自律的な問題調査

DatadogのBitsAIは、これまでの「担当者がアラートを見て対応する」という監視の常識を大きく変える機能です。なんと、AIが自分で問題の原因を調べてくれます。

APM(Application Performance Monitoring)のトレース情報から「もしかしてこれが原因かも?」という仮説を立てて、ChatGPTベースの「Bits AI Dev Agent」が、私たちの代わりにAPM Traceの情報をじっくり分析してくれます。しかも嬉しいことに、英語だけでなく日本語での指示にも対応し始めています。

GitHubやDatadogと連携していれば、コードレベルで「ここが問題ですよ」と教えてくれるだけでなく、「こう直したらいいですよ」という修正案まで提示して、プルリクエストまで自動で作ってくれる機能で、これは開発チームにとって本当に心強い機能です。

LLM Observability:AIエージェント時代の新たな課題への対応

ただ、AIエージェントが勝手に動き回ってくれるのは便利な一方で、新しい悩みも出てきます。「あれ、AIが何をしているのかよく分からない」「どのAIがどんな処理をしたの?」など、AI同士のやり取りがブラックボックスになってしまって、何が起きているのか追いかけるのが難しくなってきております。

そこで登場したのが「LLM Observability」です。この機能があれば、「どのAIエージェントが、いつ、何をしたのか」をしっかりと見える化してくれます。LLM(大規模言語モデル)を使ったアプリケーションの運用管理がぐっとやりやすくなります。将来的には、AIエージェント同士の性能比較なんかもできるようになる予定だそうです。

包括的な監視機能の強化

Datadogは、監視機能についても幅広く機能アップを進めています。

ハードウェア・コスト監視

GPUモニタリング機能では、AIエージェントを動かすのに必要なハードウェアリソースをしっかり監視できるようになりました。また、意外と気になるDatadog自身の利用料金も監視できるので、「今月ちょっと使いすぎちゃった…」なんてことも事前に分かって安心です。

アプリケーション監視の進化

RUM without Limitsでは、大量のセッションの中から「これは重要!」というセッションだけを選んでデータを集めるので、リアルユーザーモニタリング(RUM)がより効率的になります。

クライアントデバイス管理によって、オフィスのデスクトップPCなどにもエージェントを入れて監視できるようになりました。

ストレージ・データ監視

Storage Monitoringでは、S3、GCS、Azure Blob Storageといったお馴染みのクラウドストレージがどのくらい使われているかをチェックできます。

Data Observability機能を使えば、SnowflakeやBigQueryなどのデータウェアハウスで実行されるクエリやジョブの様子も見守ることができます。

APM機能の大幅アップデート

Latency Investigatorは、「なんでアプリが遅いんだろう?」という原因を見つけて、「こうすれば直りますよ」という具体的な直し方まで教えてくれます。APM Recommendationでは、アプリの問題を向こうから積極的に教えてくれるようになりました。

ログ管理の革新的進化

ログ管理の分野でも、運用面を加味すると「これは便利!」と思える新機能がたくさん登場してました。

Archive Searchを使えば、アーカイブしたログもさくっと検索できるようになり、コストと運用面のバランスがとりやすくなったかと存じます。

Frozen Flexという機能は、なんと7年以上もの長期間ログデータを保管できます。

Historical Log Migrationがあれば、SplunkやELKといった既存のシステムからDatadogへのログ移行もスムーズに進められます。

気になる機能としては、Cloud Prem機能です。個人情報が含まれるログをDatadogの画面で見ることができるのに、実際のデータはプライベートな環境に安全に保管されているという、なかなか画期的な仕組みです。今のところEKSだけの対応ですが、今後の拡張されることに期待したいです。

インシデント管理とセキュリティ機能の大幅強化

インシデント対応の効率化

Datadog Incident Responseでは、Datadogのアカウントを持っていない関係者の方でも、インシデントの概要をサッと確認できるようになりました。Workbenchは、インシデントの状況を見ながら調査作業ができる使いやすいUIを提供してくれます。

Voice Interfaceによって、オンコール対応がパワーアップし、日本語を含む色々な言語に対応してくれるようになりました。Private Action Runnerがあれば、オンプレミス環境でもアクションを実行できます。

Action Interfaceを使えば、Datadogに直接コマンドを送って、タスクを実行してもらうこともできるんです。

セキュリティ機能の包括的強化

セキュリティ関連では、心強い機能がいくつも追加されています。

Datadog SCA(Software Composition Analysis)は、コードの脆弱性を常にチェックし続けて、「これはちょっと危険度が高いですね」といった具合にスコア化してくれます。IAST(Interactive Application Security Testing)では、アプリケーションがデータをやり取りする際の脆弱性を見つけてくれて、SCAと組み合わせることで、より包括的なセキュリティ対策ができるようになります。

IaC Scanningを使えば、TerraformなどのIaC(Infrastructure as Code)で「あ、このセキュリティ設定間違ってる」といったミスを事前に教えてくれます。

Cloud Security機能(まだ体験版ですが)では、機密データに誰がアクセスしているかなどを詳しく見ることができます。Bits Security Analyst(こちらも体験版)では、AIが過去の出来事から問題を自動で分析してくれる、なかなか高度な機能も提供されています。

開発者支援機能の充実

開発プロセスを支援する機能も、ぐっと充実してきました。

Internal Developer Portal(IDP)では、サービスのマッピングをリアルタイムで行ってくれるので、開発者がインフラを構築する際にとても助かります。

Code Coverage(体験版)は、品質基準を満たしていないコードのプルリクエストを「ちょっと待って、これはまだダメですよ」と自動で止めてくれる機能です。CD Visibility & Gates(体験版)では、デプロイするときにDatadogで重要な指標をチェックできて、GitHub連携もバッチリです。

その他の注目機能

その他にも気になる新機能として、AzureログのDatadogへの転送、Datadog AgentのHA(高可用性)構成による監視、AWS LambdaのRemote Instrumentationなどがあります。

まとめ

今回のセミナーを通じて、Datadogは単なる監視ツールという枠をはるかに超えて、監視・運用からセキュリティ、開発ライフサイクル全体をカバーする統合プラットフォームへと大きく進んでいるような実感を得ました。AI技術を使った自動的な問題解決から、開発者の作業効率アップまで、現代のIT運用に必要な機能を幅広くカバーされていくので、アップデート情報をいかに運用面の改善に繋げられるかが課題ではあります。

参考文献

関連リンク・参考資料
Datadog公式サイト・機能ページ

BitsAI:
LLM Observability: 
APM (Application Performance Monitoring): 
RUM (Real User Monitoring): 
Log Management: 
Infrastructure Monitoring: 
Security Monitoring: 
Incident Management: 

セキュリティ・脆弱性管理

SCA (Software Composition Analysis) 概要: 
IAST (Interactive Application Security Testing) 概要: