はじめに:Datadog AmbassadorとしてDASHへ
皆さん、こんにちは!アイレット株式会社クラウドインテグレーション事業部MSPセクションの蓮沼翔悟です。
この度、Datadog Ambassadorに選出されましたことを、大変光栄に思っています。
Datadog Ambassadorとは、技術的な知見をコミュニティと共有し、より良いアプリケーションやインフラの構築を支援する技術エキスパートであり、コミュニティリーダーです。
私は2015年にIT業界未経験でアイレットに入社して以来、運用オペレーターからインフラ設計、そして現在のチームリーダーに至るまで、様々な経験を積んできました。今回の選出は、Datadogを活用した運用の高度化推進、お客様のDatadog活用内製化支援、そして社内エンジニア育成といった活動が評価された結果だと考えています。
先日、アメリカで開催されたDatadogの年次カンファレンス「DASH」に参加する機会をいただき、そこでDatadogの本国プロダクトチームに直接、私たちの運用における課題と、Datadogのサービスマネジメント機能への期待や具体的なフィードバックを伝えることができました。本日は、その内容も踏まえ、私たちが考える大規模クラウド運用におけるDatadogサービスマネジメント機能の可能性と課題についてお話ししたいと思います。
プロダクトマネージャーに話したこと:アイレットの運用課題とDatadogへの期待
現在、私たちは約10,000台のリソースを運用・保守しており、年間100万件以上のアラートが発生する大規模な環境を管理しています。これらの大規模運用を支えるために、当社では「AMS (Advanced Monitoring System)」という内製ツールを開発・活用し、一次対応の約90%を自動化することで、迅速かつ効率的なインシデント管理を実現してきました。AMSは、動作確認や情報取得、復旧操作、電話やチケットによるエスカレーションといった監視業務を高度に自動化できるツールです。
しかし、このような大規模運用を継続していく中で、私たちはいくつかの課題に直面しています。
- AMSの開発・保守コストの削減:内製ツールであるAMSの運用維持には相応のコストがかかるため、このコストの削減は私たちの重要な目標の一つです。
- SaaSツール間のデータサイロ化解消:Datadog、PagerDuty、Backlogなど、複数のSaaSツールを利用しているため、データが分断され、統合的な情報把握が困難になる「データサイロ化」が大きな課題です。
- より迅速な障害対応と事後分析の実現:データサイロを解消し、よりスムーズな連携を行うことで、インシデント対応時間の短縮と質の高い事後分析をさらに迅速に実現したいと考えています。
これらの課題を解決するため、私たちはDatadogのサービスマネジメント機能に注目し、その活用可能性を評価しました。Datadogは「Observe(観測)」から「Act(行動)」へと進化を遂げており、インシデント管理、オンコール対応、ワークフロー自動化、App Builderなどの新機能を通じて、次世代の運用を支援する強力なツールとなり得ると感じています。
今回の評価では、Datadogのサービスマネジメント機能を社内の検証プロジェクトに導入することで、以下のような効果が期待できることが見えてきました。
- コスト削減:AMSの開発・保守コストを50%以上削減できると見込んでいます。
- 運用効率の向上:観測(o11y)データとインシデントデータを統合することで、データサイロが解消され、より迅速な復旧と詳細な事後検証が可能になると確信しています。
多くのメリットが期待される一方で、現在のところAMSをDatadogで完全に置き換えることは難しいという結論に至りました。その主な理由は以下の2点です。
- 複数顧客組織にまたがる統合的なビューの搭載(インシデント管理機能):Datadogは顧客組織を横断した統一的なビューを現状サポートしておらず、私たちのようなMSP事業者が顧客環境全体を俯瞰するには課題があります。エンタープライズ企業で複数の部署がサブOrgnizationを切って、中央集権的に管理する場合も同様の課題が生まれる可能性があります。
- Datadogユーザー以外へのオンコールエスカレーションへの非対応(オンコール機能):AMSは電話による外部連絡先への通知が可能ですが、Datadogはこの機能を現状サポートしていません。
運用プロセスの標準化が鍵を握る
これらの制約があるものの、「Observe」から「Act」への進化により、一気通貫の対応が可能になったことで日本で需要が高まっている顧客の運用内製化を支援する上で、Datadogは非常に適していると考えています。
今回の検証を通じて特に強く感じたのは、機能以上に重要なのは、しっかりと定義された運用プロセスの存在だということです。DatadogのAutomation WorkflowやApp Builderは非常に柔軟で、当社特有の一部機能を除けば、AMS以上の拡張性と柔軟性を備えています。私たちがDatadogの柔軟なサービスマネジメント機能でアラート対応のコアプロセスをスムーズに置き換えられたのは、単にDatadogというツールが優れていたからではありません。何よりも先に、私たち自身の運用プロセスを標準化していたからこそ可能だったのです。標準化という土台なしに、自動化は実現できません。
DASHで感じた次世代運用の姿
Datadogは現在も新しい機能の開発が進んでおり、今回のDASHカンファレンスでも、「怒涛のアップデート!」が発表されました。詳細はキーノートのレポートをご覧ください。
特に印象に残った新機能の例:
- マルチクラウド・マルチチーム環境における統合管理を可能にする「MCP(Monitoring Control Plane)」
- 障害の根本原因を自律的に調査する「Bits AI SRE Agent」
- 緊急障害対応をスムーズにする「On-CallのHandoff Notifications」
- モニタリングからプルリク作成まで自律的に行う「Bits AI Dev Agent」
- セルフサービスで高品質なインフラ構築を実現する「Internal Developer Portal」
- 長期ログ保存と検索を効率化する「Flex Frozen」「Archive Search」
- データパイプラインの可観測性を高める「Data Observability」
- GPUやLLMアプリの監視・分析を支援する「GPU Monitoring」「LLM Observability」「AI Agent Monitoring」「Experiments」「AI Agent Console」など
自動化による効率化が進んでも、すべての状況をルールベースでカバーすることは困難です。今回のDASHで発表されたDatadogのSRE Agent「Bits AI SRE」は、そうした“自動化の隙間”を補完する存在として非常に印象的でした。
特に、オンコール対応機能「On-Call Voice Interface」と組み合わせることで、通話をしながら自律的なAIに障害調査をさせたり、インシデントレスポンスの支援をさせたりすることができるようなので、突発的な障害に対して人とAIが連携しながら、迅速かつ的確な対応が可能になると感じました。事前に定義しきれない障害の根本原因調査や、複雑なオペレーションにおける判断支援など、人間の介在が必要だった領域をAIがシームレスにサポートする世界観は、まさに次世代の運用の姿そのものなのではないでしょうか。