セッションタイトル

Logs at Scale: Strategies for Retention, Performance, and Savings

はじめに

このセッションでは、日々増大するログデータに対し、そしてそれをいかに賢く管理し、コストを抑えながらパフォーマンスと可視性を維持するかについての内容でした。
別の投稿(https://iret.media/157206)とよく似たテーマ。それだけ重要度が高いということです。別記事が、Observability Pipelines を中心に、何をするべきか(What to do)にフォーカスしていることに対し、本記事は、どうするべきか(How to do)に焦点を当てているように思いました。

「ログが多すぎる」という問題、本当にない?

「ログが多すぎるということはない」なんて言われることもありますが、現実はどうでしょうか?
適切なロギング戦略は、コスト面で持続可能であるだけでなく、ログへのアクセスを民主化し、チーム間の効率的なコラボレーションを促進するものです。しかし、ログの量が爆発的に増え続けると、ストレージコストやデータ解析にかかる費用が莫大なものになりかねません。
現在、皆さんの組織では1日にどれくらいのログを生成していますか?数年前までは「1日あたり数百万」という単位で話されることが多かったログデータは、今や「テラバイト」や「ペタバイト」の規模で生成されています。この指数関数的なログの増加は、多くの組織にとって大きな課題となっています。

大規模ログデータがもたらす主な課題

  • ログ取り込みコストの増加と可視性とのトレードオフ: マイクロサービスの爆発的な増加によりログ量が増大していますが、必ずしも可視性が向上しているわけではありません。
  • 非標準的なスキーマとパイプラインの欠如: インデックス化やアーカイブの優先順位付けがされていないため、すべてがリアルタイムインデックス/クエリ用のホットストレージに過剰にインデックス化されることがあります。
  • 厳格な保持ポリシー: 多くのレガシーなロギングシステムには、階層型ストレージや柔軟な保持機能がありません。セキュリティチームやコンプライアンスチームは、より長期間のログ保持を必要とすることがよくあります。
  • 外部アーカイブの管理: ログを外部のコールドストレージに保存する場合、セキュリティチームやコンプライアンスチーム、ビジネスチームからの承認が必要となり、アクセスポリシーやデータライフサイクル、コンプライアンスの維持に手間がかかります。

事例紹介:大手金融機関Acme社の挑戦

Acme社は、数千社の顧客を抱える巨大な金融企業です。彼らは1日に30テラバイト以上のログデータを生成し、数千人の開発者と多数のマイクロサービスを擁していました。彼らの課題は、複数のロギングソリューション(クラウドとオンプレミスで5種類以上)を併用していたため、単一のインシデント調査やログの監査が非常に困難であったことです。ビジネスの成長に伴い、ログの収集、処理、ルーティングのためのよりスケーラブルでアクセスしやすいソリューションが必要でした。
Acme社は、以下のステップで課題を解決し、平均解決時間(MTTR)を49%削減するなど、大きな成果を上げました。

ログ管理最適化のための4つの主要戦略

  1. すべてのログソースとチームのニーズを評価する: まず、組織内のあらゆるログソース(アカウントログ、アプリケーションログ、アクセスログ、ネットワークログなど)を洗い出し、それぞれのログがどのチームによってどのように利用されているかを理解することが重要です。例えば、Acme社にとってアカウントログとアプリケーションログは必須でした。
  2. ログを優先順位付けし、チームのニーズと合わせる: ログの重要度をKPIや関連するペルソナに基づいて評価します。ログは技術的な側面だけでなく、コンプライアンス、脅威検出、KPI、SLA、全体的な運用健全性など、戦略的な目的もサポートする必要があります。
    • 機密性: 個人識別情報(PII)などの機密情報の漏洩を防ぐための匿名化。
    • 整合性: データ精度と完全な監査証跡の確保、脅威の認識。
    • 可用性: 重要なサービスカバレッジと運用健全性。ビジネスにとって重要なKPIやメトリクスをログデータで追跡し、サービスレベルが満たされていることを確認します。
  3. 優先度に応じてログをホット、ウォーム、コールドストレージに階層化して保存する: すべてのログを同じように扱うのは効率的ではありません。一部のログは長期間保持する必要がある一方で、数日間だけ保持すればよいログもあります。
    • ホットストレージ(Hot Storage): 「クローゼットに服を保管する」ようなもので、最も頻繁にアクセスされるログ(アプリケーションログなど)に適しています。アクセスが非常に速い反面、コストが高い傾向にあります。インシデント発生時に最も迅速なツール(高速クエリ、アラート、インサイト)を提供する必要があるログがここに属します。
    • ウォームストレージ(Warm Storage): 「ベッドの下の収納ボックスに服を保管する」ようなものです。ホットストレージよりもコスト効率が良く、比較的アクセスしやすい中間的なティアです。トランザクションログ、ネットワークログ、セキュリティログなど、リアルタイムクエリは不要だが頻繁にはアーカイブから復元したくないログに適しています。DataDogのFlex Logsはこのニーズに応えるために導入されました。
    • コールドストレージ(Cold Storage): 「家から離れたオフサイトの倉庫に服を保管する」ようなもので、アクセスが最も困難ですが、最もコスト効率が良いです。監査ログや設定ログなど、セキュリティ侵害の調査などの目的でのみ必要となるログに適しています。GDPR抽出など、緊急性の低い長期間の保持が必要なログもここに含まれます。
  4. クエリパフォーマンス、コンピューティング使用量、プロアクティブな分析からのインサイトを活用する: Acme社は、ログソースの優先順位付けから始め、コストを最適化しました。マルチベンダーのデータ階層化戦略を採用することで、3つのプラットフォームの長所を組み合わせ、ログデータの使用方法に基づいてコストを最適化できます。価値の高いログのみをベンダーに送信し、ノイズの多いログはAWS S3やAzure Blob Storage、Google Cloudなどの長期ストレージにルーティングすることで、エグレスコストを削減できます。

DataDogの最新機能:Flex Logs、Log Optimization Insights、Archive Search、Flex Frozen

  • Flex Logs:
    • ストレージコストとクエリ容量(コンピューティング)を分離することで、ログの制御と粒度を高めます。
    • すべてのログをDataDogに統合し、コスト最適化とチーム間のログ民主化を促進します。
    • 保持期間とクエリ容量を個別に選択できるため、予算内に収まり、チームのクエリニーズを満たすことができます。
    • Log Explorerのシンプルで統合されたクエリ体験で、すべてのログをクエリできます。

ただし、リアルタイム分析を目的としたログモニターは、現時点ではFlex Logs(ウォームストレージ)ではなく、標準ティア(ホットストレージ)でのみサポートされています。

  • Compute Usage Insights:
    • Flex Logsに必要な最適なコンピューティングサイズを把握できます。
    • クエリが遅延する主要な原因を特定し、どのログソースを異なるストレージティアに変更すべきかをプロアクティブに決定できます。
  • Log Optimization Insights:
    • ログのノイズの原因を可視化し、それらのログを所有するチームに情報を提供します。
    • Acme社はこの機能により、完全に不要な単一のログパターンが1日あたり6,000万以上のログを生成していることを特定し、毎月数千ドルの無駄な出費を削減できました。
    • このインサイトページから直接ログを除外することも可能です。
  • Archive Search (近日公開):
    • コールドストレージに保存されたログを、事前インデックスなしでクエリできるようになります。
    • 既存のDataDogでのライブログの検索と同じ方法で、アーカイブされたログを検索できます。新しいツールや再トレーニングは不要です。
  • Flex Frozen (近日公開):
    • 外部アーカイブの管理が不要になります。DataDogが最長7年間、アーカイブを管理します。

まとめ

Acme社は、DataDogにすべてのログとメトリクスを統合し、上記で紹介したツールと戦略を活用することで、コストを約20〜40%削減することができました。このコスト削減は、ライセンス費、ホスティング、クラウドコスト、メンテナンスなどのハードコスト、MTTRの短縮や開発者生産性の向上といった運用コスト、そして顧客満足度向上と顧客生涯価値増大による収益獲得という3つの主要な領域で実現されました。
ログデータを効果的に管理することは、現代のデジタルビジネスにおいて不可欠です。適切な戦略とツールを導入することで、ログの爆発的な増加に対応し、コストを最適化しながら、必要なインサイトを迅速に引き出すことが可能になります!