AWS re:Invent 2023 のセッション「COP227-INT | Cloud operations for today, tomorrow, and beyond」において、CloudWatch Logs におけるログの要約機能、Amazon CloudWatch Logs Anomaly Detection の GA 発表されました。

https://aws.amazon.com/jp/about-aws/whats-new/2023/11/aws-cloudwatch-logs-anomaly-detection-pattern-analysis/

 

 

またしても謎の SF 画像。事象の明確化を表しているらしいです。

 

集約化のデモ。CloudWatch Logs Insight 上でログのサマライズを指定します。

 

実行するとログパターンが集約され、件数が Event count として、発生率が Event Rate として表示されます。

ここで重要なのがアプリケーションやサーバーが出力する変動項目は Token として扱われて、ログパターンが集約されるところ。

 

Token に割り当てられた値も集約され、件数、発生率で確認できます。

 

ログパターンが新規で発生したものなのか、エラーであるのかどうかの判定も含めて確認できます。これにより偶発的に発生しているエラー等、少数のログを発見しやすくし、運用オペレーションの高速化に繋がります。

 

地味なオペレーションの改善が大切

今回のセッションにおける発表では「natural language query generation」も含め、オペレーションの改善、簡略化、高速化にフォーカスしているように見受けられました。普段の運用や調査でも CloudWatch での大量のログをフィルタやクエリで絞るとしても探していくのはなかなかしんどいところがあるかと思います。

運用における地味な作業の改善に向けた新機能をリリースする AWS は、さすがに良いところ突いてくるなーという印象です。問題発生時の調査だけでなく、通常は出ていない新規の異常検出、少数派ログのチェックなど、事前把握による品質改善に繋がる部分もあり、まさに次のクラウドオペレーションはこうなる!という発表でした。