概要

IT 運用のための人工知能 (AIOps) は不可欠になっています。このライトニングトークでは、お客様が AWS ネイティブサービスを活用して、可観測性やインシデント管理から予測分析や自動修復まで、包括的な AIOps 機能を実現する方法について説明します。AWS サービスが IT チームにプロアクティブな監視、異常の検出、問題の迅速な解決をどのように支援しているかをご覧ください。実際のお客様の事例では、まとまりのある AIOps のためのサービスの統合と、AWS パートナーが専門知識とソリューションアクセラレータを活用してエンドツーエンドの AIOps ワークフローを実装し、お客様の AIOps の取り組みをガイドする方法を紹介しています。AWS サービスとパートナーを活用してインテリジェントな自動化を実現し、IT 運用を向上させる方法を学びましょう。このトークは AWS パートナーを対象としています。

運用にかかわる自分としては、とても興味があったので参加してみました

本題

まずはAI Opsのビジョンは

データ収集、分析、運用をAIによって自動化することで

エンジニアを手作業から開放し、イノベーションや問題解決などに集中すること

私達はその運用を生業にしているので、その未来が来たら困ってしまうな、、という印象でした

AWS Cloud Operationsの種類です

上から順に記載します

  • クラウドガバナンス
  • クラウド財務管理
  • モニタリングと観測可能性
  • コンプライアンスと監査

上記がユースケースです

Operations management

Cloud financial management

上記2つは私の実務の中心なので注目しました

AIOps を使用している例です

正直なところ全然使えていません

レガシーな環境を保守している方、運用上の制約が多い方は同感していただけるのでは無いでしょうか

興味のある Operations management には Amazon Q が3つもあります

ITオペレーション(可観測性)の課題です

データ不足
情報過多
アラーム疲労
データの相関性
修復と予防

最近可観測性(Observability)はよく耳にします

全部の項目に激しく同意できます(特にアラーム疲労)

AIOps以前の状態です

もっとレガシーな環境もあるので、これでも古い分類にはいるのだと驚きです、、

AI Ops使用後です

恥ずかしながらすべて使用したこと無いサービスです

モニタリングにAIOpsを導入した例です

EC2、RDS、Lambda などからAIOps

Cloud WatchからAIOps

データを集約して AI に分析を行い、後続の処理に連携します

大規模なシステムであれば、上記のAIOps部分は別のSaaSになっているケースが多いかと思います

上記はObservabilityの成熟モデルです

Level 4は問題を自動で解決し、手を加える必要はありません

皆様の運用している環境はどのLevelにあたりますでしょうか?

Level 1だからだめ。ということはないと私は思います。

様々な機能がありますが1つ紹介します

Amazon CloudWatch anomaly detection

メトリックの異常検知を有効にすると、CloudWatchはメトリックの過去のデータに機械学習アルゴリズムを適用し、メトリックの期待値の統計モデルを作成します:
– 自然なメトリックパターンに基づいてしきい値を自動調整するアラームの作成
– メトリック値が帯域を上回った場合、下回った場合、またはその両方の場合にアラームを発する
– ダッシュボード上で異常検出帯を持つメトリクスを可視化

閾値ベースの監視は無駄なアラートが発生しがちです

統計モデルを使用して、アラートが必要な異常時を高い精度で検知させます

アラート疲れを解消する一つの方法になりそうですね

まとめ

今回のre:Inventは昨年から急激に成長したAIが中心になっています

運用も例外ではなくAIを使用して問題解決を試みています

日本ではChatGPTが登場してかなりAIが盛り上がりましたが、現在では話題になることが減りました

しかし、世界では依然として高い話題性で危機感を感じています

懐疑的にならずどんどん検証して、導入を目指していきたいとおもいます!