こんにちは、MSPの田所です。

AWS re:Invent 2024 のレポートです。
現場のイベント模様をお届けします。

セッション情報

Unleashing gen AI to scale cloud operations with AWS best practices

ベストプラクティスに沿ったクラウド運用を実現する生成AI のパワー!

As organizations scale their cloud infrastructure, it’s important to ensure that cloud resources align with AWS best practices to stay optimized as well as achieve operational excellence to deliver an exceptional customer experience. However, managing cloud resources and ensuring adherence to AWS best practices at scale can be a significant challenge. This chalk talk explores the transformative potential of generative AI in elevating cloud operations to new efficiencies with best practice alignment of your AWS resources at scale.

ベストプラクティスの実践が難しい大規模なシステムでも、生成AI の力でなんとかするよ!

Session types: Chalk talk

1時間のチョークトーク

今回のまとめ

  • 運用の悩みは尽きない
  • 人は間違える
  • 生成AI が随所でサポートできる

セッションの詳細

1. クラウド運用の悩み

まずクラウド運用でどんな悩みがあるか、会場内で意見を出し合いました。
多岐に渡る意見が出されて、本当に至る所に悩みがあるのだと思いました。

  • オブザーバビリティ:システムの状況把握と迅速対応
  • コスト最適化:無駄なリソースの特定と改善のサイクル
  • アクセス管理、コンプライアンス:規定に沿ったリソース、権限管理
  • ナレッジ管理:プロセス、手順書の管理
  • インシデント対応:原因調査、復旧、コミュニケーションなど
  • セキュリティ:脆弱性やセキュリティインシデントへの対応
  • ライフサイクル:OS, ミドルウェアのバージョンアップ対応など
  • デプロイ:デプロイの正常性確認、バージョン管理など
  • 環境移行:データ移行、利用サービス変更、アカウント移行、オンプレ-クラウド環境移行など

 

2. ミスの根本原因

ミスが起こる根本原因についてです。
多くが手動変更作業時のミスであると言います。
これはなんだか心当たりがあります。

コード内の構文のミス、実施コマンドのミス、対象リージョンやリソースのミス。
色々なミスが考えられますが、多くが人的なミスにあたります。

そこで以下のようなプロセスを導入するケースも多いかと思います。

  • デプロイ前に変更を検証する
  • 変更実施後に意図した挙動か動作検証する
  • リソースやアプリごとのテレメトリーに異常がないか確認する

もしこれらを簡素化できるとしたら嬉しいですよね。

3. 運用で生成AI を活用できるポイント

そこで生成AI の登場です。
オブザーバビリティ、コスト最適化、セキュリティ、インシデント対応、といった代表的な悩みに対して、生成AI が以下のポイントで助けになります。

  • デプロイ前
    • 監視設定が正しいかチェック
    • 変更リクエストが妥当かチェック
  • デプロイ後
    • 変更内容の検証と修正
  • その後の運用
    • イベントやインシデント発生時の状況把握と対応

実装例として 2 つ紹介されていました。

1. コードの事前確認

作成したコードに対して、Lambda で Bedrock や Kendra に連携します。
そこから社内データ、Well-Architected Framework、ランブックなどを参照します。
コードが意図した変更内容かどうか、生成AI でチェック可能となります。

2. インフラ環境の改善

Trusted Advisor, Well-Architected Tool, Security Hub, Config, Compute Optimizer など、推奨事項を SNS, SQS に送ります。
Lambda に経由で Bedrock や Kendra に連携します。
Systems Manager ドキュメント、CloudFormation テンプレート、Terraform テンプレートなどを生成AI で出力します。
推奨事項に合わせてインフラ環境の修正が可能になります。

他にも以下に事例が紹介されています。

MSPとして

生成AI を随所に取り入れる

生成AI が社会を激変させる可能性を感じつつも、どこにどう取り入れるかをなかなか具体的にイメージできていませんでした。
そこに今回、Lambda から Bedrock や Kendra に連携してドキュメントを参照した上で回答を作成する、といった構成の例を見ることができました。
弊社MSPチームでは、サービスデスクチームがお客様問い合わせを要約したり社内ナレッジを参照するのに生成AI を使用しています。
セッションを聴いて、それ以外にもインシデント対応、リソース最適化、セキュリティチェックなどへの応用が考えられると思いました。

おわりに

生成AI サービスは数あれど、クラウド運用に焦点を当てたトピックにあまり触れた覚えがありませんでした。
しかし今回、どう役に立つかまで具体的な話を聴き、生成AI が非常に身近なものに感じました。
普段の運用業務にどう組み込むか、考える箇所はたくさんありそうです。

おしまい