こんにちは、MSPセクションの毛利です。

幕張で開催された「AWS Summit Japan 2025」に参加してきました。

今回はセッション「~設計から運用まで~ AWS サポートを徹底活用して重要システムを安定稼働させよう」に関するレポートです。

「重要システムを安定稼働させるためにAWSサポートでどんなことができるのか?」について本セッションで得た知見をお届けします。

セッションについて

AWS – 5 1 ~設計から運用まで~ AWS サポートを徹底活用して重要システムを安定稼働させよう

ビジネスに直結する重要システムを AWS でローンチし、安定運用することについて懸念をお持ちのお客様もいらっしゃるのではないでしょうか。AWS には、システムの設計、リリースから安定運用につなげるための踏み込んだサポートを提供する AWS Countdown Premium や、障害復旧をプロアクティブに支援する AWS Incident Detection and Response などのサービスやツールがございます。本セッションでは、AWS サポートが提供するサービスやツールを活用して、重要システムの安定運用やレジリエンス向上を実現する方法をサポート現場のエンジニアの視点から解説します

アジェンダ
  1. 重要システムを安定運⽤するためのポイント
  2. 設計・開発・テストおよび移⾏フェーズでの課題
  3. 保守・運⽤フェーズでの課題
  4. まとめ

重要システムを安定運用するために

「重要システムを安定運用するため」にはどのようなポイントに気をつける必要があるのでしょうか。

本セッションでは、重要システムの安定運用にはレジリエンスが鍵であり、レジリエンスを向上するためにいくつかのポイントがあると解説されていました。

レジリエンスとは「ワークロードが障害に対応し、障害から迅速に復旧する能力」

レジリエンスを向上させるために

レジリエンスを向上させるためにどのような方法があるのでしょうか。

本セッションではAWSサポートの以下サービスやルールが紹介されていました。

  • AWS Countdown Premium(AWS CDP)
  • AWS Incident Detection and Response(AWS IDR)
  • AWS Support Automation Workflows(AWS SAW)

AWS Countdown Premium(AWS CDP) や AWS Incident Detection and Response(AWS IDR) は「エキスパートによる支援」や「AWSによる24時間365⽇のモニタリング」など比較的大規模向けのサービスと感じましたが、対して AWS Support Automation Workflows(AWS SAW) は大規模向けはもちろん、中小規模のシステムでも利用可能なツールだと感じました。

もう少し詳しく見ていきましょう。

AWS Support Automation Workflows(AWS SAW)

AWS SAW は「厳選された AWS Systems Manager セルフサービス自動化ランブックのコレクション」です。

AWS サポート自動化ワークフローは、厳選された AWS Systems Manager セルフサービス自動化ランブックのコレクションです。これらのランブックは、お客様の問題を解決して得たベストプラクティスを基に、AWS サポートエンジニアリングによって作成されています。これにより、AWS リソースに関する一般的な問題のトラブルシューティング、診断、修正が可能になります。

参考:https://aws.amazon.com/jp/premiumsupport/technology/saw/

本セッションでは「タスク(コンテナ)の起動に失敗」をケースに、AWS SAWを使わない場合・使った場合の違いを説明していました。

AWS SAWを使わない場合、「どこから調査すべきか?」と問題想定箇所を確認していくのに時間がかかり、確認したとしても手動チェックによるチェック漏れの可能性も残ります。

AWS SAWを使った場合、トラブルシューティングを自動で実施し、問題原因を早期に特定することができます。

また、AWS SAWには上記以外のトラブルシューティングに使えるランブックが用意されており、以下のような例が紹介されていました。

  • インスタンス内部の設定でネットワーク疎通性が失われた場合などの復旧
  • Session Manager を使用してAmazon EC2 インスタンスに接続できない問題のトラブルシューティング
  • VPCに接続した Lambda 関数からインターネットアクセスができない原因のトラブルシューティング

AWS SAW を利用することで、「確認すべきポイントを自動的にチェックして調査時間を短縮でき」、「各種APIを使って自動的にチェックするため、目視チェックによるミスをなくすことができる」と解説されていました。

まとめ

今回のセッションを通じ、重要システムの安定稼働には「レジリエンス」の向上が重要であると感じました。
AWSサポートは、大規模システム向けの「AWS Countdown Premium」や「AWS IDR」といった手厚い支援に加え、今回ご紹介した「AWS Support Automation Workflows (AWS SAW)」のような、規模を問わず活用できる強力な自動化ツールを提供しています。

特にAWS SAWは、トラブルシューティングを自動化することで「調査時間の大幅な短縮」と「手動チェックによるミスの防止」を可能にしてくれ、障害発生時に迅速かつ正確な対応が求められる私たちMSPの業務において、非常に心強いツールだと感じました。

今後もこのような便利なサービスを積極的に活用し、障害対応の品質をさらに高めることで、お客様のシステム安定稼働に貢献していきたいと思います。