みなさん、こんにちは。
サニービュー事業部の小寺です。

先日、AWS Systems Managerについてお伝えしました。
記事はこちら

今日は、先月リリースされた「AWS Systems Manager Incident Manager」について、お伝えします。

■AWS Systems Manager インシデントマネージャーとは

先月リリースされたインシデントマネージャーとは、どんなことができるのでしょうか。
AWS Systems Manager でインシデント管理ができます!

通常、「インシデント」は、通常のITサービス/ITシステムの停止やサービス品質の低下により、ビジネスの継続やユーザーに影響を与える「できごと」を意味しています。
インシデント管理は、以下のプロセスから成り立っています。
・インシデント発生を認識する
・状況を適切に把握する
・解決策を立案する
・解決策を実施
・状況を回復させる

Systems Managerのインシデントマネージャーでは、「ユーザーが AWS でホストされるアプリケーションに影響を及ぼす」インシデントを軽減し、復旧させることができます。

たとえば、Amazon Elastic Compute Cloud(Amazon EC2)のLinuxインスタンスで稼働するアプリケーションを例にします。

このアプリケーションは、監視サービスとして、Amazon CloudWatchを利用しています。アプリケーションに急激なスパイクアクセスが発生し、CPU使用率が85%を超えました。このアプリケーションは、高負荷状態に対応する準備が出来ていなかったため、パフォーマンスが低下してしまいました。

このようなケースでは、インシデントとして対応が必要になってきますよね。

■インシデントマネージャーを利用するメリット

インシデントマネージャーをお使いいただく、メリットについてです。

・情報がすぐ手に入る
インシデントマネージャーを使えば、CloudWatchと連携して、インシデントに関連するメトリックスを自動的に収集しておくことができます。
インシデントマネージャーで提供される「インシデントタイムライン」で、インシデントの発生から対象ポイントを時系列に確認することもできます。

・インシデント対応者が明確
インシデントマネージャーでは、、連絡先、エスカレーションプラン、チャットチャネルを使用して、インシデント対応者が誰かすぐ分かるようにできます。
AWS Chatbot クライアントを使用してインシデントの対応がスムーズにできます。

・インシデント対応の自動化と改善
インシデントマネージャでインシデントの分析ができます。
インシデントの分析をすることにより、より精緻なインシデント計画を作成し、アプリケーション全体の変更に影響を与えるようなインシデントの発生自体を予防することもできます。
この分析では、Runbook、応答計画、指標の反復学習もされるので、データが蓄積されるとより自動化の精度が上がりそうですね。

■インシデントマネージャーでできること

インシデントマネージャーでは、では、アラームがなったときにすぐに使用できるインシデント対応のプランを作っておくことができます。

・連絡先: インシデントの解決に携わるチームメンバーとメンバーへの連絡方法 (音声、電子メール、SMS)。
・エスカレーションプラン: 最初の待機対応担当者がインシデントを受けなかった場合に、次に呼び出す担当者の連絡先。
・対応プラン: 対応担当者 (連絡先とエスカレーションプラン)、対応内容 (使用するランブック)、作業を行う場所 (AWS Chatbot に関連付けられたチャネル)。

■対応リージョン

・米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)
・欧州 (アイルランド)、欧州 (フランクフルト)、欧州 (ストックホルム)
・アジアパシフィック (東京)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)

■まとめ

いかがでしたでしょうか。

ここからは、所感です。
とても便利な機能なので、活用していきたいと思います。
AWSサポートでもRunbookを元に自動的に解決をするソリューションが提供されました。既に実績があり、検証がされている定型的な内容の自動化を進めることは、とても効率が良いことだと思います。

ただし、定型化を進めるためには決まったインシデント管理のプロセスが、チーム全体で共有、徹底されていることが前提ではないかなーと思っています。

監視で自動再起動をかけていたり、ディスクが自動拡張にしていても、何かしらのインシデントが発生した経験はあるのではないでしょうか。

プロセスの共有、徹底は難しい部分が多いと日ごろ、感じていますが、有事を想定した定期的なトレーニングやプロセスの見直しの積み上げも必要だな、と思います。

SunnyCloudでは、AWSの環境構築、移行支援などのソリューションもご提供しております。

▼「無料相談」受付中です。
https://www.sunnycloud.jp/contact-us/