背景
私が普段仕事で運営しているシステムで、システムリソース枯渇が発生し、スローダウンやシステムエラーが発生、発生時刻が夜間であったこともあり、事態に気が付くのが遅れてしまい、対応が後手に回ってしまった、と言うことがありました。
これを受けて、検知までのスピードを向上させるために、何らかの監視ツールを導入したいと考え始めました。
ツール作成にあたっての条件
現状、Webのサービスやプロセス、システムリソース(回線帯域やCPU)使用率に関する監視は導入されているものの、Webサーバのレスポンス時間に関する監視は行っていないため、その点を監視するツールを検討しました。
また、顧客から預かったシステムと言うこともあり、システム内部に監視用のアプリや製品を設置することはできないため、外部から監視を行う方式をとることを考えました。
【条件】 ・低コスト(出来れば無料) ・無駄な管理コストはかけたくないのでサーバレスアーキを採用 ・システムへの負荷は最小限 ・次のような機能が備わっていること ・応答遅延監視 ・システムエラー監視 ・ポーリング ・事象検知時の通知(メール / Line / Teams等、スマホに通知可能な方式)
なお、今回のツール作成にあたっては、勉強がてらAzureを使って作ってみることにします。また、監視ツールは常駐サービスではなく単発実行が可能でかつ、お手軽なスクリプト言語で作成することとし、また手動操作を不要とするためタイマー実行で起動する方式にします。
ツールの全体イメージ
ざっくりなイメージですが…。これくらいなら、Azure、プログラミング初心者の私でも作れそうです。
この記事はここまでになります。
次回は使用するサービスの選定を行います。
コメント