Home » database » 監視(monitoring)

監視(monitoring)

監視(monitoring)とは何か

システムを運用するとは大変なことです。ノントラブルが当たり前という世界です。そのノントラブルを支えるのが監視(monitoring)です。では、何を監視(monitoring)するのか。そしてその監視(monitoring)は可能か。さらにどのように監視(monitoring)するのかを考えるのが監視(monitoring)の第一歩です

 

監視(monitoring)とは

データベースはある日突然障害が発生することもあり、徐々に性能が悪化することもあります。稼働しているシステムの状態を数値として把握しその数値から異常を判断し通知することが監視(monitoring)の目的です
監視を行う設計の中心的な作業は監視項目の洗い出しと閾値(しきいち)の設定です

 

監視項目の考え方

経済産業省ソフトウェア開発力強化推進タスクフォースの非機能要求記述ガイドによると、非機能要件におけるリスクを考える場合以下の3要素に分解できます
1.システムを取り巻く外部環境条件が悪化する要因
2.システムに障害(不都合)が生じる要因
3.システムを運用したビジネスに損害が生じる要因
これら3要素を監視項目の分類で考えることができます

monitoring_indicator1

1.システム利用状況の変化を監視する

外部環境条件の悪化⇒外部環境の何が変化(悪化)したか⇒システム利用状況の変化
このシステム利用状況の変化という視点で監視します。リソース利用状況と混同しないことが重要です

2.リソース利用状況の変化を監視する

システムの障害⇒システムにどのような障害(不具合)が生じたか⇒リソースの利用状況の変化
このリソースの利用状況の変化という視点で監視します。システム利用状況と混同しないことが重要です

3.性能の変化を監視する

ビジネスの損害⇒ビジネスシーンでの利用でどのような損害が生じたか⇒性能の変化
リソース利用状況、システム利用状況と混同しないことが重要です

システム利用状況の変化、リソース利用状況の変化、性能の変化(評価)に分類して監視すると分かりやすくなります。これらを混同して監視すると利用者にとってもわかりにくい報告となるので注意が必要です
これらの変化をどう捉えるかが監視指標となります

monitoring_indicator3

 

閾値(Threshold)とは

閾値(Threshold)とは評価指標をクリアしているシステム利用指標とリソース利用指標の値のうち、評価指標を超える危険性を表す境目の値のこと
閾値は評価指標を超えるまでに対策に必要な期間から逆算して設定する必要があります。乖離値、乖離率は、障害監視の指標として捉える必要があります。リソース指標は秒単位で変動することから、そのブレ幅を閾値と捉える必要があります