問題が発生した際には通常通知メールが発報されますが、予期せぬイベントが大量に発生したり、接続不安定な監視対象があったりすると大量に通知が発生し、メールフォルダが溢れかえってしまう可能性があります。そういった場合に備え、Checkmkの通知に関する多数のオプションを使用して大量な通知に事前に対策しておくことをおすすめします。
本記事では、その中から代表的な5つの方法をピックアップしてご紹介します。
Checkmkの通知の流れとは
ホスト(監視機器)のUP→DOWN、またはサービス(監視項目)のOK→WARNなど、監視対象の状態変化があった際に通知設定に従ってメールが発報されます。
また、トラップとSyslogの監視や、ログをイベントコンソールに転送して監視しているという場合も、イベントコンソールのルール設定と通知設定に伴いメールが発報されます。
(参考:【Checkmk KB】ログファイル監視③:イベントコンソールへ転送して検知・通知する)
さまざまなチューニングオプション
通知を効率的に行うための以下5種類のオプションを紹介します。
- ホスト/サービスチェック試行の最大数設定
- 親子関係設定
- フラッピング状態の調整
- おまとめ通知
- 通知の無効化
ホスト/サービスチェック試行の最大数設定
このルールをホスト/サービスに対し設定しておくと、指定した回数連続で異常が発生した時のみ通知されるようになります。
例えば、
- 監視対象のホストのPingが3回連続DOWNだったらDOWN判定 →通知発報
- 監視対象のサービスが5回連続CRIT状態だったらCRIT判定 →通知発報
というように、通知を発報するまでの連続チェック(連続異常発生)回数を設定することができます。
今回は監視対象のホストが3回連続DOWNだった場合に通知を発報する方法として、設定画面と、設定後のホスト状態を確認していきます。
サービスの場合は「サービスチェック試行の最大数」のルールを設定してください。
セットアップ>”ホスト”>ホスト監視ルール>ホストのチェック試行の最大数 というルールを追加します。最大数と、対象のホストを指定してルールを保存してください。
以上で設定は完了です。変更のアクティブ化を行い、モニター画面より設定したホストを確認してください。対象のホスト監視画面のメニューバーより、”ホスト”>ホストのステータスをクリックします。(図2)
画面をスクロールすると「現在のホストチェックの試行」という項目があります。今回は3を指定したため「1/3」が表示されています。(図3)
通常のチェック間隔でチェックを実施するごとに、チェック結果がDOWNだった場合には「2/3」,「3/3」とカウントアップされていき、3回目もDOWNであれば完全にDOWN状態であると判断され、通知が発報します。
最大数に達する前にUP状態に戻った場合は、カウントもリセットされます。
親子関係設定
例えば何百台も接続しているルーターが故障した場合、接続されている全てのホストが監視不能となり、何百もの通知がトリガーされることになります。これを防ぐために、ホスト同士に親子関係を設定することができます。
例えば1つのネットワーク機器Aに10台のWindows端末が接続されており、その11台すべてを監視中だとします。
この場合、10台のWindows端末のホストプロパティを編集し、ネットワーク機器Aを「親ホスト」として定義します。すると、親ホストがDOWNになると子ホストはすぐに到達不能なホストとしてフラグが立てられます。親となっているネットワーク機器A自体の状態のみが通知され、子ホストの通知を抑制することができます。
セットアップ>”ホスト”>ホスト の管理画面より新規追加、または既存ホストのプロパティを修正し、「親」という項目にチェックを入れ親ホストとなる機器を選択してください。
各ホストには複数の親ホストも設定可能です。以上で設定は完了です。
親子関係を設定しておくと、モニター>”概要”>親子トポロジー より親子関係設定に基づいて作成されたネットワークトポロジーマップを確認することができます。
フラッピング状態の調整
ホスト/サービスが短時間で頻繁に状態が変わり監視対象が安定していない状態にある場合、通知が過剰に出てしまうことを防ぐために、Checkmkでは「フラッピング状態」とみなします。フラッピング状態であると判定されると、図5のようなアイコンがマークされ、連続した状態の変更に対しての通知が発生しなくなります。
また、一定の基準を満たすとフラッピング状態から解除されます。対象がフラッピング状態に入るときと解除されたときには通知が発生(再開)します。これはCheckmkが内部で持つ、「flappiness値」というものの増減により判定されます。
このflappinessの値の閾値はデフォルトで設定済で、セットアップ>”一般”>グローバル設定>▼モニタリングコア>フラップ検出の調整 から調整することもできます。
flappinessの値は、状態変化のたびに1ずつカウントアップし、このルールで設定した上限・下限値によりフラッピング状態であるか判定されます。
高い閾値:5
⇒状態変化を頻繁に繰り返し、flappiness値が高い閾値(デフォルト5)を超えるとフラッピング状態となりアイコンが表示され、通知が抑制される
減衰:10%/分
⇒1分間変化が無ければ、減衰の割合(デフォルト10%)でflappiness値が減少する
低い閾値:3
⇒時間経過と共に減少していき、flappiness値が低い閾値(デフォルト3)を下回るとアイコンが非表示となり、通常通り通知が再開する
という流れになります。
(※図6画面の項目記載順と上記説明の記載順は異なりますのでご注意ください。)
設定は以上です。
おまとめ通知
一定時間の間隔経過や、件数などで通知をまとめてメール本文に記載する一括通知機能「Notification Bulking」のルールです。
期間 :日/時/分/秒で設定でき、1時間毎に一括通知であれば「1時間」を指定します。
件数 :件数をカウントします。10通ごとに一括通知であれば「10通」を指定します。
種類 :フォルダ毎、ホスト毎、など通知をまとめる種類の詳細も指定できます。
詳細な説明と設定方法は過去記事にまとめています。下記リンクよりご確認ください。
【Checkmk KB】通知カスタマイズ①:通知メールをまとめて送信する
通知の無効化
特定のホスト、サービスの通知を無効化し、必要のない通知を制限することができます。例えば複数のインターフェイスを監視はしているが、常に抜き差しする箇所については通知は必要ない、といった場合などに活用できます。
「ホスト/サービスチェックの通知を無効化する」というルールで設定が可能です。こちらも、詳細な説明と設定方法は過去記事のリンクよりご確認ください。
【Checkmk KB】通知カスタマイズ②:通知の無効化とグループ設定
以上、Checkmkにはさまざまな通知オプションが用意されています。すべてのメールを配信するだけではなく、これらのオプションで通知をチューニングし効率的な配信方法を探してみてください。
お問合わせ
Checkmkにご興味のある方は、以下のリンクよりいつでも弊社までお問合せください。
30日間無償でご利用いただける評価版もダウンロードリンクにご用意しております。簡単に導入・検証いただけますのでぜひお試しください。