Sommaire

Introduction

L'état de supervision d'un hôte ou d'un check est déterminé par deux composants :

  • le "statut" de l'hôte ou du check ( OK, CRITIQUE, ATTENTION ou INCONNU )
  • la "Confirmation du Statut" dans lequel se trouve l'hôte ou le check :
    • Un statut est non confirmé ( SOFT ), quand il s'agit d'un statut ( CRITIQUE, ATTENTION ou INCONNU ) et que l'on n'a pas atteint le nombre de vérifications prévu pour confirmer le statut.
    • Un statut est confirmé ( HARD ),
      • si c'est un statut OK,
      • ou c'est un des statuts ( CRITIQUE, ATTENTION ou INCONNU ) et que le nombre de vérifications a été atteint.

La confirmation du statut est utilisée pour déterminer quand

  • les gestionnaires d'événements sont exécutés,
  • les notifications sont envoyées.

Cette page décrit les différences entre statut confirmé ( SOFT ) et non confirmé ( HARD ), quand ces états s'appliquent, ainsi que les actions qui en découlent.

Relance des vérifications d'hôtes et de checks

Afin d'éviter les fausses alarmes liées à une interruption temporaire ( SOFT ), Shinken Enterprise permet de définir combien de fois un check ou un hôte doit être (re-)vérifié avant d'être considéré comme ayant réellement un problème ( HARD ).

Ceci est contrôlé par la propriété "Nb maximum de tentatives de confirmation du statut de l'hôte" ( clé d'import : "max_check_attempts" ).


Statut non confirmé ( SOFT )

Le statut d'un élément est non confirmé ( SOFT ) selon conditions suivantes :

  • Quand le résultat de la vérification d'un check ou d'un hôte est CRITIQUE, ATTENTION ou INCONNU,
  • et qu'il n'a pas encore atteint le nombre d'essais défini dans la propriété "Nb maximum de tentatives de confirmation du statut de l'hôte".

Si une commande du gestionnaire d'événement ( si configuré ) sera lancée à la réception de chaque vérification de status ( Quel que soit le statut ).

  • Le gestionnaire d'événements peut être très pratique si vous essayez de régler pro-activement un problème avant que le statut soit confirmé ( HARD ).
  • Les données $HOSTSTATETYPE$ ou $SERVICESTATETYPE$ auront la valeur "SOFT" lorsque les gestionnaires d'événements sont exécutés, ce qui permet au script de savoir quand il est nécessaire de réaliser des actions correctrives.
    ( voir la page : Les Variables ( Remplacement dynamique de contenu - Anciennement les Macros ) )

Statut confirmé  ( HARD )

Le statut d'un élément est confirmé ( HARD ) selon les conditions suivantes :

  • Quand le résultat de la vérification d'un check ou d'un hôte est CRITIQUE, ATTENTION ou INCONNU, et qu'il a atteint le nombre d'essais défini dans la propriété "Nb maximum de tentatives de confirmation du statut de l'hôte",
  • Quand un hôte ou check change d'un statut d'erreur à un autre statut d'erreur ( CRITIQUE, ATTENTION ou INCONNU ) et que le nombre d'essais définis par la propriété "Nb maximum de tentatives de confirmation du statut de l'hôte" est dépassé ou atteint,
  • Quand le résultat de la vérification d'un check est ( CRITIQUE, ATTENTION ou INCONNU ), dans ce cas, on relance une vérification de l'hôte. Si le statut de l'hôte est bien en ( CRITIQUE ou INCONNU ) alors, on considère que le statut du check est confirmé ( HARD ),
  • Quand le résultat de la vérification d'un check ou d'un hôte est OK,
  • Quand on reçoit le résultat d'un check passif. Les résultats de checks passifs sont directement considérés comme confirmés ( HARD ).


Le statut d'un élément devient confirmé ( HARD ), cela entraîne les conséquences suivantes :

  • Une vérification de l'état de son parent est alors forcée uniquement si le statut de ce dernier est ( CRITIQUE, ATTENTION ou INCONNU ) et non confirmé ( SOFT ).
  • Les contacts sont notifiés au sujet du problème ou de sa résolution ( si l'envoie de notification est configuré ).
  • La commande du gestionnaire d'événement sera lancée ( si configuré ) pour gérer la confirmation du statut ( HARD ).

Exemple

Voici un exemple de la confirmation de statut ( SOFT ou HARD ), quand un changement apparaît, et quand les événements et les notifications sont lancés.

L'exemple ci-dessous montre le résultat de vérifications consécutives sur un check, la valeur du paramètre max_check_attempts étant à 3.

TempsNombre de vérificationsStatutStatut confirméChangementNotes
01OKOui ( HARD )NonÉtat Initial
11CRITIQUENon ( SOFT )Oui

1ʳᵉ détection d'un statut "non OK".

  • Exécution du gestionnaire d'événements ( si configuré ).
22AVERTISSEMENTNon ( SOFT )Oui

Le check continue d'être en "non OK".

  • Exécution du gestionnaire d'événements ( si configuré ).
33CRITIQUEOui ( HARD )Oui

Le nombre maximum d'essais est atteint donc son statut est confirmé ( HARD )

  • Exécution du gestionnaire d'événements ( si configuré )
  • Envoi d'une notification sur un problème ( si configuré )
  • Une vérification du statut de son parent ( ici son hôte ) est forcée, uniquement si ce dernier est en état "non OK" et non confirmé ( SOFT ).
  • Le nombre de vérifications est remis à 1 aussitôt après.
41AVERTISSEMENTOui ( HARD )Oui

Le check passe au statut AVERTISSEMENT et est confirmé ( HARD ).

51AVERTISSEMENTOui ( HARD )Non

Le check se stabilise sur un statut "non OK" confirmé ( HARD ).

  • En fonction de la définition de l'intervalle de temps entre les notifications défini pour le check, une autre notification peut être envoyée.
61OKOui ( HARD )Oui

Le check repasse au statut OK confirmé ( HARD ).

  • Exécution du gestionnaire d'événements ( si configuré )
  • Envoi d'une notification de reprise
71OKOui ( HARD )Non

Le check est toujours OK.

81INCONNUNon ( SOFT )Oui

Le check est détecté comme passant sur un statut "non OK" non confirmé ( SOFT ).

  • Exécution du gestionnaire d'événements ( si configuré ).
92OKOui ( HARD )Oui

Le check revient à un statut OK depuis un statut non confirmé ( SOFT ).

  • Exécution du gestionnaire d'événements ( si configuré ), mais
  • Pas d'envoi de notifications, car il ne s'agissait pas vraiment d'un problème.
  • Le statut est confirmé ( HARD ) et le nombre de vérifications repasse à 1 aussitôt après. 
101OKOui ( HARD )Non

Le statut du check devient OK confirmé ( HARD )