| Scroll Ignore | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
|
Introduction
L'état de supervision d'un hôte ou d'un check est déterminé par 2 deux composants :
- Le le "statut" de l'hôte ou du check ( OK, ATTENTION, CRITIQUE, ATTENTION ou INCONNU)
- Le type d'état la "Confirmation du Statut" dans lequel se trouve le l'hôte ou le check , aussi appelé la "Confirmation de Statut" dans l'UI de visualisation. Il y a 2 types d'états dans Shinken Enterprise :
- l'état SOFT pour un statut à confirmer
- l'état HARD pour un statut confirmé.
- :
- Un statut est non confirmé ( SOFT ), quand il s'agit d'un statut ( CRITIQUE, ATTENTION ou INCONNU ) et que l'on n'a pas atteint le nombre de vérifications prévu pour confirmer le statut.
- Un statut est confirmé ( HARD ),
- si c'est un statut OK,
- ou c'est un des statuts ( CRITIQUE, ATTENTION ou INCONNU ) et que le nombre de vérifications a été atteint.
La confirmation du statut est utilisée pour déterminer quand
- les gestionnaires d'événements sont exécutés,
- les notifications sont envoyées.
Ce paragraphe Cette page décrit les différences entre état SOFT et état HARD statut confirmé ( SOFT ) et non confirmé ( HARD ), quand ces états s'appliquent, ainsi que les actions qui en découlent.
Relance des vérifications d'hôtes et de checks
Afin d'éviter les fausses alarmes liées aux états transitoires à une interruption temporaire ( SOFT ), Shinken Enterprise permet de définir combien de fois un service check ou un hôte doit être (re-)vérifié avant d'être considéré comme ayant réellement un réel problème ( état HARD ).
Ceci est contrôlé par la propriété "Nb maximum de tentatives de confirmation du statut de l'hôte" ( dans l'interface Configuration) ou clé d'import : "max_check_attempts" (dans la définition .cfg des checks et des hôtes ).
Etat "SOFT"
Statut non confirmé ( SOFT )
Le statut d'un élément est non confirmé ( SOFT )selon L'état "SOFT" survient dans les conditions suivantes :
- Quand le résultat de la vérification d'un check ou d'un hôte n'est pas OK, est CRITIQUE, ATTENTION ou INCONNU,
- et qu'il n'a pas encore atteint le nombre d'essai essais défini dans la propriété "max_check_attempts". C'est ce qu'on appelle une "Erreur SOFT", le statut n'est pas confirmé.
Quand un check ou un hôte revient d'un état "erreur SOFT", on qualifie ce changement de "reprise SOFT".
- Nb maximum de tentatives de confirmation du statut de l'hôte".
Si une commande du gestionnaire d'événement ( si configuré ) sera lancée à la réception de chaque vérification de status (Quel que soit le statut )Lorsqu'un check ou un hôte subit un changement d'état "SOFT", le gestionnaire d'événements est lancé, s'il a été configuré.
- Le gestionnaire d'événements peut être très pratique si vous essayez de régler
- pro-activement un problème avant que
- le statut soit confirmé ( HARD ).
- Les
- données $HOSTSTATETYPE$ ou $SERVICESTATETYPE$ auront la valeur "SOFT" lorsque les gestionnaires d'événements sont exécutés, ce qui permet au script de savoir quand il est nécessaire de réaliser des actions
- correctrives.
( voir la page : Les Variables ( Remplacement dynamique de contenu - Anciennement les Macros ) )
- Plus d'informations sont disponibles sur la page
Etat "HARD"
Statut confirmé ( HARD )
Le statut d'un élément est confirmé ( HARD )selon L'état "HARD" survient dans les conditions suivantes :
- Quand le résultat de la vérification d'un service check ou d'un hôte n'est pas OK, est CRITIQUE, ATTENTION ou INCONNU, et qu'il a atteint le nombre d'essais défini dans la propriété "max_check_attempts" et que le dernier essai n'est pas OK. C'est ce qu'on appelle une erreur "HARD", le statut est alors confirmé.Nb maximum de tentatives de confirmation du statut de l'hôte",
- Quand un hôte ou check passe change d'un état statut d'erreur à un autre état statut d'erreur (e.g. ATTENTION à CRITIQUE) alors ( CRITIQUE, ATTENTION ou INCONNU ) et que le nombre d'essais défini définis par la propriété max_check_attempts est dépassé."Nb maximum de tentatives de confirmation du statut de l'hôte" est dépassé ou atteint,
- Quand le résultat de la vérification d'un check ou d'un hôte n'est pas OK et que est ( CRITIQUE, ATTENTION ou INCONNU ), dans ce cas, on relance une vérification de l'hôte. Si le statut de l'hôte associé est dans un état DOWN ou UNREACHABLE.
- Quand un hôte ou un check revient d'un état d'erreur "HARD". On qualifie alors ce retour de "reprise HARD".
- est bien en ( CRITIQUEou INCONNU ) alors, on considère que le statut du check est confirmé ( HARD ),
- Quand le résultat de la vérification d'un check ou d'un hôte est OK,Quand un hôte ou un check revient d'un état d'erreur "SOFT", suite à une "reprise SOFT".
- Quand on reçoit le résultat d'un check passif. Les résultats de checks passifs sont directement considérés comme confirmés confirmés ( HARD ).
Le statut d'un élément devient confirmé ( HARD )Lorsqu'un service ou un hôte subissent un changement d'état "HARD", cela entraîne les conséquences conséquences suivantes :
- Le gestionnaire d'événements est lancé pour gérer l'état "HARD"Une vérification de l'état de son parent est alors forcée uniquement si le statut de ce dernier est ( CRITIQUE, ATTENTION ou INCONNU ) et non confirmé ( SOFT).
- Les contacts sont notifiés au sujet du problème ou de sa résolution .Une vérification de ( si l'état envoie de son parent est alors forcée uniquement si ce dernier est en état non OK et non confirmé (SOFT).
- notification est configuré ).
- La commande du gestionnaire d'événement sera lancée ( si configuré ) pour gérer la confirmation du statut ( HARD ).
- Les notations de remplacement de contenu $HOSTSTATETYPE$ ou $SERVICESTATETYPE$ auront la valeur "HARD" lorsque les gestionnaires d'événements seront exécutés, ce qui permet au script de savoir quand il est nécessaire de réaliser des actions correctrices.
( voir la page Les Variables ( Remplacement dynamique de contenu - Anciennement les Macros )) - Plus d'informations sont disponibles sur la page
- Les notations de remplacement de contenu $HOSTSTATETYPE$ ou $SERVICESTATETYPE$ auront la valeur "HARD" lorsque les gestionnaires d'événements seront exécutés, ce qui permet au script de savoir quand il est nécessaire de réaliser des actions correctrices.
Exemple
Voici un exemple sur la détermination du types d'état (soft ou hard) de la confirmation de statut ( SOFT ou HARD ), quand un changement apparaît, et quand les événements et les notifications sont lancés.
L'exemple ci-dessous montre le résultat de vérifications consécutives sur un check, la valeur du paramètre max_check_attempts étant à 3.
| Temps | Nombre de vérifications | Statut |
|---|
| Statut confirmé | Changement | Notes | ||
|---|---|---|---|---|
| 0 | 1 | OK | Oui ( HARD ) | Non |
| État Initial | ||||
| 1 | 1 | CRITIQUE | Non ( SOFT ) | Oui |
1ʳᵉ détection d'un statut "non OK".
|
| |||||
| 2 | 2 | AVERTISSEMENT | Non ( SOFT ) | Oui | Le check continue d'être en "non OK".
|
| |||||
| 3 | 3 | CRITIQUE | Oui ( HARD ) | Oui | Le nombre maximum d'essais est atteint donc |
son statut est confirmé ( HARD ).
|
|
|
| |||||
| 4 | 1 | AVERTISSEMENT | Oui ( HARD ) | Oui | Le check passe au statut AVERTISSEMENT |
et est confirmé ( HARD ).
|
|
|
| |||||
| 5 | 1 | AVERTISSEMENT | Oui ( HARD ) | Non | Le check se stabilise sur un statut " |
non OK" confirmé ( HARD ).
| |||||
| 6 | 1 | OK | Oui ( HARD ) | Oui | Le check repasse au statut OK |
confirmé ( HARD ).
|
|
| |||||
| 7 | 1 | OK | Oui ( HARD ) | Non | Le |
check est toujours OK. | |||||
| 8 | 1 | INCONNU | Non ( SOFT ) | Oui | Le check est détecté comme passant sur un statut "non OK" |
non confirmé ( SOFT ).
|
| |||||
| 9 | 2 | OK | Oui ( HARD ) | Oui | Le check revient à un statut OK depuis un |
statut non confirmé ( |
SOFT ).
|
|
|
| |||||
| 10 | 1 | OK | Oui ( HARD ) | Non | Le |
statut du check devient OK confirmé ( HARD ). |