Introduction au Flapping
Shinken Enterprise permet par défaut de détecter , en option, les hôtes et services en état flapping. Celui-ci Cette état arrive quand l'état le statut de l'élément (Ok, Critique, ...) change trop souvent , envoyant ce qui va avoir pour effet d'envoyer beaucoup trop de notifications d'alertes et de reprises successives. Le flapping peut être caractéristique de problèmes de configuration (i.e. seuils trop bas par exemple), ou de vrais problèmes réseaux.
Quand un élément passe en flapping, toutes ses notifications sont interrompues afin de ne pas submerger les utilisateurs, jusqu'à ce qu'il revienne dans un état stable (qu'il soit OK/UP ou DOWN/CRITICAL).
Comment ça fonctionne
A chaque fois que Shinken Enterprise vérifie le statut d'un hôte ou d'un check, il commence par vérifier si l'élément a commencé ou vient d'arrêter d'être en Flapping. Il le fait de la façon suivante :
- Stockage des résultats des 21 derniers checks
- Analyse de l'historique des résultats et détermination de détermine quand les changements d'états et de transitions arrivent
- Détermination du Détermine le pourcentage de changement d'état
- Comparaison de ce taux avec les valeurs définies comme seuils haut/bas de flapping pour entrer/sortir de l'état flapping configurer pour l'élément.
Un élément est vu comme ayant démarré le flapping quand son Le contexte flapping est ajouté un élément lorsque le pourcentage de changement d'états état dépasse pour la première fois le seuil haut de flapping.Un élément est vu comme ayant arrété le flapping quand son pourcentage
descend Le contexte flapping est enlevé d'un élément lorsque le pourcentage descend en dessous du seuil bas de flapping. (en assumant qu'il était précédemment en train de faire du flapping)
Exemple
Voyons la mécanique plus en détail avec un check.
Cette image illustre l'historique de l'état d'un service sur les 21 derniers checks.
Dans cet exemple : Les états OK sont en vert, WARNING en jaune, CRITICAL en rouge, et UNKNOWN en orange.
| Panel |
|---|
Les résultats de la vérification de l'historique sont examinées examinés afin de déterminer où les changements d'état / transitions se produisent. Les changements d'état se produisent quand un état est différent de l'état qui le précède immédiatement. Comme nous conservons les résultats des 21 derniers contrôles de service dans le réseau, il y a une possibilité d'avoir au moins 20 changements d'état.
Dans cet exemple, il y a 7 changements d'état indiqués par les flèches bleues dans l'image ci-dessus.
La logique de détection de Flapping utilise le changement d'état pour déterminer le pourcentage de changement de l'élementélément. C'est une mesure de volatilité du check.
- Les checks qui ne changent jamais d'état sont à 0%,
- alors que ceux qui changent à chaque vérification seront à 100%.
Note: Dans l'algorithme de calcul, un poids plus important sera donné aux derniers résultats par rapport aux plus anciens.
Par exemple, prenons le cas d'un pourcentage calculé de 31%. Il va être comparé aux seuils définis :
- si l'élément n'était pas en état flapping auparavant et que le pourcentage calculé est supérieur au seuil haut (high), Shinken Enterprise considère que l'élément vient juste de passer en flapping.
- si l'élément était précédemment en flapping et que le pourcentage calculé est inférieur au seuil bas (low), Shinken Enterprise considère que l'élément vient juste de s'arrêter d'être en flapping.
Paramétrage du flapping
Le paramétrage du flapping s'effectue dans la page d'édition d'un élément (Hôte, Cluster et Check) dans l'interface de Configuration.
Seuils de détection du flapping
Dans l'onglet "Expert", il y a 4 propriétés liés au flapping :
| Nom de la propriété | Description |
|---|---|
| Détection du FLAPPING activée | Permet d'activer ou désactiver la détection du Flapping |
| Options de détection du FLAPPING | Cette propriété permet de définir quel statut d'un hôte est pris en compte pour le calcul du % de FLAPPING. |
| Sortie du Contexte FLAPPING | Permet de définir le seuil de sortie du flapping. La valeur par défaut est de 25%. |
| Entrée du Contexte FLAPPING | Permet de définir le seuil de entrée du flapping. La valeur par défaut est de 50%. |
| Panel |
|---|
Modification des valeurs par défaut des seuils
Les valeurs par défaut des seuils d'entrée et sortie du flapping sont modifiable dans le fichier /etc/shinken/shinken.cfg sur le serveur où sont installés l'Arbiter et le Synchronizer. Il est possible de spécifier des valeurs différentes entre un hôte/cluster et un check.
Pour un hôte :
low_host_flap_threshold=<percent>
high_host_flap_threshold=<percent>
Pour check :
low_service_flap_threshold=<percent>
high_service_flap_threshold=<percent>
Shinken Enterprise utilise plusieurs variables afin de déterminer le seuil de pourcentage définissant l'état de flapping.
Ces seuils hauts et bas que vous pouvez configurer, sont définis au niveau spécifique d'un hôte et d'un check.
Cet impression écran montre les variables qui contrôlent les seuils utilisées dans la détection du flap pour un hôte :
Traitement du flapping
Lorsqu'un élément est fraîchement détecté comme étant en flapping, Shinken Enterprise va:
- logguer un message indiquant que l'élément est en flapping .
- envoyer une notification d'alerte de début de flapping aux contacts appropriés.
- supprimer toutes les autres notifications sur l'élément
Lorsqu'un élément cesse d'être en flapping, Shinken Enterprise va:
- logguer un message indiquant que l'élément n'est plus en flapping.
- envoyer une notification de fin de flapping aux contacts appropriés
- reprendre les notifications pour cet élément
Activer la détection de flapping
Afin de l'activer dans Shinken Enterprise, vous devrez:
- paramétrer enable_flap_detection à 1 dans le fichier de configuration central (/etc/shinken/shinken.cfg sur le serveur où sont installés l'Arbiter et le Synchronizer, dans la configuration livrée).
paramétrer sur "Vrai" le paramètre "Détection du FLAPPING activée" dans la définition de l'hôte ou du check.
Panel
Changer les seuils de détection du flapping
Afin de change les seuils d'entrée/sortie de l'état flapping dans Shinken Enterprise , vous devrez:
- Changer le paramètre "Sortie du Contexte FLAPPING" option à la valeur désirée. La valeur par défaut est de 25%
- Changer le paramètre "Entrée de Contexte FLAPPING" option à la valeur désirée. La valeur par défaut est de 50%
Modification des valeurs par défaut
Les valeurs par défaut pour le flapping sont définies dans le fichier de configuration central de Shinken Enterprise (/etc/shinken/shinken.cfg sur le serveur où sont installés l'Arbiter et le Synchronizer, dans la configuration livrée) avec les paramètres suivants :
- Pour les hôtes :
- low_host_flap_threshold détermine le seuil de sortie du contexte flapping
- high_host_flap_threshold détermine le seuil d'entrée du contexte flapping
- Pour les services :
- low_service_flap_threshold détermine le seuil de sortie du contexte flapping
- high_service_flap_threshold détermine le seuil d'entrée du contexte flapping




