...
Shinken Enterprise permet de détecter, en option, les hôtes et services en état flapping. Celui-ci arrive quand l'état de l'élément change trop souvent, envoyant beaucoup trop de notifications de d'alertes /et de reprises successives. Le flapping peut être caractéristique de problèmes de configuration (i.e. seuils trop bas par exemple), ou de vrais problèmes de réseau.
réseaux.
Quand un élément passe en flapping, toutes ses notifications sont interrompues afin de ne pas submerger les utilisateurs, jusqu'à ce qu'il revienne dans un état stable (qu'il soit OK/UP ou DOWN/CRITICAL).
Comment ça fonctionne
A chaque fois que Shinken Enterprise vérifie le statut d'un hôte ou d'un servicecheck, il commence par vérifier si l'élément a commencé ou vient d'arrêter d'être en Flapping. Il le fait de la façon suivante :.
- Stockage des résultats des 21 derniers checks
- Analyse de l'historique des résultats et détermination du moment où l'état à changéde quand les changements d'états et de transitions arrivent
- Détermination du pourcentage de changement d'état
- Comparaison de ce taux avec les valeurs définies comme seuils seuils haut/bas de flapping pour entrer/sortir de l'état flapping.
Un élément est vu comme ayant démarré le flapping quand son pourcentage de changement d'états dépasse pour la première fois le seuil haut de flapping.
Un élément est vu comme ayant arrété le flapping quand son pourcentage descend en dessous du seuil bas de flapping. (en assumant qu'il était précédemment en train de faire du flapping)
Exemple
Voyons la mécanique plus en détail avec un check.
...
Les résultats de la vérification de l'historique sont examinées afin de déterminer où les changements d'état / transitions se produisent. Les changements d'état se produisent quand un état archivé est différent de l'état archivé qui le précède immédiatement chronologiquement . Comme nous conservons les résultats des 21 derniers contrôles de service dans le réseau, il ya y a une possibilité d'avoir au moins 20 changements d'état. La valeur 20 peut être modifiée dans le fichier de configuration principal .
Dans cet exemple, il y a 7 changements d'état , indiqués par les flèches bleues dans l'image ci-dessus.
La logique de détection de Flapping utilise le changement d'état pour déterminer le pourcentage global du checkde changement de l'élement. C'est une mesure de volatilité du servicecheck.
- Les
...
- checks qui ne changent jamais d'état sont à 0%,
- alors que ceux qui changent à chaque
...
- vérification seront à 100%.
Note: Dans l'algorithme de calcul, un poids plus important sera donné aux derniers résultats par rapport aux plus anciens. En règle générale, on fait en sorte que les derniers résultats pèsent pour 50% du total . SEn utilisant l'image ci-dessus, faisons un calcul de pourcentage. Dans cet exemple, il y a 7 changements d'état sur les 21 derniers checks. (à t3, t4, t5, t9, t12, t16, et t19). Sans pondération, le pourcentage moyen serait de 35%:
(7 changements observés/20 possibles ) * 100 = 35 %
Sachant que la logique de détection va donner une valeur plus élevée au dernier changement, le pourcentage retenu sera légèrement inférieur à 35% dans cet exemple, autour de 31% .
Par exemple, prenons le cas d'un pourcentage calculé de 31%. Il va être Le pourcentage calculé pour le service (31%) sera comparé aux seuils définis :
- si le service l'élément n'était pas en état flapping auparavant et que le pourcentage calculé est supérieur au seuil supérieurhaut (high), Shinken Enterprise considère que le service l'élément vient juste de passer en flapping.
- si le service l'élément était précédemment en flapping et que le pourcentage calculé est inférieur au seuil inférieurbas (low), Shinken Enterprise considère que le service l'élément vient juste de s'arrêter d'être en flapping.
...
Shinken Enterprise vérifie si un service est en flapping à chaque vérification (que ce soit un check actif ou passif).
La logique de détection est la même que celle décrite ci-dessus .
Détection de flapping pour les hôtes
La détection de flapping des hôtes fonctionne de façon similaire à celle d'un service, à une différence importante près : Shinken Enterprise va tenter de détecter si un hôte est en flapping à chaque fois que :
* l'hôte est vérifié (activement ou passivement )
* parfois quand le service qui est associé à cet hôte est vérifié, et que x temps est passé depuis la dernière détection de flapping ou x est égal à l'intervalle moyen de vérification de tous les services. .
Seuils de détection du flapping
Shinken Enterprise utilise plusieurs variables afin de déterminer le seuil de pourcentage définissant l'état de flapping.
Ces seuils hauts et bas que vous pouvez configurer, sont définis à la fois au niveau global et au niveau spécifique d'un hôte et d'un service. Les seuils globaux sont utilisés si aucun seuil spécifique n'a été défini.
Etats utilisés pour la détection de flapping.
check.
Cet impression écran montre les variables qui contrôlent les seuils utilisées dans la détection du flap pour un hôte :
Normalement, Shinken Enterprise va tracer les résultats des 21 derniers checks de l'hôte ou du service, quelque soit le résultat de ce check . Vous pouvez cependant exclure certains états de la logique de détection de flapping en utilisant le paramètre "flap_detection_options" dans la definition de l'hôte ou du service. Cela permet de définir quels états sont utilisés pour cette détection (i.e. "UP, "DOWN", "OK, "CRITICAL") Si cela n'est pas spécifié, tous les états seront utilisés.
Traitement du flapping
Lorsqu'un service ou un hôte élément est fraîchement détecté comme étant en flapping, Shinken Enterprise va:
- logguer un message indiquant que le service ou l'hôte élément est en flapping .
- ajouter un commentaire éphémère à l'hôte indiquant qu'il est en flapping.
- envoyer une notification d'alerte de début de flapping aux contacts appropriés.
- supprimer toutes les autres notifications sur l'hôte ou le serviceélément
Lorsqu'un service ou un hôte élément cesse d'être en flapping, Shinken Enterprise va:
- logguer un message indiquant que le service ou l'hôte élément n'est plus en flapping.
- supprimer le commentaire éphémère à l'hôte indiquant qu'il est en flapping.
- envoyer une notification de fin de flapping aux contacts appropriéappropriés
- reprendre les notifications pour cet élémentdéplacer le bloc de notifications (les notifications seront toujours liées à ref:`notification logic <thebasics/notifications>`).
Activer la détection de flapping
...
- paramétrer enable_flap_detection à 1 dans le fichier de configuration configuration central.
- paramétrer sur "trueTrue" le paramètre "Flap Detection Enabled" dans la définition de l'hôte ou du servicecheck.
Si vous souhaitez désactiver la détection à un niveau global, mettant le paramètre "enable_flap_detection" à 0. Idem si vous souhaitez le faire à un b=niveau spécifique sur un hôte ou un service.
Changer les seuils de détection du flapping
Afin de change les seuils d'entrée/sortie de l'état flapping dans Shinken Enterprise , vous devrez:
- Changer le paramètre Low Flap % option à la valeur désirée. La valeur par défaut est de 25%
- Set the High Flap % option à la valeur désirée. La valeur par défaut est de 50%


