Introduction au Flapping

Shinken Enterprise permet de détecter, en option, les hôtes et services en état flapping. Celui-ci arrive quand l'état de l'élément change trop souvent, envoyant beaucoup trop de notifications d'alertes et de reprises successives. Le flapping peut être caractéristique de problèmes de configuration (i.e. seuils trop bas par exemple), ou de vrais problèmes réseaux.

Quand un élément passe en flapping, toutes ses notifications sont interrompues afin de ne pas submerger les utilisateurs, jusqu'à ce qu'il revienne dans un état stable (qu'il soit OK/UP ou DOWN/CRITICAL).

Comment ça fonctionne

A chaque fois que Shinken Enterprise vérifie le statut d'un hôte ou d'un check, il commence par vérifier si l'élément a commencé ou vient d'arrêter d'être en Flapping. Il le fait de la façon suivante :

Un élément est vu comme ayant démarré le flapping quand son pourcentage de changement d'états dépasse pour la première fois le seuil haut de flapping.

Un élément est vu comme ayant arrété le flapping quand son pourcentage descend en dessous du seuil bas de flapping. (en assumant qu'il était précédemment en train de faire du flapping)

Exemple


Voyons la mécanique plus en détail avec un check.

Cette image illustre l'historique de l'état d'un service sur les 21 derniers checks. Les états OK sont en vert, WARNING en jaune, CRITICAL en rouge, et UNKNOWN en orange.

 

 

Les résultats de la vérification de l'historique sont examinées afin de déterminer où les changements d'état / transitions se produisent. Les changements d'état se produisent quand un état est différent de l'état qui le précède immédiatement. Comme nous conservons les résultats des 21 derniers contrôles de service dans le réseau, il y a une possibilité d'avoir au moins 20 changements d'état.

Dans cet exemple, il y a 7 changements d'état indiqués par les flèches bleues dans l'image ci-dessus.

La logique de détection de Flapping utilise le changement d'état pour déterminer le pourcentage de changement de l'élement. C'est une mesure de volatilité du check.

Note: Dans l'algorithme de calcul, un poids plus important sera donné aux derniers résultats par rapport aux plus anciens. 

 

Par exemple, prenons le cas d'un pourcentage calculé de 31%. Il va être comparé aux seuils définis :

 

Seuils de détection du flapping 

Shinken Enterprise utilise plusieurs variables afin de déterminer le seuil de pourcentage définissant l'état de flapping.

Ces seuils hauts et bas que vous pouvez configurer, sont définis au niveau spécifique d'un hôte et d'un check.

Cet impression écran montre les variables qui contrôlent les seuils utilisées dans la détection du flap pour un hôte :



Traitement du flapping


Lorsqu'un élément est fraîchement détecté comme étant en flapping, Shinken Enterprise va:

Lorsqu'un élément cesse d'être en flapping, Shinken Enterprise va:

Activer la détection de flapping


Afin de l'activer dans Shinken Enterprise, vous devrez:

Changer les seuils de détection du flapping


Afin de change les seuils d'entrée/sortie de l'état flapping dans Shinken Enterprise , vous devrez: