Une fois sur l'hôte, le modèle va crée un check shinken-broker-module-event-manager-writer pour chaque webui présent sur le démon Broker sur l'élément supervisé.
Ce check permet de supervisé la partie écriture du module Event manager au niveau du démon broker.
Le résultat du check donne le statut de l'écriture des données de l'event manager.
Le résumé sur la dernière minute contient :
Les broks sont les informations de chaque vérification envoyée par le Scheduler au Broker |
Le résultat long donne le détail des informations traitées par le module.
La partie Global contient :
Les parties Worker contient par worker :
La partie Database contient :
Voici les métriques disponibles :
| Nom de la métrique | Description |
|---|---|
| worker_[X]_load_in_last_min | Charge du worker, entre 0 et 1. |
| worker_[X]_event_write_in_last_min | Nombre d'événements écrits sur la dernière minute par le worker. |
| worker_[X]_brok_handle_in_last_min | Nombre de broks traités sur la dernière minute par le worker. |
| global_event_write_in_last_min | Nombre total d'événements écrits sur la dernière minute |
| global_brok_handle_in_last_min | Nombre total de broks traités sur la dernière minute |
| total_base_size | Taille de la base en octet |
| total_event_number | Nombre total d'événements en base |
| total_element | Nombre total d'éléments gérés |
Durant les 30 premiers jours d'activité du module, il est grandement recommandé de surveiller la taille de la base (avec la métrique : total_base_size), car la taille de la base ne fera que monter durant cette période.
Si la taille de la base se rapproche trop vite de la limite de votre disque, vous pouvez réduire le nombre de jours sauvegardés à l'aide de la clé : day_keep_data situé dans le fichier /etc/shinken/modules/event_manager_writer.cfg ou augmenter la capacité de votre disque.
Passé cette période, Shinken ne gardera que le x derniers jours définie par la clé day_keep_data afin de limité la taille de la base.
Une augmentation du nombre d'éléments supervisés fera grandir la taille de la base. |
Le nombre d'événements doit être sensiblement inférieur au nombre de brok gérés, c'est pourquoi il faut surveiller les métriques global_brok_handle_in_last_min et global_event_write_in_last_min, car si c'est deux métriques sont proches cela signifie qu'à chaque vérifications, vos éléments changent d'état et donc que tout les éléments supervisés sont en flapping.
Pour ajouter un worker, il suffit de modifier la clé broker_module_nb_workers dans /etc/shinken/modules/event_manager_writer.cfg en augmentant ou diminuant le nombre de worker utilisé. Chaque worker ajouté utilisera un CPU sur le serveur où se situe le démon Broker. Ajouter ou diminuer le nombre de worker permet de mieux répartir la charge de travailler pour les autres worker.
| Conditions | Origine | Solution |
|---|---|---|
| Si les métrique total_event_number, global_event_write_in_last_min, global_brok_handle_in_last_min et worker_[X]_load_in_last_min croissent et que le temps de traitement des broks devient élevé | Il est probable que le nombre d'éléments supervisés ont augmentés | Il est alors conseillé d'augmenter le nombre de worker utilisés. |
| Si la métrique total_event_number est stable mais que la métrique global_brok_handle_in_last_min monte | Il est probable que vous avez changé le check intervalle sur vos checks | Surveiller la charge des workers et ajouter un si besoin. |
| Si la métrique global_brok_handle_in_last_min est stable mais que la métrique global_event_write_in_last_min monte | C'est que votre infrastructure passe une période d'instabilité (mise à jour sur les serveurs, changement de switch ...) | Surveiller la charge des workers et la taille de la base. Si le problème est temporaire la charge du worker va retrouver un niveau stable |
| Si la métrique global_brok_handle_in_last_min et global_event_write_in_last_min sont stable mais que la métrique worker_[X]_load_in_last_min monte | Il est possible que machine qui exécute Shinken a un problème (swap, stealing CPU ...) | Dans ce cas, lancer la commande shinken-healthcheck puis top afin de vérifier l'état de votre infrastructure shinken et des performance du serveur. |