| Scroll Ignore |
|---|
| scroll-pdf | true |
|---|
| scroll-office | true |
|---|
| scroll-chm | true |
|---|
| scroll-docbookhtml | truefalse |
|---|
| scroll-eclipsehelpdocbook | true |
|---|
| scroll-epubeclipsehelp | true |
|---|
| scroll-htmlepub | true |
|---|
|
|
Le check Broker - $KEY$ - Module Event Manager Writer permet de superviser la partie écriture du module Event Manager ( voir la page Module event-manager-writer ) au niveau du démon Broker (voir la page Le Broker )Livedata affiche les statistiques des requêtes effectuées comme :
- le nombre de requêtes effectuées sur la dernière heure,
- et le temps de réponse moyen des requêtes.
| Panel |
|---|
Image Removed Image Added
|
Le check utilise la ligne de commande suivante :
| Code Block |
|---|
|
$PLUGINSDIR$/check_shinken_module_event_manager_writer.py -H "$HOSTADDRESS$" -p "$ARG1$$ARG2$"
--shinkenversion "$SHINKENVERSION$" -t broker
-m $ARG1$ -n $ARG3$ --livedata_warning "$_HOSTLIVEDATA_WARNING$" --livedata_error_displayed_limit "$_HOSTLIVEDATA_HOSTMINUTESDISPLAYED_OFERROR_STATS$LIMIT$"
--timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$" |
Données utilisées provenant du modèle
Provenant du modèle shinken-daemon
| Excerpt Include |
|---|
| Modèle shinken-daemon |
|---|
| Modèle shinken-daemon |
|---|
| nopanel | true |
|---|
|
Données
communes pour les checks du modèlespécifiques pour ce check
| Excerpt |
|---|
| Scroll Title |
|---|
| anchor | data_for_check_sup_de_sup |
|---|
| title | |
|---|
| |
|
sur| sur | Unité | Défaut | Valeur par défaut à l'installation de Shinken | Description |
|---|
|
|
|
CHECKSHINKEN_TIMEOUTlHôte3 | 3 | Temps maximum durant lequel les checks peuvent s'exécuter ( en secondes ). | Données spécifiques pour ce check
| --- | 1 | 1 | Permet de ne pas mettre le check en avertissement si des requêtes sont en erreur ou qu'il y a un avertissement lié à un problème de configuration. - 0 = désactive les avertissements
- 1 = active les avertissements
| | No Format |
|---|
LIVEDATA_DISPLAYED_ERROR_LIMIT |
| L'hôte ( Onglet Données ) | --- | 5 | 5 | Détermine le nombre limite des derniers retours d'erreur affichés dans le résultat long. | | No Format |
|---|
LIVEDATA_MODULE_NAME |
| L |
|
|
| Nom | Modifiable sur | Unités | Défaut | Valeur par défaut à l'installation de Shinken | Description |
|---|
| No Format |
|---|
MINUTES_OF_STATS |
| Modèle d'hôte ( Onglet Données ) | --- | broker-module-livedata |
|
|
1 | 1 | Nombre des X dernières minutes utilisées pour calculer les statistiques| broker-module-livedata | Nom du module livedata à superviser ( remplace $ARG3$ dans la commande ) |
|
|
Les données DFE ( Duplicate Foreach )
| Excerpt Include |
|---|
| Modèle shinken-broker-module-event-manager-writerlivedata |
|---|
| Modèle shinken-broker-module-event-manager-writerlivedata |
|---|
| nopanel | true |
|---|
|
Données utilisées provenant du check
Pas de données spécifiques pour ce check.
| Excerpt Include |
|---|
| Documentation sur les packs de supervision |
|---|
| Documentation sur les packs de supervision |
|---|
| nopanel | true |
|---|
|
| Excerpt Include |
|---|
| Mise en place du Pack windows |
|---|
| Mise en place du Pack windows |
|---|
| nopanel | true |
|---|
|
| Panel |
|---|
Image Removed Image Added
|
Il peut prendre deux valeurs OK / ATTENTION / INCONNU .
Les vérifications spécifiques
Situation | Statut |
|---|
Le Broker est en cours d'arrêt | ATTENTION |
Si la sonde n'a pas eu de réponse avant le temps maximum - Si supérieur à CHECK_SHINKEN_TIMEOUT ( par défaut : 3 sec )
| INCONNU |
Renvoi au format texte :
- Si le module fonctionne correctement
- statistique du nombre d'événements géré dans la dernière minute
Le Pas de résultat long donne le détail des informations traitées par le module.
La partie Global contient :
- Le nombre d'éléments gérés par le module event manager
- Un résumé sur la dernière minute de l'activité du module ( voir ci-dessus : Description du résultat )
Les parties Worker contient par worker :
- Le nombre d'éléments gérés par workers
- Un résumé de l'activité sur worker
- La charge du worker : C'est à dire le temps que le worker a effectivement travaillé sur la dernière minute
- Exemple : si sur la dernière minute le module a reçu 5000 broks et qu'il a mis 10ms par broks cela fera ( 5000 * 0.01 ) / 60 = 0.83 soit 83% de charge.
La partie Database contient :
- Le nombre de jours durant lequel sont gardés les événements. Au-delà de cette limite, les événements sont supprimés.
- Le nombre d'événements sauvegardés et la taille de la base.
- Date du dernier événement sauvegardé.
pour ce check.
Description Description des erreurs
Le Broker est en cours d'arrêt
Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles
| Panel |
|---|
Image Removed Image Added
|
En plus de donner les statistiques de requêtes, le check affiche le nombre de requêtes en erreur sur la dernière heure avec dans la colonne résultat long, les retours d'erreur des dernières requêtes n'ayant pas réussi à s'effectuer.
Cela permet à l'utilisateur de voir si toutes les requêtes sont correctement effectuées et de voir quel est la nature des dernières erreurs. L'affichage des retours d'erreur est paramétrable via la donnée LIVEDATA_DISPLAYED_ERROR_LIMIT ( voir ci-dessous ).
Ci-contre, il y a une requête en erreur, car il n'y a soit aucun token donné, soit que le token donné au moment de la requête n'est pas le bon.
| Panel |
|---|
Image Added
|
Le check affiche aussi les informations liées à la configuration du module et les éventuelles erreurs de configuration. Comme dans l'exemple ci-contre où le token du module n'a pas été changer lors de la configuration du module et utilise toujours celui par défaut.
Le check informe sur quel type de connexion sont les requêtes sont effectuées HTTP ou HTTPS.
| Panel |
|---|
Image Added
|
| Scroll Title |
|---|
| anchor | parameter_check_metrics |
|---|
| title | |
|---|
|
|
| Nom | Unité | Description |
|---|
| No Format |
|---|
| worker_[X]_load_in_last_min |
| --- | Charge du worker, entre 0 et 1. |
| No Format |
|---|
| worker_[X]_event_write_in_last_min |
| --- | Nombre d'événements écrits sur la dernière minute par le worker. |
| No Format |
|---|
| worker_[X]_brok_handle_in_last_min |
| --- | Nombre de broks traités sur la dernière minute par le worker. |
| No Format |
|---|
| global_event_write_in_last_min |
| --- | Nombre total d'événements écrits sur la dernière minuteglobalbrokhandle_in_last_min--- | Nombre total de broks traités sur la dernière minute | seconde | Temps moyen des réponses | |
|
totalbasesizeoctetTaille de la basePourcentage de requêtes en erreur | |
|
total_event_numberlivedata_nb_error_last_hour |
| --- | Nombre |
|
total d'événements en basede requêtes en erreur sur la dernière heure | |
|
total_element |
--- | Nombre total d'éléments gérés | Durant les 30 premiers jours d'activité du module, il est grandement recommandé de surveiller la taille de la base ( avec la métrique : total_base_size ), car la taille de la base ne fera que monter durant cette période.
Si la taille de la base se rapproche trop vite de la limite de votre disque, vous pouvez réduire le nombre de jours sauvegardés à l'aide de la clé : day_keep_data situé dans le fichier /etc/shinken/modules/ event_manager_writer.cfg ou augmenter la capacité de votre disque.
Passé cette période, Shinken ne gardera que le x dernier jour défini par la clé day_keep_data afin de limiter la taille de la base.
| Warning |
|---|
Une augmentation du nombre d'éléments supervisés fera grandir la taille de la base. |
livedata_nb_request_last_hour |
| --- | Nombre de requêtes traité sur la dernière heure |
|
Gestion du nombre d'événement écrits et du nombre de brok gérés
Le nombre d'événements doit être sensiblement inférieur au nombre de brok gérés, c'est pourquoi il faut surveiller les métriques global_brok_handle_in_last_min et global_event_write_in_last_min, car si ces deux métriques sont proches cela signifie qu'à chaque vérification, vos éléments changent d'état et donc que tous les éléments supervisés ont un contexte "flapping".
Pour ajouter un worker, il suffit de modifier la clé broker_module_nb_workers dans /etc/shinken/modules/event_manager_writer.cfg en augmentant ou diminuant le nombre de worker utilisé.
Chaque worker ajouté utilisera un CPU sur le serveur où se situe le démon Broker. Ajouter ou diminuer le nombre de worker permet de mieux répartir la charge de travailler pour les autres worker.
Gestion de la charge des workers
| Conditions | Origine | Solution |
|---|
Si les métriques total_event_number, global_event_write_in_last_min, global_brok_handle_in_last_min et worker_[X]_load_in_last_min croissent et que le temps de traitement des broks devient élevé
Il est probable que le nombre d'éléments supervisés a augmenté | Il est alors conseillé d'augmenter le nombre de worker utilisés. | Si la métrique total_event_number est stable, mais que la métrique global_brok_handle_in_last_min monte | Il est probable que vous avez changé le check intervalle sur vos checks | Surveiller la charge des workers et ajouter un si besoin. |
Si la métrique global_brok_handle_in_last_min est stable, mais que la métrique global_event_write_in_last_min monte
C'est que votre infrastructure passe une période d'instabilité (mise à jour sur les serveurs, changement de switch ...) | Surveiller la charge des workers et la taille de la base. Si le problème est temporaire, la charge du worker va retrouver un niveau stable. | Si les métriques global_brok_handle_in_last_min et global_event_write_in_last_min sont stables, mais que la métrique worker_[X]_load_in_last_min monte | Il est possible que machine qui exécute Shinken a un problème (swap, stealing CPU ...) | Dans ce cas, lancer la commande shinken-healthcheck ( voir la page Shinken-healthcheck - Vérifier le bon fonctionnement de Shinken Entreprise ) puis la commande top afin de vérifier l'état de votre infrastructure Shinken et des performances du serveur.