Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Broker - $KEY$ - Module Livedata affiche les statistiques des requêtes effectuées comme :

  • le nombre de requêtes
effectués
  • effectuées sur la dernière heure
ou bien
  • ,
  • et le temps de réponse moyen des requêtes.
Panel

Image RemovedImage Added

Paramétrage

Le check utilise la ligne de commande suivante :

Code Block
languagetext
themeEmacs
$PLUGINSDIR$/check_shinken -H "$HOSTADDRESS$"  -p "$ARG2$" --shinkenversion "$SHINKENVERSION$" -t broker 
-m $ARG1$ -n $ARG3$ --livedata_warning "$_HOSTLIVEDATA_WARNING$" --livedata_error_displayed_limit "$_HOSTLIVEDATA_DISPLAYED_ERROR_LIMIT$" 
--timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$"

Les données

Données utilisées provenant du modèle

Données communes pour les checks

Provenant du modèle

shinken-daemon


Excerpt Include
Modèle shinken-daemon
Modèle shinken-daemon
nopaneltrue


Données spécifiques pour ce check

Excerpt
Scroll Title
anchordata_for_check_sup_de_sup
title

Nom

Modifiable sur

Défaut

Valeur par défaut à l'installation de Shinken

Description

CHECK_SHINKEN_TIMEOUT

l'Hôte

( Onglet Données )

3 3

Temps maximum durant lequel les checks peuvent s'exécuter (  en secondes  ).

Données spécifiques pour ce check
NomModifiable sur 
Unités
UnitéDéfautValeur par défaut à l'installation de ShinkenDescription
No Format
LIVEDATA_WARNING
Modèle d

 L'hôte

( Onglet Données )

---11

Permet de ne pas mettre le check en avertissement si des requêtes sont en erreur ou qu'il y a un avertissement lié à un problème de configuration. 

  • 0 = désactive les avertissements
et
  • 1 = active
les avertissements
  • les avertissements
No Format
LIVEDATA_DISPLAYED_ERROR_LIMIT
Modèle d

L'hôte

( Onglet Données )

---55

Détermine le nombre limite des

dernières

derniers retours d'erreur affichés dans le résultat long.

No Format
LIVEDATA_MODULE_NAME
Modèle d

L'hôte

( Onglet Données )

---broker-module-livedatabroker-module-livedata

Nom du module livedata à superviser

(

replace

remplace $ARG3$ dans la commande

 

)

Les données DFE ( Duplicate Foreach )

 

Excerpt Include
Modèle shinken-broker-module-livedata
Modèle shinken-broker-module-livedata
nopaneltrue

Données utilisées provenant du check

Pas de données spécifiques pour ce check.

Données globales

Excerpt Include
Documentation sur les packs de supervision
Documentation sur les packs de supervision
nopaneltrue

Propriétés de l'hôte

Excerpt Include
Mise en place du Pack windows
Mise en place du Pack windows
nopaneltrue

Résultat

Exemple

Panel

Image RemovedImage Added

Interprétation

Statut

Il peut prendre deux valeurs  OK / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
    • CHECK_SHINKEN_TIMEOUT

  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Les vérifications spécifiques

Situation

Statut

Le Broker est en cours d'arrêt

ATTENTION

Si la sonde n'a pas eu de réponse avant le temps maximum

  • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
INCONNU

Résultat

Renvoi au format texte : 

  • Si le module fonctionne correctement
  • statistique du nombre d'événements géré dans la dernière minute

Résultat Long

Pas de résultat long pour ce check.

Description des erreurs

Le Broker est en cours d'arrêt

Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

Panel

Image Added

Cas supplémentaire

En plus de donner les statistiques de requêtes, le check affiche le nombre de requêtes en erreur sur la dernière heure avec dans la colonne résultat long, les retours d'erreur des dernières requêtes n'ayant pas réussi à s'effectuer. 

Cela permet à l'utilisateur de voir si toutes les requêtes sont correctement effectuées et de voir quel est la nature des dernières erreurs. L'affichage des retours d'erreur est paramétrable via la donnée LIVEDATA_DISPLAYED_ERROR_LIMIT ( voir ci-dessous ).

Ci-contre, il y a une requête en erreur, car il n'y a soit aucun token donné, soit que le token donné au moment de la requête n'est pas le bon.

Panel

Image Removed

Image Added

Le check affiche aussi les informations liées à la configuration du module et les éventuelles erreurs de configuration. Comme dans l'exemple ci-contre où le token du module n'a pas été changer lors de la configuration du module et utilise toujours celui par défaut.

Le check informe sur quel type de connexion sont les requêtes sont effectuées HTTP ou HTTPS.

Panel

Image Added

Métriques

Scroll Title
anchorparameter_check_metrics
title
Métriques
NomUnitéDescription
No Format
languagetext
themeEmacs
livedata_average_response_time
seconde

Temps moyen des réponses

No Format
languagetext
themeEmacs
livedata_error_percent
%

Pourcentage de requêtes en erreur

No Format
languagetext
themeEmacs
livedata_nb_error_last_hour
---

Nombre de requêtes en erreur sur la dernière heure

No Format
languagetext
themeEmacs
livedata_nb_request_last_hour
---

Nombre de requêtes traité sur la dernière heure

Comment interpréter les données des métriques

Taille de la base

Durant les 30 premiers jours d'activité du module, il est grandement recommandé de surveiller la taille de la base ( avec la métrique : total_base_size ), car la taille de la base ne fera que monter durant cette période. 
Si la taille de la base se rapproche trop vite de la limite de votre disque, vous pouvez réduire le nombre de jours sauvegardés à l'aide de la clé : day_keep_data situé dans le fichier /etc/shinken/modules/ event_manager_writer.cfg ou augmenter la capacité de votre disque.

Passé cette période, Shinken ne gardera que le x dernier jour défini par la clé day_keep_data afin de limiter la taille de la base.

Warning

Une augmentation du nombre d'éléments supervisés fera grandir la taille de la base. 

Gestion du nombre d'événement écrits et du nombre de brok gérés

Le nombre d'événements doit être sensiblement inférieur au nombre de brok gérés, c'est pourquoi il faut surveiller les métriques  global_brok_handle_in_last_min et global_event_write_in_last_min, car si ces deux métriques sont proches cela signifie qu'à chaque vérification, vos éléments changent d'état et donc que tous les éléments supervisés ont un contexte "flapping".

Gestion des workers

Ajout d'un worker 

Pour ajouter un worker, il suffit de modifier la clé broker_module_nb_workers dans /etc/shinken/modules/event_manager_writer.cfg en augmentant ou diminuant le nombre de worker utilisé. 
(warning)  Chaque worker ajouté utilisera un CPU sur le serveur où se situe le démon Broker.  Ajouter ou diminuer le nombre de worker permet de mieux répartir la charge de travailler pour les autres worker.

Gestion de la charge des workers

ConditionsOrigineSolution

Si les métriques total_event_number, global_event_write_in_last_min, global_brok_handle_in_last_min et worker_[X]_load_in_last_min croissent et que le temps de traitement des broks devient élevé

Il est probable que le nombre d'éléments supervisés a augmenté

Il est alors conseillé d'augmenter le nombre de worker utilisés.

Si la métrique total_event_number est stable, mais que la métrique global_brok_handle_in_last_min monte

Il est probable que vous avez changé le check intervalle sur vos checks

Surveiller la charge des workers et ajouter un si besoin.

Si la métrique global_brok_handle_in_last_min est stable, mais que la métrique global_event_write_in_last_min monte

C'est que votre infrastructure passe une période d'instabilité (mise à jour sur les serveurs, changement de switch ...)

Surveiller la charge des workers et la taille de la base. Si le problème est temporaire, la charge du worker va retrouver un niveau stable.

Si les métriques global_brok_handle_in_last_min et global_event_write_in_last_min sont stables, mais que la métrique worker_[X]_load_in_last_min monte

Il est possible que machine qui exécute Shinken a un problème (swap, stealing CPU ...)Dans ce cas, lancer la commande shinken-healthcheck ( voir la page  Shinken-healthcheck - Vérifier le bon fonctionnement de Shinken Entreprise ) puis la commande top afin de vérifier l'état de votre infrastructure Shinken et des performances du serveur.