Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Broker - $KEY$ - Module Event Manager Writer permet de superviser la partie écriture du module SLA Event Manager ( voir la page Module event-manager-writer ) au niveau du démon  démon Broker (  voir la page   Le Broker  ).

Panel

Image RemovedImage Added

Paramétrage

Le check utilise la ligne de commande suivante :

Scroll Title
title
Code Block
languagetext
themeEmacs
$PLUGINSDIR$/check_shinken_module_
sla
event_manager_writer.py -H "$HOSTADDRESS$" -p "$ARG1$" --shinkenversion "$SHINKENVERSION$" 
-m "$_HOSTMINUTES_OF_STATS$
" --workerwarning "$_HOSTWORKER_WARNING$
" --
workercritical "$_HOSTWORKER_CRITICAL$" --storagewarning "$_HOSTSTORAGE_WARNING$" --storagecritical "$_HOSTSTORAGE_CRITICAL$" --
timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$"



Données utilisées provenant du modèle

Données communes pour les checks du modèle

Provenant du modèle shinken

Nom

Modifiable sur

Défaut

Valeur par défaut à l'installation de Shinken

Description

CHECK_SHINKEN_TIMEOUT

l'Hôte

( Onglet Données )

3 3 Temps maximum durant lequel les checks peuvent s'exécuter (  en secondes  ).

Excerpt Include
Modèle shinken
Modèle shinken
nopaneltrue

Provenant du modèle shinken-broker-module-event-manager-writer

Excerpt Include
Le Broker
Le Broker
nopaneltrue

Données spécifiques pour ce check

Excerpt
Scroll Title
anchordata_for_check_sup_de_sup
title
NomModifiable sur 
Unités
UnitéDéfautValeur par défaut à l'installation de ShinkenDescription
No Format
MINUTES_OF_STATS
Modèle d

l'

hôte
No Format
WORKER_WARNING

Modèle d'hôte

( Onglet Données )

%4040

Seuil d’avertissement pour la charge d’un Worker

No Format
WORKER_CRITICAL

Modèle d'hôte

( Onglet Données )

%8080

Seuil de critique pour la charge d’un Worker

No Format
STORAGE_WARNING

Modèle d'hôte

( Onglet Données )

MB0 ( inactif )0 ( inactif )

Seuil d’avertissement pour la taille de stockage

No Format
STORAGE_CRITICAL

Modèle d'hôte

( Onglet Données )

MB0 ( inactif )0 ( inactif )

Seuil de critique pour la taille de stockage

Les données DFE ( Duplicate Foreach )

 

Excerpt Include
Modèle shinken-broker-module-event-visualisationmanager-uiwriter
Modèle shinken-broker-module-event-visualisationmanager-uiwriter
nopaneltrue

Données utilisées provenant du check

Pas de données spécifiques provenant du check pour ce check.

Données globales

Excerpt Include
Documentation sur les packs de supervision
Documentation sur les packs de supervision
nopaneltrue

Propriétés de l'hôte

Excerpt Include
Mise en place du Pack windows
Mise en place du Pack windows
nopaneltrue

Résultat

Exemple

Panel

Image RemovedImage Added

Interprétation

Statut

Il peut prendre deux valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
    • WORKER_CRITICAL
    • WORKER_WARNING
    • STORAGE_CRITICAL
    • STORAGE_WARNING
    • CHECK_SHINKEN_TIMEOUT

  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Les vérifications spécifiques

En fonction de la taille stockage :

Si c'est supérieur à STORAGE_WARNING ( par défaut : 0 ( inactif )) ATTENTION

Situation

Statut

En fonction du pourcentage de la charge du Worker CPU volé :

  • Si c'est supérieur à WORKER_CRITICAL ( par défaut : 80% )

CRITIQUE

En fonction de la taille stockage :

  • Si c'est supérieur à STORAGE_CRITICAL ( par défaut : 0 ( inactif ) )

CRITIQUE

En fonction du pourcentage de la charge du Worker CPU volé :

  • Si c'est supérieur à WORKER_WARNING ( par défaut : 40% )

ATTENTION

Le Broker est en cours d'arrêt

ATTENTION

Si la sonde n'a pas eu de réponse avant le temps maximum

  • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
INCONNU

Résultat

Renvoi au format texte : 

  • Si le module fonctionne correctement
  • statistique du nombre d'événements géré dans la dernière minute

Résultat Long

Le résultat du check de supervision de l'écriture du module SLA se compose en 5 catégories d'informations :

  • SLA - Writer  :  Ecriture des SLA,
  • SLA - Archive: Archivage des SLA,
  • SLA - Migration  : Migration des données SLA,
  • SLA - Database cleanup  : Suppression des anciennes données SLA,
  • Les métriques du check: Affiche les informations sur les métriques du check.
Écriture des SLA

Cette partie SLA - Writer du résultat du check indique dans la première puce le nombre d'éléments total dans le module.

Puis les autres puces indique pour chaque worker :

  • Le nombre géré d'éléments dans le worker
  • Les statistiques sur x minutes
    • Le temps d'écriture
    • Le nombre d’éléments écrit 
    • La charge sur la dernière minute
Panel

Image Removed

Archivage des SLA

La partie SLA - Archive indique les informations sur l'archivage des SLA.

La première puce présente les informations sur la dernière archive avec :

  • La date de début de l'archive
  • Le temps d’exécution de l'archive
  • Le nombre de SLA archivés

Dans la deuxième puce indique la date de la plus ancienne archive de stocker. Cette date est la limite à partir de laquelle on ne peut pas générer un rapport SLA ou visualiser un SLA dans l'onglet Historique/SLA du volet détail de l'interface de visualisation plus ancienne que cette date. 

Panel

Image Removed

Migration des données

La partie SLA - Migration indique les informations sur le statut du processus de migration des données de SLA.

Pour rappel, la migration des données SLA permet de migrer toutes les données SLA d'un format de donnée vers un nouveau qui pourrait être mise en place lors d'une mise à jour de Shinken

Lorsque la migration des données est en cours le résultat du check indique :

  • Si la base de donnée a été migré
    • Avec le nombre de données utilisant l'ancien format de données

      Panel
      titleMigration terminée

      Image Removed

  • Le statut de la migration
    • La progression de la migration avec le pourcentage et le nombre de données migré et sur le nombre total de donnée.

      Panel
      titleMigration en cours

      Image Removed

Si la base de données est au bon format, le résultat du check indique la durée de la dernière migration effectuée

long donne le détail des informations traitées par le module.

La partie Global contient : 

  • Le nombre d'éléments gérés par le module event manager 
  • Un résumé sur la dernière minute de l'activité du module ( voir ci-dessus : Description du résultat )

Les parties Worker contient par worker :

  • Le nombre d'éléments gérés par workers
  • Un résumé de l'activité sur worker
  • La charge du worker : C'est à dire le temps que le worker a effectivement travaillé sur la dernière minute
    • Exemple : si sur la dernière minute le module a reçu 5000 broks et qu'il a mis 10ms par broks cela fera ( 5000 * 0.01 ) / 60 = 0.83 soit 83% de charge.

La partie Database contient : 

  • Le nombre de jours durant lequel sont gardés les événements. Au-delà de cette limite, les événements sont supprimés.
  • Le nombre d'événements sauvegardés et la taille de la base.
  • Date du dernier événement sauvegardé.


Rotation des données

La partie SLA - Database cleanup indique les informations sur la rotation des données.

Pour rappel, la rotation des données est un système de suppression des données afin d'éviter que la base de données ne grossisse trop. Cette rotation supprime les données à partir d'un certain nombre de jours. Exemple ci-contre seul les 300 derniers jours de SLA sont conservés.

Le nombre de jours a conservé et paramétrable dans le fichier de configuration du Module SLA sur le paramètre nb_stored_days. Si souhaiter ne pas mettre de jours maximaux de conservation, il faut mettre la valeur -1 au paramètre 

Lorsque la rotation est en cours, le résultat du check indique :

  • La date limite de conservation des SLA
    • Avec le nombre de SLA à supprimer
  • La progression de la rotation
    • Avec le pourcentage d'avancement
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"
    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké ( calculé grâce au nombre total d'éléments dans la base archive par le module SLA que l'on peut suivre via le chapitre [ UNIQUE ELEMENTS IN ARCHIVE ] des logs du broker :   Broker - Les logs du module SLA 

      Panel
      titleRotation en cours

      Image Removed

Lorsque la rotation est désactivée, voici les informations affichées  :

  • Affiche que les SLA sont conservés pour toujours
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"

    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké

      Panel
      titleRotation désactivé

      Image Removed

Description des erreurs

Le Broker est en cours d'arrêt

Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

Panel

Image RemovedImage Added

Métriques

Scroll Title
anchorparameter_check_metrics
title
NomUnitéDescription
No Format
languagetext
themeEmacs
worker_[X]_
worker_load
load_in_last_min
---
charge du worker sur la dernière minute ( comme dans l'ouput du check )

Charge du worker, entre 0 et 1.

No Format
languagetext
themeEmacs
worker_[X]_event_write_in_last_min
---

Nombre d'événements écrits sur la dernière minute par le worker.

No Format
languagetext
themeEmacs
worker_[X]_
sla
brok_
last
handle_
minute
in_
write
last_
nb
min
---

Nombre de

SLA écrit

broks traités sur la dernière minute par le worker.

No Format
languagetext
themeEmacs
worker
global_event_
X
write_
sla
in_last_min
---

Nombre total d'événements écrits sur la dernière minute

_write_timesecondeTemps passé

No Format
languagetext
themeEmacs
global_brok_handle_in_last_min
---

Nombre total de broks traités sur la dernière minute

à écrire les SLA

No Format
languagetext
themeEmacs
storage
total_base_size
octet

Taille de la base

No Format
languagetext
themeEmacs
total_event_number
---

Nombre total d'événements en base

No Format
languagetext
themeEmacs
total_element
---

Nombre total d'éléments gérés

Comment interpréter les données des métriques

Taille de la base

Durant les 30 premiers jours d'activité du module, il est grandement recommandé de surveiller la taille de la base ( avec la métrique : total_base_size ), car la taille de la base ne fera que monter durant cette période. 
Si la taille de la base se rapproche trop vite de la limite du disque, il est recommandé de réduire le nombre de jours sauvegardés à l'aide de la clé : day_keep_data situé dans le fichier /etc/shinken/modules/ event_manager_writer.cfg ou augmenter la capacité du disque.

Passé cette période, Shinken ne gardera que le x dernier jour défini par la clé day_keep_data afin de limiter la taille de la base.


Warning

Une augmentation du nombre d'éléments supervisés fera grandir la taille de la base. 

Gestion du nombre d'événement écrits et du nombre de brok gérés

Le nombre d'événements doit être sensiblement inférieur au nombre de brok gérés, c'est pourquoi il faut surveiller les métriques  global_brok_handle_in_last_min et global_event_write_in_last_min, car si ces deux métriques sont proches cela signifie qu'à chaque vérification, les éléments changent d'état et donc que tous les éléments supervisés ont un contexte "flapping".

Gestion des workers

Ajout d'un worker 

Pour ajouter un worker, il suffit de modifier la clé broker_module_nb_workers dans /etc/shinken/modules/event_manager_writer.cfg en augmentant ou diminuant le nombre de worker utilisé. 
(warning)  Chaque worker ajouté utilisera un CPU sur le serveur où se situe le démon Broker.  Ajouter ou diminuer le nombre de worker permet de mieux répartir la charge de travailler pour les autres worker.

Gestion de la charge des workers

ConditionsOrigineSolution

Si les métriques total_event_number, global_event_write_in_last_min, global_brok_handle_in_last_min et worker_[X]_load_in_last_min croissent et que le temps de traitement des broks devient élevé


Il est probable que le nombre d'éléments supervisés a augmenté

Il est alors conseillé d'augmenter le nombre de worker utilisés.

Si la métrique total_event_number est stable, mais que la métrique global_brok_handle_in_last_min monte

Il est probable que le check intervalle sur les checks aie été changé

Surveiller la charge des workers et ajouter un si besoin.

Si la métrique global_brok_handle_in_last_min est stable, mais que la métrique global_event_write_in_last_min monte


C'est que l'infrastructure passe une période d'instabilité (mise à jour sur les serveurs, changement de switch ...)

Surveiller la charge des workers et la taille de la base. Si le problème est temporaire, la charge du worker va retrouver un niveau stable.

Si les métriques global_brok_handle_in_last_min et global_event_write_in_last_min sont stables, mais que la métrique worker_[X]_load_in_last_min monte

Il est possible que machine qui exécute Shinken a un problème (swap, stealing CPU ...)

Dans ce cas, lancer la commande shinken-healthcheck ( voir la page Shinken-healthcheck - Vérifier le bon fonctionnement de Shinken Entreprise) puis la commande top afin de vérifier l'état de l'infrastructure Shinken et des performances du serveur.

octettaille des données SLA en base