Contexte

Le check Broker - $KEY$ - Module SLA Writer permet de superviser la partie écriture du module SLA au niveau du démon Broker (  voir la page Le Broker ).

Paramétrage

Le check utilise la ligne de commande suivante :

$PLUGINSDIR$/check_shinken_module_sla_writer.py -H "$HOSTADDRESS$" -p "$ARG1$" --shinkenversion "$SHINKENVERSION$" 
-m "$_HOSTMINUTES_OF_STATS$" --workerwarning "$_HOSTWORKER_WARNING$" --workercritical "$_HOSTWORKER_CRITICAL$" 
--storagewarning "$_HOSTSTORAGE_WARNING$" --storagecritical "$_HOSTSTORAGE_CRITICAL$" --timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$"

Données utilisées provenant du modèle

Données communes pour les checks du modèle

Nom

Modifiable sur

Défaut

Valeur par défaut à l'installation de Shinken

Description

CHECK_SHINKEN_TIMEOUT

l'Hôte

( Onglet Données )

3 3

Temps maximum durant lequel les checks peuvent s'exécuter (  en secondes  ).

Données spécifiques pour ce check

NomModifiable sur UnitésDéfautValeur par défaut à l'installation de ShinkenDescription
MINUTES_OF_STATS

Modèle d'hôte

( Onglet Données )

---11

Nombre des X dernières minutes utilisées pour calculer les statistiques
Check(s) impacté(s) :

  • Broker - $KEY$ - Module Visualisation UI - SLA Reader
  • Broker - $KEY$ - Module Event Manager Writer
  • Broker - $KEY$ - Module Visualisation UI - Event Manager Reader
WORKER_WARNING

Modèle d'hôte

( Onglet Données )

%4040

Seuil d’avertissement pour la charge d’un Worker

WORKER_CRITICAL

Modèle d'hôte

( Onglet Données )

%8080

Seuil de critique pour la charge d’un Worker

STORAGE_WARNING

Modèle d'hôte

( Onglet Données )

MB0 ( inactif )0 ( inactif )

Seuil d’avertissement pour la taille de stockage

STORAGE_CRITICAL

Modèle d'hôte

( Onglet Données )

MB0 ( inactif )0 ( inactif )

Seuil de critique pour la taille de stockage



Les données DFE ( Duplicate Foreach )

 

Données utilisées provenant du check

Pas de données spécifiques pour ce check.

Données globales

Propriétés de l'hôte

Résultat

Exemple

Interprétation

Statut

Il peut prendre deux valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
    • WORKER_CRITICAL
    • WORKER_WARNING
    • STORAGE_CRITICAL
    • STORAGE_WARNING
    • CHECK_SHINKEN_TIMEOUT

  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Les vérifications spécifiques

Situation

Statut

En fonction du pourcentage de la charge du Worker CPU volé :

  • Si c'est supérieur à WORKER_CRITICAL ( par défaut : 80% )

CRITIQUE

En fonction de la taille stockage :

  • Si c'est supérieur à STORAGE_CRITICAL ( par défaut : 0 ( inactif ) )

CRITIQUE

En fonction du pourcentage de la charge du Worker CPU:

  • Si c'est supérieur à WORKER_WARNING ( par défaut : 40% )

ATTENTION

En fonction de la taille stockage :

  • Si c'est supérieur à STORAGE_WARNING ( par défaut : 0 ( inactif ) )

ATTENTION

Le Broker est en cours d'arrêt

ATTENTION

L'archivage journalier des SLA n'a jamais eu lieu

ATTENTION

L'archivage journalier des SLA n'a pas eu lieu ( pas d'archivage des données de la veille )

ATTENTION

Si la sonde n'a pas eu de réponse avant le temps maximum

  • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
INCONNU

Résultat

Renvoi au format texte : 

  • Si le module fonctionne correctement

Résultat Long

Le résultat du check de supervision de l'écriture du module SLA se compose en 5 catégories d'informations :

  • SLA - Writer  :  Ecriture des SLA,
  • SLA - Archive: Archivage des SLA,
  • SLA - Migration  : Migration des données SLA,
  • SLA - Database cleanup  : Suppression des anciennes données SLA,
  • Les métriques du check: Affiche les informations sur les métriques du check.


Écriture des SLA

Cette partie SLA - Writer du résultat du check indique dans la première puce le nombre d'éléments total dans le module.

Puis les autres puces indique pour chaque worker :

  • Le nombre géré d'éléments dans le worker
  • Les statistiques sur x minutes
    • Le temps d'écriture
    • Le nombre d’éléments écrit 
    • La charge sur la dernière minute

Archivage des SLA

La partie SLA - Archive indique les informations sur l'archivage des SLA.

La première puce présente les informations sur la dernière archive avec :

  • La date de début de l'archive
  • Le temps d’exécution de l'archive
  • Le nombre de SLA archivés

La seconde puce indique la date de la plus ancienne archive de stocker. Cette date est la limite à partir de laquelle on ne peut pas générer un rapport SLA ou visualiser un SLA dans l'onglet Historique/SLA du volet détail de l'interface de visualisation plus ancienne que cette date. 

Migration des données

La partie SLA - Migration indique les informations sur le statut du processus de migration des données de SLA.

Pour rappel, la migration des données SLA permet de migrer toutes les données SLA d'un format de donnée vers un nouveau qui pourrait être mise en place lors d'une mise à jour de Shinken

Lorsque la migration des données est en cours le résultat du check indique :

  • Si la base de donnée a été migré
    • Avec le nombre de données utilisant l'ancien format de données

  • Le statut de la migration
    • La progression de la migration avec le pourcentage et le nombre de données migré et sur le nombre total de donnée.


Si la base de données est au bon format, le résultat du check indique la durée de la dernière migration effectuée


Rotation des données

La partie SLA - Database cleanup indique les informations sur la rotation des données.

Pour rappel, la rotation des données est un système de suppression des données afin d'éviter que la base de données ne grossisse trop. Cette rotation supprime les données à partir d'un certain nombre de jours. Exemple ci-contre seul les 300 derniers jours de SLA sont conservés.

Le nombre de jours a conservé et paramétrable dans le fichier de configuration du Module SLA sur le paramètre nb_stored_days. Si souhaiter ne pas mettre de jours maximaux de conservation, il faut mettre la valeur -1 au paramètre 


Lorsque la rotation est en cours, le résultat du check indique :

  • La date limite de conservation des SLA
    • Avec le nombre de SLA à supprimer
  • La progression de la rotation
    • Avec le pourcentage d'avancement
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"
    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké ( calculé grâce au nombre total d'éléments dans la base archive par le module SLA que l'on peut suivre via le chapitre [ UNIQUE ELEMENTS IN ARCHIVE ] des logs du broker :   Broker - Les logs du module SLA 


Lorsque la rotation est désactivée, voici les informations affichées  :

  • Affiche que les SLA sont conservés pour toujours
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"

    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké

Description des erreurs

Le Broker est en cours d'arrêt

Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

L'archivage journalier des SLA n'a jamais eu lieu

Lorsque l'archivage journalier des SLA n'a pas eu lieu depuis le démarrage du module, la partie SLA - Archive passe en Warning et le check aussi.

L'archivage journalier des SLA n'a pas eu lieu

Lorsque l'archivage journalier des SLA n'a pas eu lieu ( vérification depuis les deux derniers jours ), la partie SLA - Archive passe en Warning et le check aussi.

Le processus d'archivage ne fonctionne plus

En cas d'erreur, le processus d'Archivage peut subir un arrêt inopiné.

Dans ce cas, le module continue de fonctionner pour poursuivre l'écriture des SLA, et le processus n'est pas relancé.

Une erreur est remontée dans le check de supervision pour informer de cette panne. Il est alors recommandé de prendre contact avec votre support Shinken.

Métriques

NomUnitéDescription
worker_X_worker_load
---

charge du worker sur la dernière minute ( comme dans l'ouput du check )

worker_X_sla_last_minute_write_nb
---

Nombre de SLA écrit sur la dernière minute

worker_X_sla_last_minute_write_time
seconde

Temps passé sur la dernière minute à écrire les SLA

storage_size 
octet

taille des données SLA en base