Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Broker - $KEY$ - Module SLA Writer permet de superviser la partie écriture du module SLA au niveau du démon Broker (  voir la page   Le Broker  ).

Panel

Paramétrage

Le check utilise la ligne de commande suivante :

Scroll Title
title
Code Block
languagetext
themeEmacs
$PLUGINSDIR$/check_shinken_module_sla_writer.py -H "$HOSTADDRESS$" -p "$ARG1$" --shinkenversion "$SHINKENVERSION$" 
-m "$_HOSTMINUTES_OF_STATS$" --workerwarning "$_HOSTWORKER_WARNING$" --workercritical "$_HOSTWORKER_CRITICAL$" 
--storagewarning "$_HOSTSTORAGE_WARNING$" --storagecritical "$_HOSTSTORAGE_CRITICAL$" --timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$"



Données utilisées provenant du modèle

Données communes pour les checks du modèle

Provenant du modèle shinken

Excerpt Include
Modèle shinken
Modèle shinken
nopaneltrue

Provenant du modèle shinken-broker-module-sla-writer

Excerpt Include
Le Broker
Le Broker
nopaneltrue

Données spécifiques pour ce check

Excerpt
Scroll Title
anchordata_for_check_sup_de_sup
title
NomModifiable
sur
sur UnitéDéfautValeur par défaut à l'installation de ShinkenDescription
No Format
CHECK
MINUTES_
SHINKEN
OF_
TIMEOUT
STATS

l'Hôte

( Onglet Données )

---
3
1
3

Temps maximum durant lequel les checks peuvent s'exécuter (  en secondes  ).

Données spécifiques pour ce check

1

Nombre des X dernières minutes utilisées pour calculer les statistiques
Check(s) impacté(s) :

No Format
WORKER_WARNING

l'Hôte

( Onglet Données )

%4040

Seuil d’avertissement pour la charge d’un Worker

No Format
WORKER_CRITICAL

l'Hôte

( Onglet Données )

%8080

Seuil de critique pour la charge d’un Worker

No Format
STORAGE_WARNING

l'Hôte

( Onglet Données )

megabyte0 ( inactif )0 ( inactif )

Seuil d’avertissement pour la taille de stockage

No Format
STORAGE_CRITICAL

l'Hôte

NomModifiable sur UnitésDéfautValeur par défaut à l'installation de ShinkenDescription
No Format
NB_LINE_UNAVAILABILITY
Modèle d'hôte

( Onglet Données )

---5 5 Quantité de configurations présentent dans le résultat long
megabyte0 ( inactif )0 ( inactif )

Seuil de critique pour la taille de stockage

Les données DFE ( Duplicate Foreach )

 

Excerpt Include
Modèle shinken-broker-module-visualisation-ui
Modèle shinken-broker-module-visualisation-ui
nopaneltrue

Données utilisées provenant du check

  • Vu que le check est exécuté sur un Poller, il faut permettre à ce dernier d'accéder aux serveurs graphite en SSH .
    • D’où la nécessité de paramétrer les données  SSH_KEY, SSH_KEY_PASSPHRASE, SSH_PORT, SSH_USER.
    • REMARQUE : il est obligatoire en l’état du check actuel que cette même clef soit autorisée sur tous les serveurs graphites surveillés.
  • Si un autre check Shinken a déjà été paramétré avec une clé SSH pour accéder au serveur graphite, vous pouvez bien sûr reprendre cette même clé

    Pas de données spécifiques pour ce check.

    Paramètre du check

    provenant du check pour ce check.

    Données globales

    Excerpt Include
    Documentation sur les packs de supervision
    Documentation sur les packs de supervision
    nopaneltrue

    Propriétés de l'hôte

    Excerpt Include
    Mise en place du Pack windows
    Mise en place du Pack windows
    nopaneltrue

    Résultat

    Exemple

    Panel

    Image Modified

    Interprétation

    Statut

    Il peut prendre deux valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
      • WORKER_CRITICAL
      • WORKER_WARNING
      • STORAGE_CRITICAL
      • STORAGE_WARNING
      • CHECK_SHINKEN_TIMEOUT

    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

    Les vérifications spécifiques

    Situation

    Statut

    En fonction du pourcentage de la charge du Worker CPU volé :

    • Si c'est supérieur à WORKER_CRITICAL ( par défaut : 80% )

    CRITIQUE

    En fonction de la taille stockage :

    • Si c'est supérieur à STORAGE_CRITICAL ( par défaut : 0 ( inactif ) )

    CRITIQUE

    En fonction du pourcentage de la charge du Worker CPU:

    • Si c'est supérieur à WORKER_WARNING ( par défaut : 40% )

    ATTENTION

    En fonction de la taille stockage :

    • Si c'est supérieur à STORAGE_WARNING ( par défaut : 0 ( inactif ))

    Le Graphite backend d'un royaume utilise un port non valide

    CRITIQUE

    Le Graphite backend d'un royaume utilise n'a pas d'adresse

    CRITIQUE

    Un ou plusieurs royaumes n'ont pas de Graphite backend

    CRITIQUE

    Le Graphite backend d'un royaume n'utilise pas un protocole valide

    CRITIQUE

    Un ou plusieurs royaumes n'est pas géré par le Broker

    ATTENTION

    Le Broker est en cours d'arrêt

    ATTENTION

    L'archivage journalier des SLA n'a jamais eu lieu

    ATTENTION

    L'archivage journalier des SLA n'a pas eu lieu ( pas d'archivage des données de la veille )

    ATTENTION

    Si la sonde n'a pas eu de réponse avant le temps maximum

    • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
    INCONNU

    Résultat

    Renvoi au format texte : 

    • Si le module fonctionne correctement

    Résultat Long

    Le résultat du check de supervision de l'écriture du module SLA se compose en 5 catégories d'informations :

    • SLA - Writer  :  Ecriture des SLA,
    • SLA - Archive: Archivage des SLA,
    • SLA - Migration  : Migration des données SLA,
    • SLA - Database cleanup  : Suppression des anciennes données SLA,
    • Les métriques du check: Affiche les informations sur les métriques du check.
    Panel
    titleRésultat du check shinken-broker-module-sla-writer

    Image Removed


    Ecriture
    Écriture des SLA

    Cette partie SLA - Writer du résultat du check indique dans la première puce le nombre d'éléments total dans le module.

    Puis les autres puces indique pour chaque worker :

    • Le nombre géré d'éléments dans le worker
    • Les statistiques sur x minutes
      • Le temps d'écriture
      • Le nombre d’éléments écrit 
      • La charge sur la dernière minute
    Panel

    Image Modified

    Archivage des SLA

    La partie SLA - Archive indique les informations sur l'archivage des SLA.

    La première puce présente les informations sur la dernière archive avec :

    • La date de début de l'archive
    • Le temps d’exécution de l'archive
    • Le nombre de SLA archivés
    Dans la deuxième

    La seconde puce indique la date de la plus ancienne archive de

    stockée

    stocker. Cette date est la limite à partir de laquelle on ne peut pas générer un rapport SLA ou visualiser un SLA dans l'onglet Historique/SLA du volet détail de l'interface de visualisation plus ancienne que cette date. 

    Panel

    Image Modified

    Migration des données

    La partie SLA - Migration indique les informations sur le statut du processus de migration des données de SLA.

    Pour rappel, la migration des données SLA permet de migrer toutes les données SLA d'un format de donnée vers un nouveau qui pourrait être mise en place lors d'une mise à jour de Shinken

    Lorsque la migration des données est en cours le résultat du check indique :

    • Si la base de donnée a été migré
      • Avec le nombre de données utilisant l'ancien format de données

        Panel
        titleMigration terminée

        Image Added

    • Le statut de la migration
      • La progression de la migration avec le pourcentage et le nombre de données migré et sur le nombre total de donnée.

        Panel
        titleMigration en cours

        Image Added


    Si la base de données est au bon format, le résultat du check indique la durée de la dernière migration effectuée

    Panel
    titleMigration en cours

    Image Removed

    Panel
    titleMigration terminée

    Image Removed


    Rotation des données

    La partie SLA - Database cleanup indique les informations sur la rotation des données.

    Pour rappel, la rotation des données est un système de suppression des données afin d'éviter que la base de données ne grossisse trop. Cette rotation supprime les données à partir d'un certain nombre de jours. Exemple ci-contre seul les 300 derniers jours de SLA sont conservés.

    Le nombre de jours

    à

    a conservé

    est

    et paramétrable dans le fichier de configuration du Module SLA sur le paramètre nb_stored_days. Si souhaiter ne pas mettre de jours maximaux de conservation, il faut mettre la valeur -1 au paramètre 


    Lorsque la rotation est en cours, le résultat du check indique :

    • La date limite de conservation des SLA
      • Avec le nombre de SLA à supprimer
    • La progression de la rotation
      • Avec le pourcentage d'avancement
    • La taille totale de la base de données SLA
      • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"
      • Le nombre d'éléments qui ne sont plus

    supervisé
      • supervisés, mais toujours stocké ( calculé grâce au nombre total d'éléments dans la base archive par le module SLA que l'on peut suivre via le chapitre [ UNIQUE ELEMENTS IN ARCHIVE ] des logs du broker :  Broker - Les logs du module SLA

    )
      •  

        Panel
        titleRotation en cours

        Image Added


    Lorsque la rotation est désactivée, voici les informations affichées  :

    • Affiche que les SLA sont
    conservé
    • conservés pour toujours
    • La taille totale de la base de données SLA
      • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"

      • Le nombre d'éléments qui ne sont plus

    supervisé
      • supervisés, mais toujours stocké

        Panel
        titleRotation
    en cours

    Image Removed

    PaneltitleRotation
      • désactivé

        Image Modified

    Description des erreurs

    Le
    Graphite backend
    Broker est en cours d'
    un royaume utilise un port non valide

    Si dans le graphite_backends d'une WebUI, une adresse utilise un port HTTP non valide, alors une erreur est remontée dans le check.

    Par exemple, le graphite_backends suivant va remonter une erreur :

    graphite_backends    *:127.0.0.1:80, Italie:192.168.1.26:80, Japon:127.0.0.1:invalid_port

    Les métriques ne seront alors pas disponibles pour ce royaume.

    Panel
    Image Removed
    Le Graphite backend d'un royaume utilise n'a pas d'adresse

    Si dans la définition d'un Graphite backend d'un royaume, l'adresse (  ou l'IP   ) est manquante, alors une erreur est remontée.

    Par exemple, le graphite_backends suivant va remonter une erreur :

    graphite_backends    *:127.0.0.1:80, Italie::80, Japon:127.0.0.1:80

    Les métriques ne seront alors pas disponibles pour ce royaume.

    Panel

    Image Removed

    Un ou plusieurs royaumes n'ont pas de Graphite backend

    Si dans la définition d'un graphite_backends, un ou plusieurs royaumes n'ont pas d'adresse définie, mais qu'il sont quand même gérés par le Broker, alors une erreur sera remontée dans le check.

    Par exemple, un Broker gère les royaumes suivants :  All, France, Italie, Japon

    Maintenant, une des WebUI du Broker a le graphite_backends suivant :

    graphite_backends    France:192.168.1.23:80

    Alors, les royaumes "All, Italie et Japon" n'ont pas de Graphite backend défini par la WebUI, ce qui aura pour conséquence que les éléments de ces royaumes n'auront pas accès à leurs métriques.

    Panel

    Image Removed

    Le Graphite backend d'un royaume n'utilise pas un protocole valide

    Si la définition d'un Graphite backend utilise un protocole qui n'est pas valide, le check remonte une erreur pour le backend concerné.

    Par exemple, le graphite_backends suivant va remonter une erreur :

    graphite_backends    *:192.168.1.23:80, France:htt://192.168.1.23:80

    Les métriques ne seront alors pas disponibles pour ce royaume.

    Panel

    Image Removed

    Un ou plusieurs royaumes n'est pas géré par le Broker

    Le check nous averti lorsqu'un royaume est présent dans la définition des graphite_backends de la WebUI et que celui-ci n'est pas géré par le Broker.

    Par exemple, un Broker gère les royaumes :  AllFrance, Italie, Japon

    Mais la définition d'une de ses WebUI est la suivante :

    graphite_backends    *:127.0.0.1:80, Canada:192.168.1.44

    Dans ce cas, le royaume Canada n'est pas géré par le Broker et sera donc ignoré.

    Ce problème ne bloque pas le fonctionnement du module, il suffit juste d'enlever ou de corriger l'adresse de ce royaume dans la configuration de la WebUI pour enlever cet avertissement.

    Panel

    Image Removed

    arrêt

    Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

    Panel

    Image Added

    L'archivage journalier des SLA n'a jamais eu lieu

    Lorsque l'archivage journalier des SLA n'a pas eu lieu depuis le démarrage du module, la partie SLA - Archive passe en Warning et le check aussi.

    Panel

    Image Added

    L'archivage journalier des SLA n'a pas eu lieu

    Lorsque l'archivage journalier des SLA n'a pas eu lieu ( vérification depuis les deux derniers jours ), la partie SLA - Archive passe en Warning et le check aussi.

    Panel

    Image Added

    Le processus d'archivage ne fonctionne plus

    En cas d'erreur, le processus d'Archivage peut subir un arrêt inopiné.

    Dans ce cas, le module continue de fonctionner pour poursuivre l'écriture des SLA, et le processus n'est pas relancé.

    Une erreur est remontée dans le check de supervision pour informer de cette panne. Il est alors recommandé de prendre contact avec le support Shinken.

    Panel

    Image Added

    Métriques

    Le Broker est en cours d'arrêt

    Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

    Panel

    Image Removed

    Métriques

    Scroll Title
    anchorparameter_check_metrics
    title
    NomUnitéDescription
    No Format
    languagetext
    themeEmacs
    nb_checks
    worker_X_worker_load
    ---
    Nombre de checks géré par la WebUI

    charge du worker sur la dernière minute ( comme dans l'ouput du check )

    No Format
    languagetext
    themeEmacs
    nb_clusters
    worker_X_sla_last_minute_write_nb
    ---

    Nombre de

    clusters géré par la WebUI

    SLA écrit sur la dernière minute

    No Format
    languagetext
    themeEmacs
    nb_contacts
    ---

    Nombre de contacts géré par la WebUI

    No Format
    languagetext
    themeEmacs
    nb_hosts
    ---Nombre d'hôtes géré par la WebUI
    worker_X_sla_last_minute_write_time
    seconde

    Temps passé sur la dernière minute à écrire les SLA

    No Format
    languagetext
    themeEmacs
    worker_X_last_minute_work_time
    minuteLe temps d'indisponibilités de la WebUI par minutes
    storage_size 
    octet

    taille des données SLA en base