Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Broker - $KEY$ - Module Visualisation UI va afficher l'état d'une WebUI ainsi que les dernières configurations qu'elle a reçuesSLA Writer permet de superviser la partie écriture du module SLA au niveau du démon Broker (  voir la page Le Broker ).

Panel

Image Added

Panel

Image Removed

Paramétrage

Le check utilise la ligne de commande suivante :

Scroll Title
title
Code Block
languagetext
themeEmacs
$PLUGINSDIR$/check_shinken_
broker_
module_
visualisation
sla_
ui
writer.py -H "$HOSTADDRESS$" -p "$ARG1$" --shinkenversion "$SHINKENVERSION$" -m "$_HOSTMINUTES_OF_STATS$" -
w
-workerwarning "
$ARG2$
$_HOSTWORKER_WARNING$" 
--
shinkenversion
workercritical "
$SHINKENVERSION$
$_HOSTWORKER_CRITICAL$" --
timeout
storagewarning "$
_HOSTCHECK_SHINKEN_TIMEOUT$
_HOSTSTORAGE_WARNING$" --storagecritical "$_HOSTSTORAGE_CRITICAL$" -
n
-timeout "$_
HOSTNB
HOSTCHECK_
LINE
SHINKEN_
UNAVAILABILITY$
TIMEOUT$"



Données utilisées provenant du modèle

Données communes pour les checks du modèle

Provenant du modèle shinken

Excerpt Include
Modèle shinken
Modèle shinken
nopaneltrue

Provenant du modèle shinken-broker-module-sla-writer

Excerpt Include
Le Broker
Le Broker
nopaneltrue

Données spécifiques pour ce check

Excerpt
Scroll Title
anchordata_for_check_sup_de_sup
title
NomModifiable
sur
sur UnitéDéfautValeur par défaut à l'installation de ShinkenDescription
CHECK
No Format
MINUTES_
SHINKEN
OF_
TIMEOUT
STATS

l'Hôte

( Onglet Données )

33

Temps maximum durant lequel les checks peuvent s'exécuter ( en secondes ).

Données spécifiques pour ce check

---11

Nombre des X dernières minutes utilisées pour calculer les statistiques
Check(s) impacté(s) :

No Format
WORKER_WARNING

l'Hôte

( Onglet Données )

%4040

Seuil d’avertissement pour la charge d’un Worker

No Format
WORKER_CRITICAL

l'Hôte

( Onglet Données )

%8080

Seuil de critique pour la charge d’un Worker

No Format
STORAGE_WARNING

l'Hôte

( Onglet Données )

megabyte0 ( inactif )0 ( inactif )

Seuil d’avertissement pour la taille de stockage

No Format
STORAGE_CRITICAL

l'Hôte

NomModifiable sur UnitésDéfautValeur par défaut à l'installation de ShinkenDescription
No Format
NB_LINE_UNAVAILABILITY
Modèle d'hôte

( Onglet Données )

---55Quantité de configurations présentent dans le résultat long
megabyte0 ( inactif )0 ( inactif )

Seuil de critique pour la taille de stockage

Les données DFE ( Duplicate Foreach )

 

Excerpt Include
Modèle shinken-broker-module-visualisation-ui
Modèle shinken-broker-module-visualisation-ui
nopaneltrue

Données utilisées provenant du check

Pas de données spécifiques pour ce check.

Paramètre du check

  • Vu que le check est exécuté sur un Poller, il faut permettre à ce dernier d'accéder aux serveurs graphite en SSH .
    • D’où la nécessité de paramétrer les données SSH_KEY, SSH_KEY_PASSPHRASE, SSH_PORT, SSH_USER.
    • REMARQUE : il est obligatoire en l’état du check actuel que cette même clef soit autorisée sur tous les serveurs graphites surveillés.
  • Si un autre check Shinken a déjà été paramétré avec une clé SSH pour accéder au serveur graphite, vous pouvez bien sûr reprendre cette même clé.

provenant du check pour ce check.

Données globales

Excerpt Include
Documentation sur les packs de supervision
Documentation sur les packs de supervision
nopaneltrue

Propriétés de l'hôte

Excerpt Include
Mise en place du Pack windows
Mise en place du Pack windows
nopaneltrue

Résultat

Exemple

Panel

Image RemovedImage Added

Interprétation

Statut

Il peut prendre deux valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
    • WORKER_CRITICAL
    • WORKER_WARNING
    • STORAGE_CRITICAL
    • STORAGE_WARNING
    • CHECK_SHINKEN_TIMEOUT

  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Les vérifications spécifiques

Situation

Statut

En fonction du pourcentage de la charge du Worker CPU volé :

  • Si c'est supérieur à WORKER_CRITICAL ( par défaut : 80% )

CRITIQUE

En fonction de la taille stockage :

  • Si c'est supérieur à STORAGE_CRITICAL ( par défaut : 0 ( inactif ) )

CRITIQUE

En fonction du pourcentage de la charge du Worker CPU:

  • Si c'est supérieur à WORKER_WARNING ( par défaut : 40% )

ATTENTION

En fonction de la taille stockage :

  • Si c'est supérieur à STORAGE_WARNING ( par défaut : 0 ( inactif ))

Le Graphite backend d'un royaume utilise un port non valide

CRITIQUE

Le Graphite backend d'un royaume utilise n'a pas d'adresse

CRITIQUE

Un ou plusieurs royaumes n'ont pas de Graphite backend

CRITIQUE

Le Graphite backend d'un royaume n'utilise pas un protocole valide

CRITIQUE

Un ou plusieurs royaumes n'est pas géré par le Broker

ATTENTION

Le Broker est en cours d'arrêt

ATTENTION

L'archivage journalier des SLA n'a jamais eu lieu

ATTENTION

L'archivage journalier des SLA n'a pas eu lieu ( pas d'archivage des données de la veille )

ATTENTION

Si la sonde n'a pas eu de réponse avant le temps maximum

  • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
INCONNU

Résultat

Renvoi au format texte : 

  • Si le module fonctionne correctement

Résultat Long

Ce check va afficher l'état d'une WebUI ainsi que les dernières configurations qu'elle a reçues

Pour chaque configuration qu'elle a reçue, nous avons : 

  • La date de création de la configuration
  • Le nom de l'Arbiter ayant envoyé la configuration
  • Le nom de l'architecture 
  • UUID de la configuration
  • L'heure du début de l'indisponibilité de la WebUI
  • Parties de configuration de surveillance reçues
  • Le temps d'indisponibilité de la WebUI

Description des erreurs

Le Graphite backend d'un royaume utilise un port non valide

Si dans le graphite_backends d'une WebUI, une adresse utilise un port HTTP non valide, alors une erreur est remontée dans le check.

Par exemple, le graphite_backends suivant va remonter une erreur :

graphite_backends    *:127.0.0.1:80, Italie:192.168.1.26:80, Japon:127.0.0.1:invalid_port

Les métriques ne seront alors pas disponibles pour ce royaume.

Panel
Image Removed
Le Graphite backend d'un royaume utilise n'a pas d'adresse

Si dans la définition d'un Graphite backend d'un royaume, l'adresse ( ou l'IP ) est manquante, alors une erreur est remontée.

Par exemple, le graphite_backends suivant va remonter une erreur :

graphite_backends    *:127.0.0.1:80, Italie::80, Japon:127.0.0.1:80

Les métriques ne seront alors pas disponibles pour ce royaume.

Panel

Image Removed

Un ou plusieurs royaumes n'ont pas de Graphite backend

Si dans la définition d'un graphite_backends, un ou plusieurs royaumes n'ont pas d'adresse définie, mais qu'il sont quand même gérés par le Broker, alors une erreur sera remontée dans le check.

Par exemple, un Broker gère les royaumes suivants : All, France, Italie, Japon

Maintenant, une des WebUI du Broker a le graphite_backends suivant :

graphite_backends    France:192.168.1.23:80

Alors, les royaumes "All, Italie et Japon" n'ont pas de Graphite backend défini par la WebUI, ce qui aura pour conséquence que les éléments de ces royaumes n'auront pas accès à leurs métriques.

Panel

Image Removed

Le Graphite backend d'un royaume n'utilise pas un protocole valide

Si la définition d'un Graphite backend utilise un protocole qui n'est pas valide, le check remonte une erreur pour le backend concerné.

Par exemple, le graphite_backends suivant va remonter une erreur :

graphite_backends    *:192.168.1.23:80, France:htt://192.168.1.23:80

Les métriques ne seront alors pas disponibles pour ce royaume.

Panel

Image Removed

Un ou plusieurs royaumes n'est pas géré par le Broker

Le résultat du check de supervision de l'écriture du module SLA se compose en 5 catégories d'informations :

  • SLA - Writer  :  Ecriture des SLA,
  • SLA - Archive: Archivage des SLA,
  • SLA - Migration  : Migration des données SLA,
  • SLA - Database cleanup  : Suppression des anciennes données SLA,
  • Les métriques du check: Affiche les informations sur les métriques du check.


Écriture des SLA

Cette partie SLA - Writer du résultat du check indique dans la première puce le nombre d'éléments total dans le module.

Puis les autres puces indique pour chaque worker :

  • Le nombre géré d'éléments dans le worker
  • Les statistiques sur x minutes
    • Le temps d'écriture
    • Le nombre d’éléments écrit 
    • La charge sur la dernière minute
Panel

Image Added

Archivage des SLA

La partie SLA - Archive indique les informations sur l'archivage des SLA.

La première puce présente les informations sur la dernière archive avec :

  • La date de début de l'archive
  • Le temps d’exécution de l'archive
  • Le nombre de SLA archivés

La seconde puce indique la date de la plus ancienne archive de stocker. Cette date est la limite à partir de laquelle on ne peut pas générer un rapport SLA ou visualiser un SLA dans l'onglet Historique/SLA du volet détail de l'interface de visualisation plus ancienne que cette date. 

Panel

Image Added

Migration des données

La partie SLA - Migration indique les informations sur le statut du processus de migration des données de SLA.

Pour rappel, la migration des données SLA permet de migrer toutes les données SLA d'un format de donnée vers un nouveau qui pourrait être mise en place lors d'une mise à jour de Shinken

Lorsque la migration des données est en cours le résultat du check indique :

  • Si la base de donnée a été migré
    • Avec le nombre de données utilisant l'ancien format de données

      Panel
      titleMigration terminée

      Image Added

  • Le statut de la migration
    • La progression de la migration avec le pourcentage et le nombre de données migré et sur le nombre total de donnée.

      Panel
      titleMigration en cours

      Image Added


Si la base de données est au bon format, le résultat du check indique la durée de la dernière migration effectuée


Rotation des données

La partie SLA - Database cleanup indique les informations sur la rotation des données.

Pour rappel, la rotation des données est un système de suppression des données afin d'éviter que la base de données ne grossisse trop. Cette rotation supprime les données à partir d'un certain nombre de jours. Exemple ci-contre seul les 300 derniers jours de SLA sont conservés.

Le nombre de jours a conservé et paramétrable dans le fichier de configuration du Module SLA sur le paramètre nb_stored_days. Si souhaiter ne pas mettre de jours maximaux de conservation, il faut mettre la valeur -1 au paramètre 


Lorsque la rotation est en cours, le résultat du check indique :

  • La date limite de conservation des SLA
    • Avec le nombre de SLA à supprimer
  • La progression de la rotation
    • Avec le pourcentage d'avancement
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"
    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké ( calculé grâce au nombre total d'éléments dans la base archive par le module SLA que l'on peut suivre via le chapitre [ UNIQUE ELEMENTS IN ARCHIVE ] des logs du broker :   Broker - Les logs du module SLA 

      Panel
      titleRotation en cours

      Image Added


Lorsque la rotation est désactivée, voici les informations affichées  :

  • Affiche que les SLA sont conservés pour toujours
  • La taille totale de la base de données SLA
    • Avec le nombre d'éléments supervisé qui correspond au total d'élément affiché dans la partie "écriture"

    • Le nombre d'éléments qui ne sont plus supervisés, mais toujours stocké

      Panel
      titleRotation désactivé

      Image Added

Description des erreurs

Le check nous averti lorsqu'un royaume est présent dans la définition des graphite_backends de la WebUI et que celui-ci n'est pas géré par le Broker.

Par exemple, un Broker gère les royaumes : AllFrance, Italie, Japon

Mais la définition d'une de ses WebUI est la suivante :

graphite_backends    *:127.0.0.1:80, Canada:192.168.1.44

Dans ce cas, le royaume Canada n'est pas géré par le Broker et sera donc ignoré.

Ce problème ne bloque pas le fonctionnement du module, il suffit juste d'enlever ou de corriger l'adresse de ce royaume dans la configuration de la WebUI pour enlever cet avertissement.

PanelImage Removed

Le Broker est en cours d'arrêt

Lorsque le Broker est en cours d'arrêt, le check le signale, et les informations relatives au module ne sont plus disponibles

Panel

Image Removed

Métriques

Image Added

L'archivage journalier des SLA n'a jamais eu lieu

Lorsque l'archivage journalier des SLA n'a pas eu lieu depuis le démarrage du module, la partie SLA - Archive passe en Warning et le check aussi.

Panel

Image Added

L'archivage journalier des SLA n'a pas eu lieu

Lorsque l'archivage journalier des SLA n'a pas eu lieu ( vérification depuis les deux derniers jours ), la partie SLA - Archive passe en Warning et le check aussi.

Panel

Image Added

Le processus d'archivage ne fonctionne plus

En cas d'erreur, le processus d'Archivage peut subir un arrêt inopiné.

Dans ce cas, le module continue de fonctionner pour poursuivre l'écriture des SLA, et le processus n'est pas relancé.

Une erreur est remontée dans le check de supervision pour informer de cette panne. Il est alors recommandé de prendre contact avec le support Shinken.

Panel

Image Added

Métriques

Scroll Title
anchorparameter_check_metrics
title
NomUnitéDescription
NomUnitéDescription
No Format
languagetext
themeEmacs
nb_checks
---

Nombre de checks géré par la WebUI

No Format
languagetext
themeEmacs
nb_clusters
---Nombre de clusters géré par la WebUI
No Format
languagetext
themeEmacs
nb_contacts
worker_X_worker_load
---
Nombre de contacts géré par la WebUI

charge du worker sur la dernière minute ( comme dans l'ouput du check )

No Format
languagetext
themeEmacs
nb_hosts
worker_X_sla_last_minute_write_nb
---

Nombre

d'hôtes géré par la WebUI

de SLA écrit sur la dernière minute

No Format
languagetext
themeEmacs
worker_X_sla_last_minute_
work
write_time
seconde

Temps passé sur la dernière minute

Le temps d'indisponibilités de la WebUI par minutes

à écrire les SLA

No Format
languagetext
themeEmacs
storage_size 
octet

taille des données SLA en base