Sommaire

Contexte

Le check Shinken Graphite Status affiche le bon fonctionnement et les statistiques de la base de métrologie Graphite ( voir la page Base de métrologie ( Graphite ) )

Paramétrage

Le check utilise la ligne de commande suivante :

$PLUGINSDIR$/check_shinken_graphite.py -H "$HOSTADDRESS$" -u "$_HOSTSSH_USER$" -p "$_HOSTSSH_PORT$" -i "$_HOSTSSH_KEY$" 
-P "$_HOSTSSH_KEY_PASSPHRASE$" -s "$_HOSTGRAPHITE_PORT$" -d "$_HOSTGRAPHITE_DATA_LOCATION$" -U "$_HOSTGRAPHITE_USER$" 
-w "$_HOSTGRAPHITE_STORAGE_WARNING$" -c "$_HOSTGRAPHITE_STORAGE_CRITICAL$" -n "$_HOSTGRAPHITE_CACHE_NAME$" -R "$_HOSTGRAPHITE_RELAY_NAME$"

Données utilisées provenant du modèle

Données communes pour les checks du modèle

Provenant du modèle shinken-graphite

 

Données spécifiques pour ce check

 

Nom

Modifiable sur 

Unité

Défaut

Valeur par défaut à l'installation de Shinken

Description

GRAPHITE_CACHE_NAME

l'Hôte

( Onglet Données )

---carbon-cachecarbon-cache

Le nom du service utilisé pour le cache de Graphite.

GRAPHITE_DATA_LOCATION

l'Hôte

( Onglet Données )

---/opt/graphite/storage/whisper/opt/graphite/storage/whisper

L'endroit où est stocké les métriques reçues.

GRAPHITE_PORT

l'Hôte

( Onglet Données )

---20032003

Le port de connexion au serveur Graphite.

GRAPHITE_RELAY_NAME

l'Hôte

( Onglet Données )

---carbo-relaycarbon-relay

Le nom du service utilisé pour le relai de Graphite.

GRAPHITE_STORAGE_CRITICAL

l'Hôte

( Onglet Données )

%9595

Le seuil d'espace disque utilisé pour lequel on veut lever une alerte critique.

GRAPHITE_STORAGE_WARNING

l'Hôte

( Onglet Données )

%8585

Le seuil d'espace disque utilisé pour lequel on veut lever un avertissement.

GRAPHITE_USER

l'Hôte

( Onglet Données )

---apacheapache

Le nom d'utilisateur utilisé pour se connecter à la base Graphite.

Les données DFE ( Duplicate Foreach )

 Pas de données DFE pour ce check.

Données utilisées provenant du check

 Pas de données provenant du check pour ce check.

Données globales



Nom

Modifiable sur

Unité

Défaut

Valeur par défaut à l'installation de Shinken

Description

PLUGINSDIR

Non modifiable

( Sauf Admin Shinken )

---/var/lib/shinken/libexec/var/lib/shinken/libexec

Chemin absolu du dossier contenant la sonde non modifiable ).

SHINKENVERSION

Non modifiable

---------

Numéro de version du shinken utilisé pour la comparaison avec le shinken surveillé.

Propriétés de l'hôte

NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
HOSTADDRESS

l'Hôte

( Onglet Général )

---

Nom de l'hôteNom de l'hôte

Adresse de l'hôte



Résultat

Exemple



Interprétation

Statut

Il peut prendre deux valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
    • GRAPHITE_STORAGE_CRITICAL
    • GRAPHITE_STORAGE_WARNING
    • CHECK_SHINKEN_TIMEOUT

  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Les vérifications spécifiques

Situation

Statut

En fonction du pourcentage d'espace disque utilisé par Graphite :

  • Si c'est supérieur à GRAPHITE_STORAGE_CRITICAL par défaut : 95% )

CRITIQUE

En fonction du pourcentage d'espace disque utilisé par Graphite :

  • Si c'est supérieur à GRAPHITE_STORAGE_WARNING par défaut : 85% )

ATTENTION

Si la sonde n'a pas eu de réponse avant le temps maximum

  • Si supérieur à CHECK_SHINKEN_TIMEOUT par défaut : 3 sec )
INCONNU

Résultat

Renvoi au format texte le bon fonctionnement de la base de métrologie Graphite.

Résultat Long

Mode du fonctionnement du cache

Une fois les hôtes ajoutés par l'export de l'architecture, les checks Shinken Graphite Status donnent les informations suivantes sur les hôtes :

  • File permission : Si le carbon-cache dispose de droits suffisants pour écrire sur le disque.
  • Metric reception : Des informations sur le service carbon-cache.
  • Storate I/O statistics : Des informations sur l'utilisation du disque (espace disponible, lecture et écriture) par le service carbon-cache.


Remarque: Il est possible de changer le type de cache utilisé, pensez à changer les variables GRAPHITE_CACHE_NAME par le nom du service du cache ( ou relay ) dans les hôtes concernés.

Dans le cas du carbon-relay, c'est la variable GRAPHITE_RELAY_NAME qu'il faut changer ( valeurs par défaut respectives : carbon-cache et carbon-relay ).


Erreur dans un check Shinken Graphite Status

Le check Shinken Graphite Status fait appel à deux services pour récupérer les données à afficher :

  1. carbon-cache : On a besoin de savoir si il peut recevoir les métriques.
  2. shinken-gatherer : Utilisé pour avoir des informations sur l'utilisation ( lecture & écriture ) du disque de l'hôte.

Pour vérifier l'état de ces services

Si un service n'est pas trouvé, une solution peut être de tenter de le relancer sur l'hôte en question à l'aide des commandes suivante :

Relancer le shinken-gatherer :

service shinken-gatherer restart


Relancer le carbon-cache :

service carbon-cache restart


Dans le cas où l'on ne peut pas récupérer les données sur l'utilisation du disque ( typiquement le shinken-gatherer  ne fonctionne pas ), l'erreur remontée est seulement catégorisée comme un avertissement puisque cela ne va pas bloquer le fonctionnement du carbon-cache. On ne peut juste pas être informé des statistiques sur le disque ( lecture et écriture ). Il est tout de même conseillé de résoudre le problème, car il peut être important de savoir si le disque de l'hôte est saturé.

Remarque: Le check utilise le nom des services pour vérifier leurs états. Si un service n'est pas trouvé, il est possible que les noms indiqués dans les variables GRAPHITE_CACHE_NAME et GRAPHITE_RELAY_NAME des hôtes ne soient pas ceux des services (en fonction des implémentations utilisées).

Métriques

Nom

Unité

Description

(adresse_graphite)_graphite_disk_(nom_du_disque)_IO

%

Utilisation du disque ( lecture et écriture ).

(adresse_graphite)_graphite_storage_size
%

Utilisation du disque ( espace utilisé ).

(nom_worker)_last_minute_work_time
seconde

Nombre de secondes où le worker à travailler durant la dernière minute.

(nom_worker)_last_minute_metrics_sent_nb
---Nombre de métriques que le worker a envoyé durant la dernière minute.