Contexte
Le check Shinken Graphite Status affiche le bon fonctionnement et les statistiques de la base de métrologie Graphite ( voir la page Base de métrologie ( Graphite ) )
Paramétrage
Le check utilise la ligne de commande suivante :
$PLUGINSDIR$/check_shinken_graphite.py -H "$HOSTADDRESS$" -u "$_HOSTSSH_USER$" -p "$_HOSTSSH_PORT$" -i "$_HOSTSSH_KEY$" -P "$_HOSTSSH_KEY_PASSPHRASE$" -s "$_HOSTGRAPHITE_PORT$" -d "$_HOSTGRAPHITE_DATA_LOCATION$" -U "$_HOSTGRAPHITE_USER$" -w "$_HOSTGRAPHITE_STORAGE_WARNING$" -c "$_HOSTGRAPHITE_STORAGE_CRITICAL$" -n "$_HOSTGRAPHITE_CACHE_NAME$" -R "$_HOSTGRAPHITE_RELAY_NAME$"
Données utilisées provenant du modèle
Données communes pour les checks du modèle
Provenant du modèle shinken-graphite
Données spécifiques pour ce check
Nom | Modifiable sur | Unité | Défaut | Valeur par défaut à l'installation de Shinken | Description |
|---|---|---|---|---|---|
GRAPHITE_CACHE_NAME | l'Hôte ( Onglet Données ) | --- | carbon-cache | carbon-cache | Le nom du service utilisé pour le cache de Graphite. |
GRAPHITE_DATA_LOCATION | l'Hôte ( Onglet Données ) | --- | /opt/graphite/storage/whisper | /opt/graphite/storage/whisper | L'endroit où est stocké les métriques reçues. |
GRAPHITE_PORT | l'Hôte ( Onglet Données ) | --- | 2003 | 2003 | Le port de connexion au serveur Graphite. |
GRAPHITE_RELAY_NAME | l'Hôte ( Onglet Données ) | --- | carbo-relay | carbon-relay | Le nom du service utilisé pour le relai de Graphite. |
GRAPHITE_STORAGE_CRITICAL | l'Hôte ( Onglet Données ) | % | 95 | 95 | Le seuil d'espace disque utilisé pour lequel on veut lever une alerte critique. |
GRAPHITE_STORAGE_WARNING | l'Hôte ( Onglet Données ) | % | 85 | 85 | Le seuil d'espace disque utilisé pour lequel on veut lever un avertissement. |
GRAPHITE_USER | l'Hôte ( Onglet Données ) | --- | apache | apache | Le nom d'utilisateur utilisé pour se connecter à la base Graphite. |
Les données DFE ( Duplicate Foreach )
Pas de données DFE pour ce check.
Données utilisées provenant du check
Pas de données provenant du check pour ce check.
Données globales
Nom | Modifiable sur | Unité | Défaut | Valeur par défaut à l'installation de Shinken | Description |
|---|---|---|---|---|---|
PLUGINSDIR | Non modifiable ( Sauf Admin Shinken ) | --- | /var/lib/shinken/libexec | /var/lib/shinken/libexec | Chemin absolu du dossier contenant la sonde ( non modifiable ). |
SHINKENVERSION | Non modifiable | --- | --- | --- | Numéro de version du shinken utilisé pour la comparaison avec le shinken surveillé. |
Propriétés de l'hôte
l'Hôte ( Onglet Général ) --- Adresse de l'hôteNom Modifiable sur Unité Défaut Valeur par défaut à l'installation de Shinken Description HOSTADDRESS
Nom de l'hôte Nom de l'hôte
Résultat
Exemple
Interprétation
Statut
Il peut prendre deux valeurs OK / CRITIQUE / ATTENTION / INCONNU .
- Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
- GRAPHITE_STORAGE_CRITICAL
- GRAPHITE_STORAGE_WARNING
- CHECK_SHINKEN_TIMEOUT
Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :
Les vérifications spécifiques
Situation | Statut |
|---|---|
En fonction du pourcentage d'espace disque utilisé par Graphite :
| CRITIQUE |
En fonction du pourcentage d'espace disque utilisé par Graphite :
| ATTENTION |
Si la sonde n'a pas eu de réponse avant le temps maximum
| INCONNU |
Résultat
Renvoi au format texte le bon fonctionnement de la base de métrologie Graphite.
Résultat Long
Mode du fonctionnement du cache
Une fois les hôtes ajoutés par l'export de l'architecture, les checks Shinken Graphite Status donnent les informations suivantes sur les hôtes :
- File permission : Si le
carbon-cachedispose de droits suffisants pour écrire sur le disque. - Metric reception : Des informations sur le service
carbon-cache. - Storate I/O statistics : Des informations sur l'utilisation du disque (espace disponible, lecture et écriture) par le service
carbon-cache.
Remarque: Il est possible de changer le type de cache utilisé, pensez à changer les variables GRAPHITE_CACHE_NAME par le nom du service du cache ( ou relay ) dans les hôtes concernés.
Dans le cas du carbon-relay, c'est la variable GRAPHITE_RELAY_NAME qu'il faut changer ( valeurs par défaut respectives : carbon-cache et carbon-relay ).
Erreur dans un check Shinken Graphite Status
Le check Shinken Graphite Status fait appel à deux services pour récupérer les données à afficher :
carbon-cache: On a besoin de savoir si il peut recevoir les métriques.shinken-gatherer: Utilisé pour avoir des informations sur l'utilisation ( lecture & écriture ) du disque de l'hôte.
Pour vérifier l'état de ces services
Si un service n'est pas trouvé, une solution peut être de tenter de le relancer sur l'hôte en question à l'aide des commandes suivante :
Relancer le shinken-gatherer :
service shinken-gatherer restart
Relancer le carbon-cache :
service carbon-cache restart
Dans le cas où l'on ne peut pas récupérer les données sur l'utilisation du disque ( typiquement le shinken-gatherer ne fonctionne pas ), l'erreur remontée est seulement catégorisée comme un avertissement puisque cela ne va pas bloquer le fonctionnement du carbon-cache. On ne peut juste pas être informé des statistiques sur le disque ( lecture et écriture ). Il est tout de même conseillé de résoudre le problème, car il peut être important de savoir si le disque de l'hôte est saturé.
Remarque: Le check utilise le nom des services pour vérifier leurs états. Si un service n'est pas trouvé, il est possible que les noms indiqués dans les variables GRAPHITE_CACHE_NAME et GRAPHITE_RELAY_NAME des hôtes ne soient pas ceux des services (en fonction des implémentations utilisées).
Métriques
Nom | Unité | Description |
|---|---|---|
(adresse_graphite)_graphite_disk_(nom_du_disque)_IO | % | Utilisation du disque ( lecture et écriture ). |
(adresse_graphite)_graphite_storage_size | % | Utilisation du disque ( espace utilisé ). |
(nom_worker)_last_minute_work_time | seconde | Nombre de secondes où le worker à travailler durant la dernière minute. |
(nom_worker)_last_minute_metrics_sent_nb | --- | Nombre de métriques que le worker a envoyé durant la dernière minute. |


