Contexte
Le check Unused Load Average by SSH a pour objectif de vous alerter si une machine est sous-utilisée en termes de CPU.
Il vérifie si le "load average" ne descend pas en dessous du seuil d'avertissement/critique que vous aurez défini dans les données de votre modèle d'hôte ou de votre hôte. Afin de superviser l’utilisation CPU d'une machine linux, le check récupérera le "load average" de votre hôte via le protocole SSH.
Ce dernier correspond à 3 valeurs de charge mesurée par le système pour les périodes suivantes : 1 minute, 5 minutes, 15 minutes. Chaque valeur est une moyenne glissante correspondant à la toutes les mesures de sa période.
Les valeurs sont ensuite transformées par le check en facteur de charge afin d'alerter si celui-ci n'est pas assez élevé. Le facteur de charge est un pourcentage calculé de la sorte : Load Average / Nombre de CPUs.
L’intérêt des 3 facteurs est par exemple de permettre une certaine tolérance dans le temps, vous pouvez mettre un facteur à 0.6 sur la première minute, mais que sur le reste du temps la moyenne ne descende pas en dessous de 0.7 ( => 0.6,0.7,0.7 )
Paramétrage
Le check utilise la ligne de commande suivante :
$LINUXBYSSH_SHINKEN_PLUGINSDIR$/check_linux_health_by_ssh_rust --check check_unused_load_average
-H "$HOSTADDRESS$"
-u "$_HOSTSSH_USER$"
-p "$_HOSTSSH_PORT$"
-i "$_HOSTSSH_KEY$"
-P "$_HOSTSSH_KEY_PASSPHRASE$"
-C
-w "$_HOSTUNUSED_LOAD_WARN$"
-c "$_HOSTUNUSED_LOAD_CRIT$"
Données utilisées provenant du modèle
Données communes pour les checks des modèles
Authentification
| Nom | Modifiable sur | Unité | Défaut | Valeur par défaut à l'installation de Shinken | Description |
|---|---|---|---|---|---|
SSH_KEY | l'Hôte ( Onglet Données ) | -- | $SSH_KEY_KEY$ | ~/.ssh/id_rsa | Chemin vers la clé SSH privé de l'utilisateur shinken, sur le serveur hébergeant le Poller qui exécutera le check.
|
SSH_KEY_PASSPHRASE | l'Hôte ( Onglet Données ) | -- | $SSH_KEY_PASSPHRASE$ | '' | Phrase secrète utilisée pour déchiffrer la clé privée de l'utilisateur ( si celle-ci est protégée par une passphrase ). La clé privée déchiffré est ensuite utilisée pour authentifier l'utilisateur. |
SSH_PORT | l'Hôte ( Onglet Données ) | -- | $SSH_PORT$ | 22 | Port de connexion SSH. |
SSH_USER | l'Hôte ( Onglet Données ) | -- | $SSH_USER$ | shinken | Nom de l'utilisateur pour se connecter sur le serveur supervisé. |
Données spécifiques pour ce check
| Donnée | Modifiable sur | Unité | Valeur par défaut | Description |
|---|---|---|---|---|
UNUSED_LOAD_CRIT | l'Hôte ( Onglet Données ) | -- | 0.7,0.7,0.7 | Définit les valeurs load average en dessous duquel le check passe en CRITIQUE.
|
UNUSED_LOAD_WARN | l'Hôte ( Onglet Données ) | -- | 0.75,0.75,0.75 | Définit le load average en dessous duquel le check passe en ATTENTION.
|
Information
Les valeurs des données sont multipliées par le nombre de CPU de la machine supervisé pendant le check, un warning à 1,1,1 sur une machine avec 4 CPU passera donc à 4,4,4.
Cette multiplication permet de ne pas avoir à se soucier du nombre de CPU dans la définition des seuils ATTENTION et CRITIQUE du check.
Données utilisées provenant du check
Pas de données spécifiques pour ce check
Résultat
Exemple
Interprétation des données
Statut
- Il peut prendre quatre valeurs OK / CRITIQUE / ATTENTION / INCONNU .
Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
- UNUSED_LOAD_CRIT
- UNUSED_LOAD_WARN
- Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :
Le texte de la colonne "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.
Situation | Statut | Exemple |
|---|---|---|
| CRITIQUE |
|
| ATTENTION |
|
Résultat
Le résultat contient un message indiquant le statut ainsi que le load average de la minute précédente ainsi que le load average des 5 et 15 dernières minutes.
Résultat Long
Le résultat long contient un tableau qui affiche pour la moyenne a 1 minute, 5 minutes et 15 minutes :
- le load percent ( avec la charge et le nombre de CPU ),
- les seuils ( la valeur des données UNUSED_ LOAD_WARN et UNUSED_LOAD_CRIT ),
- le load average.
Métriques
Définition
| Nom de la métrique | Unité | Description | Seuil d'avertissement | Seuil critique |
|---|---|---|---|---|
| load_factor_over_last_minute | -- | Moyenne de la charge pendant la dernière minute | UNUSED_LOAD_WARN | UNUSED_LOAD_CRIT |
| load_factor_over_last_five_minute | -- | Moyenne de la charge pendant les 5 dernières minutes | UNUSED_LOAD_WARN | UNUSED_LOAD_CRIT |
| load_factor_over_last_fifteen_minute | -- | Moyenne de la charge pendant les 15 dernières minutes | UNUSED_LOAD_WARN | UNUSED_LOAD_CRIT |
Exemple
Les Erreurs
Erreurs de connexion ( communes à tous les checks )
UNKNOWN – Username/PublicKey combination invalid
La connexion a échoué, car la paire utilisateur / clef public n'est pas reconnu par l'hôte supervisée.
Résolution :
Possibles raisons :
- L'utilisateur utilisé n'existe pas
- La paire utilisateur / clef public n'est pas autorisé pour se connecter sur la machine supervisée.
UNKNOWN – Unable to extract public key from private key file : Unable to open private key file
La clef privée configurée par la donnée SSH_KEY n'existe pas.
UNKNOWN – Unable to extract public key from private key file : Wrong passphrase or invalid/unrecognized private key file format
Le mot de passe pour déchiffrer la clef privé n'est pas correct.
Résolution :
Vérifier la donnée SSH_KEY_PASSPHRASE.
UNKNOWN – Connection refused (os error 111)
La résolution DNS a échoué.
Résolution :
Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte
UNKNOWN – Name or service not known
La résolution DNS a échoué.
Résolution :
Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte









