Sommaire



Contexte

Le check Load Average by SSH analyse la charge système et l'affiche dans un tableau.

  • Dans ce tableau, les valeurs de charges sont affichées pour :
    • la dernière minute,
    • les 5 dernières minutes,
    • et les 15 dernières minutes.
  • À noter que c'est 3 valeurs sont fournies par l'OS, en tant que moyenne sur la période ciblée ( ex : la charge moyenne sur la dernière minute ).
  • Pour simplifier la lecture, les charges sont aussi affichées aussi en pourcentage ( plus facile à appréhender ).
    • Le pourcentage correspond au ratio entre la charge et le nombre de CPU.
    • Si la charge est inférieure au nombre de CPU, il n'y aura aucun problème.
    • Si la charge est supérieure, les paramètres du check vont vous permettre de décider si ce dépassement va être une alerte ou non.
      • En effet, une charge élevée peut ne pas être un problème sur Linux.
      • Cela va dépendre de la nature des processus qui sont sur la machine.

En résumé, le check ( suivant son paramétrage ) va vous permettre de définir, ce qui est acceptable en termes de charge, et vous alertez lorsque quelque chose d'excessif par rapport à l'utilisation standard sera détecté.

Paramétrage

Le check utilise la ligne de commande suivante :

$LINUXBYSSH_SHINKEN_PLUGINSDIR$/check_linux_health_by_ssh_rust --check check_load_average
    -H "$HOSTADDRESS$"
    -u "$_HOSTSSH_USER$"
    -p "$_HOSTSSH_PORT$"
    -i "$_HOSTSSH_KEY$"
    -P "$_HOSTSSH_KEY_PASSPHRASE$"
    -C
    -w "$_HOSTLOAD_WARN$"
    -c "$_HOSTLOAD_CRIT$"

Données utilisées provenant du modèle

Données communes pour les checks des modèles

Authentification

NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
SSH_KEY

l'Hôte

( Onglet Données )

--$SSH_KEY_KEY$    ~/.ssh/id_rsa

Chemin vers la clé SSH privé de l'utilisateur shinken, sur le serveur hébergeant le Poller qui exécutera le check. 

  • Cette clé doit être présente dans les clefs autorisées du compte utilisateur utilisé pour se connecter sur le serveur linux supervisé ( voir la donnée SSH_USER si dessous ).
SSH_KEY_PASSPHRASE

l'Hôte

( Onglet Données )

--$SSH_KEY_PASSPHRASE$''

Phrase secrète utilisée pour déchiffrer la clé privée de l'utilisateur ( si celle-ci est protégée par une passphrase ). La clé privée déchiffré est ensuite utilisée pour authentifier l'utilisateur.

SSH_PORT

l'Hôte

( Onglet Données )

--$SSH_PORT$22

Port de connexion SSH.

SSH_USER

l'Hôte

( Onglet Données )

--$SSH_USER$shinken

Nom de l'utilisateur pour se connecter sur le serveur supervisé.

Données spécifiques pour ce check

DonnéeModifiable surUnitéValeur par défautDescription
LOAD_CRIT

l'Hôte

( Onglet Données )

--

3,3,3

Définit les valeurs load average à partir duquel le check passe en CRITIQUE.

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.
LOAD_WARN

l'Hôte

( Onglet Données )

--

1.5,1.5,1.5

Définit le load average à partir duquel le check passe en ATTENTION.

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.

IMPORTANT

Le check multipliées automatiquement, les valeurs des données sont par le nombre de CPU de la machine supervisée :

  • un seuil à 1,1,1 sur une machine avec 4 CPU sera interprété en 4,4,4 par la sonde.

Cette multiplication permet d'avoir un paramétrage assez générique sans se soucier du nombre de CPUs dans la définition des seuils ATTENTION et CRITIQUE du check sur chaque serveur.

Données utilisées provenant du check

Pas de données spécifiques pour ce check

Résultat

Exemple


Interprétation des données

Statut

  • Il peut prendre 4 valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

      • LOAD_CRIT
      • LOAD_WARN
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

 

Situation

Statut

Exemple

  • Les charges dépassent la valeur de LOAD_CRIT.

CRITIQUE

  • Les charges dépassent la valeur de LOAD_WARN.

ATTENTION

Résultat

Le résultat contient un message indiquant le statut ainsi que le load average de la minute précédente ainsi que le load average des 5 et 15 dernières minutes.

Résultat Long

Le résultat long contient un tableau qui affiche pour la moyenne a 1 minute, 5 minutes et 15 minutes :

  • le load percent ( avec la charge et le nombre de CPU ),
  • les seuils ( la valeur des données LOAD_WARN et LOAD_CRIT ),
  • le load average.

Métriques

Définition

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
load1--Moyenne de la charge pendant la dernière minute.LOAD_WARNLOAD_CRIT
load5--Moyenne de la charge pendant les 5 dernières minutes.LOAD_WARNLOAD_CRIT
load15--Moyenne de la charge pendant les 15 dernières minutes.LOAD_WARNLOAD_CRIT

Exemple

Les Erreurs

Erreurs de connexion ( communes à tous les checks )

UNKNOWN – Username/PublicKey combination invalid

La connexion a échoué, car la paire utilisateur / clef public n'est pas reconnu par l'hôte supervisée.


Résolution :


Possibles raisons :

  • L'utilisateur utilisé n'existe pas
  • La paire utilisateur / clef public n'est pas autorisé pour se connecter sur la machine supervisée.

UNKNOWN – Unable to extract public key from private key file : Unable to open private key file


La clef privée configurée par la donnée SSH_KEY n'existe pas.


UNKNOWN – Unable to extract public key from private key file : Wrong passphrase or invalid/unrecognized private key file format


Le mot de passe pour déchiffrer la clef privé n'est pas correct.


Résolution :


Vérifier la donnée SSH_KEY_PASSPHRASE.

UNKNOWN – Connection refused (os error 111)

La résolution DNS a échoué.


Résolution :


Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte

UNKNOWN – Name or service not known

La résolution DNS a échoué.


Résolution :


Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte