Contexte

Le check Unused load average SSH a pour objectif de vous alerter si une machine est sous-utilisée en termes de CPU.

Il vérifie si le "load average" ne descend pas en dessous du seuil d'avertissement/critique que vous aurez défini dans les données de votre modèle d'hôte ou de votre hôte. Afin de superviser l’utilisation CPU d'un machine linux, le check récupérera le "load average" de votre hôte via le protocole SSH.

Ce dernier correspond à 3 valeurs de charge mesuré par le système pour les périodes suivantes : 1 minute, 5 minutes, 15 minutes. Chaque valeur est une moyenne glissante correspondant à la toutes les mesures de sa période.

Les valeurs sont ensuite transformées par le check en facteur de charge afin d'alerter si celui-ci n'est pas assez élevé. Le facteur de charge est un pourcentage calculé de la sorte : Load Average / Nombre de CPUs.

L’intérêt des 3 facteurs est par exemple de permettre une certaine tolérance dans le temps, vous pouvez mettre un facteur à 0.6 sur la première minute, mais que sur le reste du temps la moyenne ne descende pas en dessous de 0.7 ( => 0.6,0.7,0.7 )

Paramétrage

Le check utilise la ligne de commande suivante :

$USERPLUGINSDIR$/linux_by_ssh/check_unused_load_average_by_ssh_rust -H "$HOSTADDRESS$" -u "$_HOSTSSH_USER$" -p "$_HOSTSSH_PORT$" -i "$_HOSTSSH_KEY$" -P "$_HOSTSSH_KEY_PASSPHRASE$" -C -w "$_HOSTUNUSED_LOAD_WARN$" -c "$_HOSTUNUSED_LOAD_CRIT$"

Données utilisées provenant du modèle

DonnéeDescriptionValeur par défaut
UNUSED_LOAD_CRITDéfinit le load average en dessous duquel le check passe en critique0.7,0.7,0.7
UNUSED_LOAD_WARNDéfinit le load average en dessous  duquel le check passe en warning0.75,0.75,0.75

Les valeurs des données sont multipliées par le nombre de CPU de la machine supervisé pendant le check, un warning à 1,1,1 sur une machine avec 4 CPU passera donc à 4,4,4.

Cette multiplication permet de ne pas avoir à se soucier du nombre de CPU dans la définition des seuils de WARNING et CRITIQUE du check.

Données utilisées provenant du check

Pas de données spécifiques pour ce check

Résultat

Interprétation des données

  • Statut :
    Le statut peut prendre 4 valeurs différentes ( OK / WARNING / CRITICAL /  UNKNOWN ).
    • Le seuil du statut WARNING est de 0.75,0.75,0.75
    • Le seuil du statut CRITICAL est 0.7,0.7,0.7


  • Résultat :
    Le résultat contient un message indiquant le statut ainsi que le load average de la minute précédente ainsi que le load average des 5 et 15 dernières minutes.


  • Résultat Long :
    Le résultat long contient un tableau qui affiche le load percent, le load average et les seuils pour 1 minute, 5 minutes et 15 minutes.

Métriques

Nom de la métriqueDescription
load_factor_over_last_minuteMoyenne de la charge pendant la dernière minute
load_factor_over_last_five_minuteMoyenne de la charge pendant les 5 dernières minutes
load_factor_over_last_fifteen_minuteMoyenne de la charge pendant les 15 dernières minutes