Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Unused load average Load Average by SSH a pour objectif de vous alerter si une machine est sous-utilisée en termes de CPU.

Il vérifie si le "load average" ne descend pas en dessous du seuil d'avertissement/critique que vous aurez défini dans les données de votre modèle d'hôte ou de votre hôte. Afin de superviser l’utilisation CPU d'une machine linux, le check récupérera le "load average" de votre hôte via le protocole SSH.

Ce dernier correspond à 3 valeurs de charge mesurée par le système pour les périodes suivantes : 1 minute, 5 minutes, 15 minutes. Chaque valeur est une moyenne glissante correspondant à la toutes les mesures de sa période.

Les valeurs sont ensuite transformées par le check en facteur de charge afin d'alerter si celui-ci n'est pas assez élevé. Le facteur de charge est un pourcentage calculé de la sorte : Load Average / Nombre de CPUs.

L’intérêt des 3 facteurs est par exemple de permettre une certaine tolérance dans le temps, vous pouvez mettre un facteur à 0.6 sur la première minute, mais que sur le reste du temps la moyenne ne descende pas en dessous de 0.7 ( => 0.6,0.7,0.7 )

Panel

Image RemovedImage Added

Paramétrage

Le check utilise la ligne de commande suivante :

Code Block
languagebash
themeEmacs
$LINUXBYSSH_SHINKEN_PLUGINSDIR$/check_linux_health_by_ssh_rust --check check_unused_load_average
    -H "$HOSTADDRESS$" 
    -u "$_HOSTSSH_USER$"
    -p "$_HOSTSSH_PORT$"
    -i "$_HOSTSSH_KEY$" 
    -P "$_HOSTSSH_KEY_PASSPHRASE$"
    -C
    -w "$_HOSTUNUSED_LOAD_WARN$"
    -c "$_HOSTUNUSED_LOAD_CRIT$"

Données utilisées provenant du modèle

Données communes pour les checks des modèles

Authentification

Excerpt Include
Modèle linux_-by_ssh-SSH
Modèle linux_-by_ssh-SSH
nopaneltrue

Données spécifiques pour ce check

DonnéeModifiable surUnitéValeur par défautDescription
No Format
UNUSED_LOAD_CRIT

l'Hôte

( Onglet Données )

--

0.7,0.7,0.7

Définit les valeurs load average en dessous duquel le check passe en CRITIQUE.

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.
No Format
UNUSED_LOAD_WARN

l'Hôte

( Onglet Données )

--

0.75,0.75,0.75

Définit le load average en dessous  duquel le check passe en ATTENTION.

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.
Info
titleInformation

Les valeurs des données sont multipliées par le nombre de CPU de la machine supervisé pendant le check, un warning à 1,1,1 sur une machine avec 4 CPU passera donc à 4,4,4.

Cette multiplication permet de ne pas avoir à se soucier du nombre de CPU dans la définition des seuils ATTENTION et CRITIQUE du check.

Données utilisées provenant du check

Pas de données spécifiques pour ce check

Résultat


Exemple

Panel

Image RemovedImage Added

Interprétation des données

Statut

  • Il peut prendre quatre valeurs     OK  /  CRITIQUE  /  ATTENTION   /   INCONNU   .
    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

      • UNUSED_LOAD_CRIT
      • UNUSED_LOAD_WARN
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :
Info

Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

Panel

 

Situation

Statut

Exemple

  • Les charges passent sous la valeur de UNUSED_ LOAD_CRIT.

CRITIQUE

Panel

  • Les charges passent sous la valeur de UNUSED_ LOAD_WARN.

ATTENTION

Panel


Résultat

Le résultat contient un message indiquant le statut ainsi que le load average de la minute précédente ainsi que le load average des 5 et 15 dernières minutes.

Résultat Long

Le résultat long contient un tableau qui affiche pour la moyenne a 1 minute, 5 minutes et 15 minutes :

  • le load percent ( avec la charge et le nombre de CPU ),
  • les seuils ( la valeur des données UNUSED_ LOAD_WARN et UNUSED_LOAD_CRIT ),
  • le load average.

Métriques

Définition

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
load_factor_over_last_minute--Moyenne de la charge pendant la dernière minuteUNUSED_LOAD_WARNUNUSED_LOAD_CRIT
load_factor_over_last_five_minute--Moyenne de la charge pendant les 5 dernières minutesUNUSED_LOAD_WARNUNUSED_LOAD_CRIT
load_factor_over_last_fifteen_minute--Moyenne de la charge pendant les 15 dernières minutesUNUSED_LOAD_WARNUNUSED_LOAD_CRIT

Exemple

Panel

Les Erreurs

Excerpt Include
Erreurs du pack linux-by-SSH
Erreurs du pack linux-by-SSH
nopaneltrue