Sommaire

Contexte

Le check Load Average by SNMPv1v2 analyse la charge système et l'affiche dans un tableau.

  • Dans ce tableau, les valeurs de charges sont affichées pour :
    • la dernière minute,
    • les 5 dernières minutes,
    • et les 15 dernières minutes.
  • À noter que c'est 3 valeurs sont fournies par l'OS, en tant que moyenne sur la période ciblée ( ex : la charge moyenne sur la dernière minute ).
  • Pour simplifier la lecture, les charges sont aussi affichées par CPU : Load per CPU ( plus facile à appréhender ).
    • Correspond au ratio entre la charge et le nombre de CPU.
    • Si la charge est inférieure au nombre de CPU, il n'y aura aucun problème.
    • Si la charge est supérieure, les paramètres du check vont permettre de décider si ce dépassement va être une alerte ou non.
      • En effet, une charge élevée peut ne pas être un problème sur Linux.
      • Cela va dépendre de la nature des processus qui sont sur la machine.

En résumé, le check ( suivant son paramétrage ) va permettre de définir, ce qui est acceptable en termes de charge, et alerter lorsque quelque chose d'excessif par rapport à l'utilisation standard sera détecté.

Paramétrage

Le check utilise la ligne de commande suivante :

$LINUX-BY-SNMP__SHINKEN__PLUGINSDIR$/check_linux_health_by_snmp_rust --check check_load_average
    -H "$HOSTADDRESS$"
    -p "$_HOSTLINUX-BY-SNMP__PORT$"
    -t "$_HOSTLINUX-BY-SNMP__TIMEOUT$"
    -w "$_HOSTLINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN$"
    -c "$_HOSTLINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT$"
    -C
    --snmp_version "2"
    --community "$_HOSTLINUX-BY-SNMP__V1V2-COMMUNITY$"

Données utilisées provenant des modèles

Données communes pour les checks du modèle

NomModifiable surUnitéDéfautValeur par défaut à l'installation de Shinken Description
LINUX-BY-SNMP__TIMEOUT

l'Hôte

( Onglet Données )

seconde5 5 Temps maximal en seconde pour réussir une connexion SNMP avant que le check ne renvoi une erreur INCONNU  ( La valeur doit être comprise entre 2 et 60 ).
LINUX-BY-SNMP__PORT

l'Hôte

( Onglet Données )

---

161161Port pour la connexion SNMP.
LINUX-BY-SNMP__V1V2-COMMUNITY

l'Hôte

( Onglet Données )

---public public

La Communauté SNMP v1/v2 défini sur votre linux :

  • En SNMP v1/v2, la communauté est un équivalent à un ID ou à un mot de passe pour se connecter aux équipements.


LINUX-BY-SNMP__V1V2-VERSION

l'Hôte

( Onglet Données )

---22

Sélectionne la version SNMP 1 ou 2 à utiliser.

Données spécifiques pour ce check

DonnéesModifiable surUnitéValeur par défautDescription
LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT

l'Hôte

( Onglet Données )

--

3,3,3

Définit le load average par CPU à partir duquel le check passe en CRITIQUE .

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.
LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN

l'Hôte

( Onglet Données )

--

1.5,1.5,1.5

Définit le load average par CPU à partir duquel le check passe en ATTENTION .

  • pour la dernière minute,
  • pour les 5 dernières minutes,
  • et pour les 15 dernières minutes.



IMPORTANT

Les seuils de charge sont comparés à la moyenne de charge PAR CPU ( load per CPU ).

  • Les valeurs par défaut ci-dessus indique que
      • à 1,5 fois la charge par CPU, la sonde renvoi un status ATTENTION
      • à 3 fois la charge par CPU, la sonde renvoi un status CRITIQUE

    • Les seuils sont ensuite comparés à la moyenne de charge par CPU ( load per CPU ) calculé par : load_average / nombre_cpu


Alors les valeurs à configurés ne dépendent pas du nombre de CPU de la machine.

Il n'est pas necessaire de se soucier du nombre de CPUs dans la définition des seuils ATTENTION et CRITIQUE du check sur chaque serveur.

Données DFE ( Duplicate Foreach )

Pas de données DFE pour ce check

Données utilisées provenant du check

Pas de données spécifiques pour ce check

Données globales

NomModifiable surUnitéDéfautValeur par défaut à l'installationDescription
USERPLUGINSDIR

Non modifiable

( Sauf Admin Shinken )

--/var/lib/shinken/libexec /var/lib/shinken/libexec

Chemin absolu contenant les sondes installés par Shinken

LINUX-BY-SNMP__SHINKEN__VENDOR

Non modifiable

( Sauf Admin Shinken )

--shinken-additional-packs shinken-additional-packs

Dossier fournit par shinken

LINUX-BY-SNMP__SHINKEN__PACKNAME

Non modifiable

( Sauf Admin Shinken )


linux-by-SNMP__shinken linux-by-SNMP__shinken

Dossier contenant les sondes 

LINUX-BY-SNMP__SHINKEN__PLUGINSDIR

Non modifiable

( Sauf Admin Shinken )

--
USERPLUGINSDIR/LINUX-BY-SNMP__SHINKEN__VENDOR/
LINUX-BY-SNMP__SHINKEN__PACKNAME
/var/lib/shinken-user/libexec/shinken-additional-packs/linux-by-SNMP__shinken

Chemin absolu du dossier contenant les sondes du pack linux-by-SNMP__shinken ( non modifiable )

Propriétés de l'hôte

NomModifiable surUnitéDéfautValeur par défautDescription
HOSTADDRESS

l'Hôte

( Onglet Général )

--

Nom de l'hôte Nom de l'hôte

Adresse de l'hôte

Résultat

Exemple

Interprétation des données

Statut

  • Il peut prendre 4 valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

      • LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT
      • LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

 

Situation

Statut

Exemple

  • Les charges dépassent la valeur de LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT.

CRITIQUE

  • Les charges dépassent la valeur de LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN

ATTENTION

Résultat

Le résultat contient un message indiquant le statut ainsi que le load average de la minute précédente ainsi que le load average des 5 et 15 dernières minutes.

Résultat Long

Le résultat long contient un tableau qui affiche pour la moyenne a 1 minute, 5 minutes et 15 minutes :

  • le load per CPU ( avec la charge et le nombre de CPU ),
  • les seuils ( la valeur des données LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN et LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT  ),
  • le load average.


Métriques

Définition

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
load1--Moyenne de la charge pendant la dernière minute.LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN * nombre_cpuLINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT * nombre_cpu
load5--Moyenne de la charge pendant les 5 dernières minutes.LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN * nombre_cpuLINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT * nombre_cpu
load15--Moyenne de la charge pendant les 15 dernières minutes.LINUX-BY-SNMP__LOAD-AVERAGE__LOAD-WARN * nombre_cpuLINUX-BY-SNMP__LOAD-AVERAGE__LOAD-CRIT * nombre_cpu

Exemple

Erreurs et pré-requis

Erreurs de connexion ( communes à tous les checks )

UNKNOWN – Session error: timeout

La connexion SNMP est configuré par défaut pour se couper si aucune réponse n'est perçu après cinq secondes ( paramétrable avec LINUX-BY-SNMP__TIMEOUT ).


Cette erreur peut intervenir lorsque :

  • Aucun accès réseau n'est disponible vers l'hôte.
  • En SNMP v1 ou v2, la communauté utilisée est incorrecte.
  • En SNMP v3, la clef privée ( LINUX-BY-SNMP__V3-PASSPHRASE-PRIV ) utilisée est incorrecte.

UNKNOWN – Failed to create SNMP session. Got error: failed to lookup address information: Name or service not known

La résolution DNS de l'hôte a échoué.

UNKNOWN – Session error: Socket receive error: host unreachable

La tentative de connexion à l'hôte a échoué à atteindre l'hôte.

Cette erreur peut être générée à cause d'une mauvaise configuration de pare-feu.

UNKNOWN – Session error: Socket receive error: connection refused


La tentative de connexion à l'hôte a été refusé.

Cette erreur peut intervenir lorsque :

  • Un pare-feu bloque la requête
  • Le service SNMP du serveur à supervisé n'est pas démarré.

UNKNOWN – Session error: Unexpected report: authentication failure

L'authentification SNMP v3 a échoué.

Cette erreur peut intervenir lorsque :

  • En SNMP v3, le mot de passe ( LINUX-BY-SNMP__V3-PASSPHRASE-AUTH ) utilisée est incorrecte.
  • En SNMP v3, la méthode de hachage ( LINUX-BY-SNMP__V3-PROTOCOL-AUTH ) utilisée est incorrecte.

UNKNOWN – Session error: Unexpected report: unknown user name

L'utilisateur SNMP v3 utilisé n'existe pas.


UNKNOWN – Session error: Unexpected report: unsupported security level.


L'authentification SNMP v3 a échoué. La méthode d'authentification n'est pas authorisé.



Cette erreur peut intervenir lorsque :

Erreurs de configuration de l'hôte à superviser ( communes à tous les checks )

Les erreurs suivantes peuvent arriver sur la version SNMPv2 et SNMPv3.

MONITORED HOST - BAD STATE – No [ ... ] data found. This might be due to :


Deux erreurs sont possibles :

  • La vue SNMP configuré n'a pas les droits suffisants.
  • La configuration SNMP n'inclus pas les options "extend" nécessaires au bon fonctionnement des checks.



RESOLUTION :

Il faut vérifier les deux étapes suivantes de la configuration :