Sommaire

Contexte

Le check Uptime by SSH va vérifier la date du dernier redémarrage de votre machine.

Il y a 2 modes de fonctionnement :

  1. S'il est inférieur au seuil minimum, le statut passera en CRITIQUE ( 1h par défaut ),
    • Cela vous permet d'être notifié qu'un redémarrage vient d'avoir lieu.

  2. S'il est supérieur à l'un des seuils maximum, le statut passera en CRITIQUE / ATTENTION .
    • Avec ce paramétrage, vous pourrez être informé si un serveur n'a pas été redémarré depuis trop longtemps.
    • Cette 2ᵉ option peut-être désactivée.

Paramétrage

Le check utilise la ligne de commande suivante :

$LINUXBYSSH_SHINKEN_PLUGINSDIR$/check_linux_health_by_ssh_rust --check check_uptime
    -H "$HOSTADDRESS$"
    -u "$_HOSTSSH_USER$"
    -p "$_HOSTSSH_PORT$"
    -i "$_HOSTSSH_KEY$"
    -P "$_HOSTSSH_KEY_PASSPHRASE$"
    -c "$_HOSTLINUX_UPTIME_CRIT$"
    -l "$_HOSTLINUX_UPTIME_HIGH_WARN$","$_HOSTLINUX_UPTIME_HIGH_CRIT$"

Données utilisées provenant du modèle

Données communes pour les checks des modèles

Authentification

NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
SSH_KEY

l'Hôte

( Onglet Données )

--$SSH_KEY_KEY$    ~/.ssh/id_rsa

Chemin vers la clé SSH privé de l'utilisateur shinken, sur le serveur hébergeant le Poller qui exécutera le check. 

  • Cette clé doit être présente dans les clefs autorisées du compte utilisateur utilisé pour se connecter sur le serveur linux supervisé ( voir la donnée SSH_USER si dessous ).
SSH_KEY_PASSPHRASE

l'Hôte

( Onglet Données )

--$SSH_KEY_PASSPHRASE$''

Phrase secrète utilisée pour déchiffrer la clé privée de l'utilisateur ( si celle-ci est protégée par une passphrase ). La clé privée déchiffré est ensuite utilisée pour authentifier l'utilisateur.

SSH_PORT

l'Hôte

( Onglet Données )

--$SSH_PORT$22

Port de connexion SSH.

SSH_USER

l'Hôte

( Onglet Données )

--$SSH_USER$shinken

Nom de l'utilisateur pour se connecter sur le serveur supervisé.

Données spécifiques pour ce check

DonnéeModifiable surUnitéValeur par défautDescription
LINUX_UPTIME_CRIT

l'Hôte

( Onglet Données )

ms

3600

Temps écoulé depuis le dernier redémarrage en secondes en dessous duquel le check passe en CRITIQUE.

Pour savoir qu'un redémarrage vient d'avoir lieu )

LINUX_UPTIME_HIGH_CRIT

l'Hôte

( Onglet Données )

ms

0 ( inactif )

Temps écoulé depuis le dernier redémarrage en secondes au-dessus duquel le check passe en CRITIQUE.

Une valeur à 0 permet de ne pas activer cette vérification.

( Pour vérifier que cela ne fait pas trop longtemps que la machine n'a pas été redémarrée )

LINUX_UPTIME_HIGH_WARN

l'Hôte

( Onglet Données )

ms

0 ( inactif )

Temps écoulé depuis le dernier redémarrage en secondes au-dessus duquel le check passe en ATTENTION.

Une valeur à 0 permet de ne pas activer cette vérification.

( Pour vérifier que cela ne fait pas trop longtemps que la machine n'a pas été redémarrée )

Données utilisées provenant du check

Pas de données spécifiques pour ce check.

Données DFE ( Duplicate Foreach )

Pas de données DFE pour ce check.

Résultat

Exemple

Interprétation des données

Statut

Il peut prendre quatre valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

    • LINUX_UPTIME_CRIT
    • LINUX_UPTIME_HIGH_WARN
    • LINUX_UPTIME_HIGH_CRIT
  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

 

Situation

Statut

Exemple

  • Le serveur a été redémarré, il y a moins de LINUX_UPTIME_CRIT en ms.

CRITIQUE

  • Le serveur n'a pas été redémarré depuis plus que LINUX__UPTIME__HIGH_CRIT secondes.
    LINUX__UPTIME__HIGH_CRIT doit être différent de 0.

CRITIQUE

  • Le serveur n'a pas été redémarré depuis plus que LINUX__UPTIME__HIGH_WARN secondes.
    LINUX__UPTIME__HIGH_WARN doit être différent de 0.

ATTENTION

Résultat

Affiche le temps depuis lequel la machine supervisée est allumée.

Résultat long

Pas de résultat long.

Métriques

Définition

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
uptimej ( jours )Temps depuis le dernier démarrage

LINUX_UPTIME_HIGH_WARN

LINUX_UPTIME_HIGH_CRIT

LINUX_UPTIME_CRIT

Exemple

Les Erreurs

Erreurs de connexion ( communes à tous les checks )

UNKNOWN – Username/PublicKey combination invalid

La connexion a échoué, car la paire utilisateur / clef public n'est pas reconnu par l'hôte supervisée.


Résolution :


Possibles raisons :

  • L'utilisateur utilisé n'existe pas
  • La paire utilisateur / clef public n'est pas autorisé pour se connecter sur la machine supervisée.

UNKNOWN – Unable to extract public key from private key file : Unable to open private key file


La clef privée configurée par la donnée SSH_KEY n'existe pas.


UNKNOWN – Unable to extract public key from private key file : Wrong passphrase or invalid/unrecognized private key file format


Le mot de passe pour déchiffrer la clef privé n'est pas correct.


Résolution :


Vérifier la donnée SSH_KEY_PASSPHRASE.

UNKNOWN – Connection refused (os error 111)

La résolution DNS a échoué.


Résolution :


Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte

UNKNOWN – Name or service not known

La résolution DNS a échoué.


Résolution :


Vérifier l'adresse ou le nom utilisé pour se connecter à l'hôte