Contexte

Le check Uptime SSH va vérifier la date du dernier redémarrage de votre machine.

Il y a 2 modes de fonctionnement :

  1. S'il est inférieur au seuil minimum, le statut passera en CRITIQUE ( 1h par défaut ),
    • Cela vous permet d'être notifié qu'un redémarrage vient d'avoir lieu.

  2. S'il est supérieur à l'un des seuils maximum, le statut passera en CRITIQUE / ATTENTION .
    • Avec ce paramétrage, vous pourrez être informé si un serveur n'a pas été redémarré depuis trop longtemps.
    • Cette 2ᵉ option peut-être désactivée.

Paramétrage

Le check utilise la ligne de commande suivante :

$LINUXBYSSH_SHINKEN_PLUGINSDIR$/check_linux_health_by_ssh_rust --check check_uptime
    -H "$HOSTADDRESS$"
    -u "$_HOSTSSH_USER$"
    -p "$_HOSTSSH_PORT$"
    -i "$_HOSTSSH_KEY$"
    -P "$_HOSTSSH_KEY_PASSPHRASE$"
    -c "$_HOSTLINUX_UPTIME_CRIT$"
    -l "$_HOSTLINUX_UPTIME_HIGH_WARN$","$_HOSTLINUX_UPTIME_HIGH_CRIT$"

Données utilisées provenant du modèle

Données communes pour les checks des modèles

Authentification

Données spécifiques pour ce check

DonnéeModifiable surUnitéValeur par défautDescription
LINUX_UPTIME_CRIT

l'Hôte

( Onglet Données )

ms

3600

Temps écoulé depuis le dernier redémarrage en secondes en dessous duquel le check passe en CRITIQUE.

Pour savoir qu'un redémarrage vient d'avoir lieu )

LINUX_UPTIME_HIGH_CRIT

l'Hôte

( Onglet Données )

ms

0 ( inactif )

Temps écoulé depuis le dernier redémarrage en secondes au-dessus duquel le check passe en CRITIQUE.

Une valeur à 0 permet de ne pas activer cette vérification.

( Pour vérifier que cela ne fait pas trop longtemps que la machine n'a pas été redémarrée )

LINUX_UPTIME_HIGH_WARN

l'Hôte

( Onglet Données )

ms

0 ( inactif )

Temps écoulé depuis le dernier redémarrage en secondes au-dessus duquel le check passe en ATTENTION.

Une valeur à 0 permet de ne pas activer cette vérification.

( Pour vérifier que cela ne fait pas trop longtemps que la machine n'a pas été redémarrée )

Données utilisées provenant du check

Pas de données spécifiques pour ce check.

Données DFE ( Duplicate Foreach )

Pas de données DFE pour ce check.

Résultat

Exemple

Interprétation des données

Statut

Il peut prendre quatre valeurs  OK / CRITIQUE / ATTENTION / INCONNU .

  • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

    • LINUX_UPTIME_CRIT
    • LINUX_UPTIME_HIGH_WARN
    • LINUX_UPTIME_HIGH_CRIT
  • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

 

Situation

Statut

Exemple

  • Le serveur a été redémarré, il y a moins de LINUX_UPTIME_CRIT en ms.

CRITIQUE

  • Si LINUX_UPTIME_HIGH_CRIT est différent de 0, et que le serveur n'a pas été redémarré depuis plus que la valeur de LINUX_UPTIME_HIGH_CRIT en ms.

CRITIQUE


  • Si LINUX_UPTIME_HIGH_WARN est différent de 0, et que le serveur n'a pas été redémarré depuis plus que la valeur de LINUX_UPTIME_HIGH_WARN en ms.

ATTENTION







Résultat

Affiche le temps depuis lequel la machine supervisée est allumée.

Résultat long

Pas de résultat long.

Métriques

Définition

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
uptimej ( jours )Temps depuis le dernier démarrage

LINUX_UPTIME_HIGH_WARN

LINUX_UPTIME_HIGH_CRIT

LINUX_UPTIME_CRIT

Exemple