Contexte

Le check Restarts by SSH permet de vérifier le nombre de restarts effectués sur les conteneurs.

Quand un conteneur Docker rencontre une erreur, il arrive que celui-ci se relance automatiquement pour tenter de résoudre l'erreur rencontrée. Dans certains cas, l'erreur ne se corrige pas et le conteneur va redémarrer continuellement.


Le changement de statut repose sur une seule règle :

  • Si le nombre de redémarrages d’un conteneur dépasse les seuils définis ( warning ou critical ), alors le statut du check évolue automatiquement.
  • Les redémarrages provenant d'une action volontaire de l'utilisateur ne sont pas pris en compte par ce check.

Ce check permet donc :

  • de repérer rapidement les conteneurs instables,

  • d’identifier un conteneur mal configuré,

  • de repérer une anomalie empêchant l’exécution continue du service.

Pour résumer, ce check est un indicateur utile pour assurer la stabilité des conteneurs.

Paramétrage

Le check utilise la ligne de commande suivante :

$SHINKEN_DOCKER-ON-LINUX-BY-SSH_PLUGINSDIR$/check_docker_SSH.py 
	-H "$HOSTADDRESS$"
	-u "$_HOSTDOCKER-ON-LINUX-BY-SSH__SSH-USER$"
	-p "$_HOSTDOCKER-ON-LINUX-BY-SSH__SSH-PORT$"
	-k "$_HOSTDOCKER-ON-LINUX-BY-SSH__SSH-KEY$"
	-x "$_HOSTDOCKER-ON-LINUX-BY-SSH__SSH-PASSPHRASE$"
	-m "restarts"
	-w "$_HOSTDOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-WARN$"
	-c "$_HOSTDOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-CRIT$"
	-e "$_HOSTDOCKER-ON-LINUX-BY-SSH__CONTAINERS-EXCLUDED$"

Données utilisées provenant du modèle

Données communes pour les checks du modèle

Données spécifiques pour ce check

NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
_DOCKER-ON-LINUX-BY-SSH__CONTAINERS-EXCLUDED

l'Hôte

( Onglet Données )

--

__

__

La liste des conteneurs à exclure des vérifications.

Cette donnée n'est utilisée que pour les checks des modèles "all_containers".

_DOCKER-ON-LINUX-BY-SSH__IMAGES-EXCLUDED

l'Hôte

( Onglet Données )

--

__

__

La liste des images à exclure des vérifications pour lechecks "Image-age".

Cette donnée n'est utilisée que pour les checks des modèles "all_containers".

DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-CRIT

l'Hôte

( Onglet Données )

--10 10

Définit le nombre de restarts à partir duquel le check passe en CRITIQUE.

  • Il suffit qu'un des conteneurs franchisse ce seuil pour que le check change d'état.
DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-WARN

l'Hôte

( Onglet Données )

--5 5

Définit le nombre de restarts à partir duquel le check passe en ATTENTION.

  • Il suffit qu'un des conteneurs franchisse ce seuil pour que le check change d'état.

Données DFE ( Duplicate Foreach )

Pas de données DFE pour ce check

Données utilisées provenant du check

Pas de données provenant du check pour ce modèle

Données globales

NomModifiable surUnitéDéfautValeur par défaut à l'installationDescription
USERPLUGINSDIR

Non modifiable

( Sauf Admin Shinken )

--/var/lib/shinken-user/libexec /var/lib/shinken-user/libexec

Chemin absolu contenant les sondes installées par Shinken.

SHINKEN_DOCKER-ON-LINUX-BY-SSH_VENDOR

Non modifiable

( Sauf Admin Shinken )

--shinken-additional-packs shinken-additional-packs

Dossier fourni par Shinken.

SHINKEN_DOCKER-ON-LINUX-BY-SSH_PACKNAME

Non modifiable

( Sauf Admin Shinken )


docker-on-linux-by-SSH__shinken docker-on-linux-by-SSH__shinken

Dossier contenant les sondes.

SHINKEN_DOCKER-ON-LINUX-BY-SSH_PLUGINSDIR

Non modifiable

( Sauf Admin Shinken )

--
USERPLUGINSDIR$/$SHINKEN_DOCKER-ON-LINUX-BY-SSH_VENDOR$/$SHINKEN_DOCKER-ON-LINUX-BY-SSH_PACKNAME
/var/lib/shinken-user/libexec/shinken-additional-packs/docker-on-linux-by-SSH__shinken

Chemin absolu du dossier contenant les sondes du pack docker-on-linux-by-SSH__shinken  ( non modifiable ).

Propriétés de l'hôte

NomModifiable surUnitéDéfautValeur par défautDescription
HOSTADDRESS

l'Hôte

( Onglet Général )

--

Nom de l'hôte Nom de l'hôte

Adresse de l'hôte

Résultat

Exemple

Interprétation des données

Statut

  • Il peut prendre 3 états  OK / CRITIQUE / ATTENTION.

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :

      • DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-WARN 
      • DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-CRIT
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :


Le texte de la colonne  "Affichage des seuils" montre les paramètres utilisés et leur valeur définie sur l'équipement supervisé.

Situation Statut Exemple
  • Le nombre de restarts dépasse la valeur de :
    • DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-WARN 
ATTENTION

  • Le nombre de restarts dépasse la valeur de :
    • DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-CRIT

CRITIQUE


Résultat

Le résultat court affiche, en une ligne, un résumé de l'état des conteneurs. Ce retour compact permet de pouvoir visualiser l'information même avec la taille des lignes réduites dans l'interface de visualisation.

Résultat Long

Le résultat long affiche un tableau regroupant l'ensemble des conteneurs détectés et le nombre de restarts enregistrés.

Métriques

Interprétation des métriques

Nom de la métriqueUnitéDescriptionSeuil d'avertissementSeuil critique
(nom-du-container)_restarts nb_restartsRetourne le nombre de restarts non intentionnels effectués par un conteneur depuis sa mise en fonctionnement.

DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-WARN 

DOCKER-ON-LINUX-BY-SSH__RESTARTS__RESTARTS-CRIT

Exemple

Erreurs et pré-requis