Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le check Scheduler - $KEY$ - Running Well

 renvoie les statistiques du Scheduler : 
  • temps de réponses,
  • liste des démons avec lesquels il est connecté.

    vérifie que le démon Scheduler peut être correctement contacté sur le réseau et affiche son numéro de version.

    Affiche également le nombre d'éléments qu'il gère dans un tableau, en distinguant les Hôtes, les Clusters et les Checks, ainsi que le total des éléments. (   Résultat court   )

    Présente la liste des démons auxquels le Scheduler doit se connecter, et l'état des connexions (  Résultat long  ).

    Donne un état des modules chargés (  Résultat long  ).


    Panel

    Image Added

    Panel
    Image Removed

    Paramétrage

    Le check utilise la ligne de commande suivante :

    Scroll Title
    title
    Code Block
    languagetext
    themeEmacs
    $PLUGINSDIR$/check_shinken -H "$HOSTADDRESS$" 
    -p "$ARG2$" --shinkenversion "$SHINKENVERSION$" -t 
    arbiter
    scheduler -m $ARG1$
     -l "lck-$LASTSERVICECHECK$" --passive_poller_latency "$_HOSTPASSIVE_POLLER_LATENCY$" --timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$" -w "$_HOSTTHRESHOLD_CPU_STOLEN_WARNING$" -c "$_HOSTTHRESHOLD_CPU_STOLEN_CRITICAL$" --scheduler_too_old_retention_save_margin "$_HOSTSCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES$"
    



    Données utilisées provenant du modèle

    Données communes pour les checks du modèle

    Provenant du modèle shinken

    Excerpt Include
    Modèle shinken
    Modèle shinken
    nopaneltrue

    Provenant du modèle shinken-daemon

    Excerpt Include
    Modèle shinken-daemon
    Modèle shinken-daemon
    nopaneltrue

    Données spécifiques pour ce check

    Provenant du modèle shinken-scheduler

    Excerpt Include
    Le Scheduler
    Le Scheduler
    nopaneltrue

    Données spécifiques pour ce check

     Pas de données spécifiques pour ce check.

    NomModifiable sur UnitésDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    ARBITER_PORT

    Modèle d'hôte

    ( Onglet Données )

    ---77707770Configuration du port de communication avec l'arbiter.
    Autres Check(s) impacté(s) :

    Note : Cette valeur remplacera dans la commande la valeur $ARG2$

    Les données DFE ( Duplicate Foreach )

    Excerpt Include
    Modèle shinken-arbiterscheduler
    Modèle shinken-arbiterscheduler
    nopaneltrue

    Données utilisées provenant du check

     Pas de données spécifiques provenant du check pour ce check.

    Données globales

    Excerpt Include
    Mise en place du Pack windows
    Mise en place du Pack windows
    nopaneltrue

    NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    SHINKENVERSION

    non

    -

    --

    Numéro de la version installée

    • Propriétés de l'hôte
    NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    HOSTADDRESS

    l'Hôte

    ( Onglet Général )

    Nom de l'hôte

    Adresse de l'hôte

    Résultat

    Exemple

    Panel

    Image RemovedImage Added

    Interprétation

    Statut

    Il peut prendre quatre valeurs  OK /   CRITIQUE /   ATTENTION   /   INCONNU .

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
      • THRESHOLD  THRESHOLD_CPU_STOLEN_CRITICAL,
        THRESHOLD
      •  THRESHOLD_CPU_STOLEN_WARNING,
      •  SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES    
      •  CHECKCHECK_SHINKEN_TIMEOUTTIMEOUT 
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :

    Les vérifications communes

    Excerpt Include
    Liste des événements sur les démons modifiant le résultat des checks
    Liste des événements sur les démons modifiant le résultat des checks
    nopaneltrue


    Les vérifications spécifiques

    Situation

    Statut

    Si un démon est bloqué et doit être redémarré

    CRITIQUEEn fonction du pourcentage de CPU volé

    Le temps de connexion à la base de données :

    • Si c'est
     
    • supérieur
     HRESHOLD
    • à
    T
    • THRESHOLD_CPU_STOLEN_CRITICAL par défaut :
    10%
    • 10%  )

    CRITIQUE

    En fonction du pourcentage de CPU volé

    Le temps de connexion à la base de données :

    • Si c'est
    supérieur 
    • supérieur à THRESHOLD_CPU_STOLEN_WARNING (  par défaut : 5%  )

    ATTENTION

    Si erreur de surcharge des disques de logs

    Le serveur est injoignable :

    ATTENTION

     

    Si le démon a bloqué une tentative de chargement d'objet malveillant

    ATTENTION 

    Si le démon est en cours d'arrêt

    Le temps de connexion à la base de données :

    • Si c'est supérieur à SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES (  par défaut : 5%  )

    ATTENTION

    ATTENTION 

    Si la sonde n'a pas eu de réponse avant le temps maximum

    • Si
    supérieur 
    • supérieur à CHECK_SHINKEN_TIMEOUT (
     
    • par défaut : 3 sec   )
    INCONNU

    Résultat

    Renvoi au format texte les statistiques

    • temps L'état de réponses du démon,
    • et la liste des démons avec lesquels il est en connecté.

    Résultat Long

    Pas de résultat long pour ce check.

    Description des erreurs

    Erreur de vol de CPU

    Seulement si votre machine virtuelle est hébergé sur un hyperviseur VMWare

    • Si la machine virtuelle se fait voler trop de temps de calcul (CPU Stolen), le check sera mis en WARNING  ou en CRITIQUE ( en fonction du taux de vol fixé par défaut ou indiqué par l'utilisateur ).
    Panel

    Image Removed

    Image Removed
    Les serveurs ne sont pas à la même heure
    Si le serveur n'est pas à la même heure que le serveur Arbiter ( qui fait office de référence ), une erreur CRITICAL sera levée, des temps différents sur les différents serveurs auront des effetsnéfastessur la cohérence des données de supervision.
    Panel

    Image Removed

    • fonctionnement du Scheduler, ainsi que le nombre d'hôtes, de clusters, de checks et le nombre total d'éléments gérés par le Scheduler.

    Résultat Long

    Renvoi au format texte :

    • Une liste des démons ( Schedulers, Pollers passifs, Reactionners passifs ) auxquels le Schedulers doit se connecter, pour chacun des démons :
      • Son nom ( suivi des tags gérés pour les Pollers passifs ou pour les Reactionners passifs )
      • Son type
      • La valeur du paramètre timeout renseigné dans le fichier de configuration de ce démon ( qui correspond au délai potentiel maximal requis pour le contacter )
      • L'état de la connexion
      • La liste des modules chargés ainsi que leur état

    Description des erreurs

    Excerpt Include
    Les vérifications communes à tous les démons
    Les vérifications communes à tous les démons
    nopaneltrue

    Excerpt Include
    Les vérifications de vol de CPU
    Les vérifications de vol de CPU
    nopaneltrue

    Problèmes réseau
    Latence réseau importante vers des Pollers passif

    Quand la connexion vers un ou plusieurs Pollers passifs souffre d'une latence réseau trop importante, cette information est remontée dans le résultat court  

    Panel

    Image Added

    La récupération des données de connectivité prend trop de temps
    Panel

    Image Added

    Le timeout du check est trop court

    Quand le timeout associé à ce check est inférieur au paramètre timeout renseigné dans la configuration d'un des démons que doit contacter le Scheduler, il se peut que la connexion vers ce démon échoue lors du test de connectivité.

    Résultat court :

    Un message d'avertissement signale que certains démons nécessitent un timeout plus élevé pour être contacté, et une valeur conseillée est affichée.

    Panel

    Image Added

    Résultat long :

    Dans ce cas, le Status dans le  résultat long  précise que l'erreur peut être liée au délai trop court accordé pour tester la connexion. Il est alors conseillé d'augmenter le timeout du check pour que le test soit pertinent.

    Panel

    Image Added

    Démons passifs injoignables

    Résultat court :

    Quand la connexion vers certains Pollers passifs ou certains Reactionners passifs est impossible, le résultat court du check liste les démons injoignables, en précisant pour chacun :

    • Le nom
    • L'adresse et le port de connexion
    • Les tags gérés

    Ceux-ci sont regroupés par type ( Poller ou Reactionner ), un compteur indique le nombre de passifs injoignables et le nombre total de démons du même type disponible ( passifs et actifs )

    Panel

    Image Added

    Résultat long :

    Le tableau du résultat long , indique les problèmes de connectivité dans la colonne Status, avec un message précisant leur nature. 

    Panel

    Image Added

    Schedulers injoignables

    Résultat court  :

    Quand le Scheduler ne parvient pas à communiquer avec un ou plusieurs Schedulers du royaume, ceux-ci sont listés avec :

    • Leur nom
    • Leur adresse
    • Leur port de connexion

    Un compteur indiquant le nombre de Schedulers injoignables et le nombre total de Schedulers disponibles est également affiché.

    L'indisponibilité d'un ou plusieurs Scheduler pouvant perturber le calcul des états de clusters, un message d'avertissement le précisant est également ajouté.

    Panel

    Image Added

    Résultat long  :

    Le tableau listant les connexions du Scheduler, indique les problèmes de connectivité vers les autres Schedulers dans la colonne Status, avec un message précisant la nature du problème.

    Panel

    Image Added

    Problème de conflits d'Arbiters

    • Conflits d'Arbiters :

      Si le démon est contacté par des Arbiters qui ne sont pas sur la même architecture ( par exemple un Arbiter de Production et un autre de l'environnement de Testing ), le check sera mis en CRITICAL .
    Panel

    Image Added

    • Conflit d'Arbiters qui ont le même nom d'Architecture :

     

    Comme dans le cas précédent, le démon est contacté par des Arbiters d'architectures différentes, mais qui ont le même nom. On sort également en CRITICAL mais en avertissant que les noms sont identiques, et en indiquant où changer le nom des architectures.

    Panel

    Image Added

    Métriques

    Scroll Title
    anchorparameter_check_metrics
    title
    Erreur d'un démon bloqué, qui doit être redémarré
    • Si un démon est dans un état bloqué, il doit être redémarré :
      • les checks seront en ERROR avec le message suivant, il faut ouvrir un ticket à votre support pour analyser le blocage
    Panel

    Image Removed

    Le démon a bloqué une tentative de chargement d'objet malveillant

    Il est possible qu'un démon puisse détecter et bloquer une tentative d'injection d'objet malveillant par le biais de l'une de ses routes.

    Un message est remonté :

  • le nombre total de ces tentatives que le démon a bloqué ce jour ( le compte commence à minuit ) ;
  • pour chacune des tentatives ( maximum 3 ) :
  • descriptif de l'objet que l'attaquant essaye de charger,
  • sa provenance de l'attaque, par exemple le nom de la route utilisée, et l'IP à la source de l'attaque,
  • sa date.
    Panel

    Image Removed

    Le démon est en cours d'arrêt

    Lorsque le démon est en cours d'arrêt, le check le signale, et les informations relatives aux modules ne sont plus disponibles

    Panel

    Image Removed

    Métriques
    NomUnitéDescription
    No Format
    languagetext
    themeEmacs
    cpu_stolen__vmware__percent_ready
    %( Seulement si le démon est situé sur une VM VMWare ) Valeur de l'indicateur VMWare %ready ( temps de blocage de la VM avant d'avoir accès à ses VCpu, donc temps perdu du point de vue de la VM )
    nb_hosts
    ---

    Nombre d'hôtes gérés par ce Scheduler.

    No Format
    languagetext
    themeEmacs
    nb_clusters
    ---

    Nombre de clusters gérés par ce Scheduler.

    No Format
    languagetext
    themeEmacs
    nb_late_checks	
    ---

    Nombre d'exécutions de checks ( pour les pollers ) en retard de lancement ( late ) dans ce Scheduler

    No Format
    languagetext
    themeEmacs
    nb_late_event_handlers
    ---

    Nombre d’exécutions d'event handlers ( pour les reactionners ) en retard de lancement ( late ) dans ce Scheduler

    No Format
    languagetext
    themeEmacs
    nb_checks
    ---

    Nombre de checks gérés par ce Scheduler.

    No Format
    languagetext
    themeEmacs
    nb_late_notifications
    ---

    Nombre d’exécutions de notifications ( pour les reactionners ) en retard de lancement ( late ) dans ce Scheduler