Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

La supervision d'un démon Scheduler présente un grand nombre de statistiques de performances qui permettent de visualiser le travail d'ordonnancement effectué par le Scheduler, ainsi que les statistiques des Pollers qui viennent se connecter à celui-ci.

Le démon Scheduler va effectuer tout le travail d'ordonnancement, et c'est à lui que vont s'adresser ( en autres ) les démons Poller et Reactionner pour récupérer les checks et les notifications à effectuer. Son bon fonctionnement est donc vital au bon fonctionnement de l'architecture Shinken. Aussi, pour dimensionner correctement une installation Shinken Entreprise, il est important de pouvoir visualiser combien de checks ses Pollers satellites peuvent traiter, ainsi que leurs utilisations CPU et RAM.

Les checks du Scheduler fournis dans le pack Shinken proposent donc un grand nombre de données sur les performances du Scheduler et de ses Pollers.


Panel

Image Added

Le check Scheduler - $KEY$ - Performance renvoie les statistiques du Scheduler: 

  • temps de réponses,
  • liste des démons avec lesquels il est connecté.
    Panel

    Image Removed

    Paramétrage

    Le check utilise la ligne de commande suivante :

    Scroll Title
    title
    Code Block
    languagetext
    themeEmacs
    $PLUGINSDIR$/check_shinken -H "$HOSTADDRESS$"
     -p "$ARG2$" --shinkenversion "$SHINKENVERSION$" -t 
    arbiter
    scheduler -m $ARG1$ -l "lck-$LASTSERVICECHECK$"
     --passive_poller_latency "$_HOSTPASSIVE_POLLER_LATENCY$" --timeout "$_HOSTCHECK_SHINKEN_TIMEOUT$" -w "$_HOSTTHRESHOLD_CPU_STOLEN_WARNING$" -c 
    "$_HOSTTHRESHOLD_CPU_STOLEN_CRITICAL$" --scheduler_too_old_retention_save_margin "$_HOSTSCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES$"
    



    Données utilisées provenant du modèle

    Données communes pour les checks du modèle

    Provenant du modèle shinken

    Excerpt Include
    Modèle shinken
    Modèle shinken
    nopaneltrue

    Provenant du modèle shinken-daemon

    Excerpt Include
    Modèle shinken-daemon
    Modèle shinken-daemon
    nopaneltrue

    Données spécifiques pour ce check

    Provenant du modèle shinken-scheduler

    Excerpt Include
    Le Scheduler
    Le Scheduler
    nopaneltrue

    Données spécifiques pour ce check

     Pas de données spécifiques pour ce check.

    NomModifiable sur UnitésDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    ARBITER_PORT

    Modèle d'hôte

    ( Onglet Données )

    ---77707770Configuration du port de communication avec l'arbiter.
    Autres Check(s) impacté(s) :Note : Cette valeur remplacera dans la commande la valeur $ARG2$

    Les données DFE ( Duplicate Foreach )

    Excerpt Include
    Modèle shinken-arbiterscheduler
    Modèle shinken-arbiterscheduler
    nopaneltrue

    Données utilisées provenant du check

     Pas de données spécifiques provenant du check pour ce check.

    Données globales

    NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    SHINKENVERSION

    non

    -

    --

    Numéro de la version installée

    • Propriétés de l'hôte
    NomModifiable surUnitéDéfautValeur par défaut à l'installation de ShinkenDescription
    No Format
    HOSTADDRESS

    l'Hôte

    ( Onglet Général )

    Nom de l'hôteAdresse de l'hôte

    Excerpt Include
    Mise en place du Pack windows
    Mise en place du Pack windows
    nopaneltrue

    Résultat

    Exemple

    Panel

    Image RemovedImage Added

    Interprétation

    Statut

    Il peut prendre quatre valeurs  OK /   CRITIQUE /   ATTENTION   /   INCONNU .

    • Le statut va dépendre du retour de sonde et de la configuration spécifique du check pour les données suivantes :
      • THRESHOLD  THRESHOLD_CPU_STOLEN_CRITICAL,
        THRESHOLD
      •  THRESHOLD_CPU_STOLEN_WARNING,
      •  SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES    
      •  POLLER_NB_CHECK_IN_TIMEOUT_TOLERATE
      •  CHECKCHECK_SHINKEN_TIMEOUTTIMEOUT 
    • Voici un tableau récapitulatif du statut attendu suivant le retour de sonde :.


    Les vérifications communes

    Excerpt Include
    Liste des événements sur les démons modifiant le résultat des checks
    Liste des événements sur les démons modifiant le résultat des checks
    nopaneltrue


    Les vérifications spécifiques

    Situation

    Statut

    Si un démon est bloqué et doit être redémarré

    CRITIQUE

    En fonction du pourcentage de CPU volé :

    • Si c'est supérieur à THRESHOLD_CPU_STOLEN_CRITICALpar défaut : 10% )

    CRITIQUE

    En fonction du pourcentage de CPU volé :

    • Si c'est supérieur à THRESHOLD_CPU_STOLEN_WARNING( par défaut : 5% )

    ATTENTION

    Si erreur de surcharge des disques de logs

    ATTENTION 

    Si le démon a bloqué une tentative de chargement d'objet malveillant

    ATTENTION 

    Si le démon est en cours d'arrêt

    Le temps de connexion à la base de données :

    • Si c'est supérieur à SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES (  par défaut : 5%  )

    ATTENTION

    Le temps de connexion à la base de données :

    • Si c'est supérieur à POLLER_NB_CHECK_IN_TIMEOUT_TOLERATE (  par défaut : 0  )

    ATTENTION

    ATTENTION 

    Si la sonde n'a pas eu de réponse avant le temps maximum

    • Si supérieur àCHECK_SHINKEN_TIMEOUT par défaut : 3 sec)
    INCONNU

    Résultat

    Renvoi au format texte les statistiques

    • temps de réponses du démon,
    • et la liste des démons avec lesquels il est en connecté.

    Résultat Long

    Pas de résultat long pour ce check.

    Description des erreurs

    Erreur de vol de CPU

    Seulement si votre machine virtuelle est hébergé sur un hyperviseur VMWare

    • Si la machine virtuelle se fait voler trop de temps de calcul (CPU Stolen), le check sera mis en WARNING  ou en CRITIQUE ( en fonction du taux de vol fixé par défaut ou indiqué par l'utilisateur ).
    Panel

    Image Removed

    Image Removed
    Les serveurs ne sont pas à la même heure
    Si le serveur n'est pas à la même heure que le serveur Arbiter ( qui fait office de référence ), une erreur CRITICAL sera levée, des temps différents sur les différents serveurs auront des effetsnéfastessur la cohérence des données de supervision.
    • Le nombre de checks effectués par seconde par le Poller supervisé.

    Résultat Long

    Dans le Résultat long du check "Poller - Performance", deux tableaux présentent des statistiques sur les temps d'exécution des checks dans le Poller.

    • Le premier tableau affiche les 5 checks consommant le plus de temps CPU parmi l'ensemble des checks exécutés sur le Poller.
      Dans ce tableau, pour chaque check sont affichés le nom du check, l'hôte sur lequel il est accroché, et le temps d'exécution du check.
    Panel

    Image Added

    • Un deuxième tableau présente la répartition du temps d'exécution des checks. Dans le tableau en exemple, on voit que les checks exécutés sur ce Poller s'exécutent majoritairement en moins de 50ms.
    Panel

    Image Added

    Description des erreurs

    Excerpt Include
    Les vérifications communes à tous les démons
    Les vérifications communes à tous les démons
    nopaneltrue

    Excerpt Include
    Les vérifications de vol de CPU
    Les vérifications de vol de CPU
    nopaneltrue

    Métriques

    Scroll Title
    anchorparameter_check_metrics
    title
    NomUnitéDescription
    No Format
    languagetext
    themeEmacs
    checks_todo_by_sec
    ---

    Nombre de vérifications d'hôtes et de checks générées par seconde dans le Scheduler ( moyenne glissante calculée sur 1 min ).

    No Format
    languagetext
    themeEmacs
    nb_reactionners_in_overload
    ---

    Nombre de Reactionners connectés à ce Scheduler en surcharge.

    No Format
    languagetext
    themeEmacs
    nb_pollers
    ---Nombre de Pollers connectés à ce Scheduler.
    No Format
    languagetext
    themeEmacs
    nb_reactionners
    ---

    Nombre de Reactionners connectés à ce Scheduler.

    No Format
    languagetext
    themeEmacs
    checks_done_by_sec
    ---Nombre de résultats de vérification d'hôtes et de checks donnés par les Pollers par seconde ( moyenne glissante calculée sur 1 min ).
    No Format
    languagetext
    themeEmacs
    average_scheduler_cpu_usage
    ---

    Durée d'un cycle de traitement du Scheduler.

    • Le maximum est à 100.
    • Plus cette valeur est haute plus cela indique une charge sur le Scheduler.
    No Format
    languagetext
    themeEmacs
    notifications_and_event_handlers_done_by_sec
    ---Nombre de notifications & event handlers fait par les Reactionners par seconde ( moyenne glissante calculée sur 1 min ).
    No Format
    languagetext
    themeEmacs
    notifications_todo_by_sec
    ---Nombre de notifications générées par seconde dans le Scheduler ( moyenne glissante calculée sur 1 min ).
    No Format
    languagetext
    themeEmacs
    save_retention_time
    ---Durée en seconde de la dernière sauvegarde de rétention
    No Format
    languagetext
    themeEmacs
    event_handlers_todo_by_sec
    ---

    Nombre d'event handlers générées par seconde dans le Scheduler ( moyenne glissante calculée sur 1 min ).

    No Format
    languagetext
    themeEmacs
    load_retention_time
    ---

    Durée en seconde du dernier chargement de rétention

    Panel

    Image Removed

    Erreur d'un démon bloqué, qui doit être redémarré
    • Si un démon est dans un état bloqué, il doit être redémarré :
      • les checks seront en ERROR avec le message suivant, il faut ouvrir un ticket à votre support pour analyser le blocage
    Panel

    Image Removed

    Le démon a bloqué une tentative de chargement d'objet malveillant

    Il est possible qu'un démon puisse détecter et bloquer une tentative d'injection d'objet malveillant par le biais de l'une de ses routes.

    Un message est remonté :

  • le nombre total de ces tentatives que le démon a bloqué ce jour ( le compte commence à minuit ) ;
  • pour chacune des tentatives ( maximum 3 ) :
  • descriptif de l'objet que l'attaquant essaye de charger,
  • sa provenance de l'attaque, par exemple le nom de la route utilisée, et l'IP à la source de l'attaque,
  • sa date.
    Panel

    Image Removed

    Le démon est en cours d'arrêt

    Lorsque le démon est en cours d'arrêt, le check le signale, et les informations relatives aux modules ne sont plus disponibles

    Panel

    Image Removed

    Métriques

    NomUnitéDescription

    No Format
    languagetext
    themeEmacs
    cpu
    average_
    stolen
    scheduler_cpu_
    vmware__percent_ready%( Seulement si le démon est situé sur une VM VMWare ) Valeur de l'indicateur VMWare %ready ( temps de blocage de la VM avant d'avoir accès à ses VCpu, donc temps perdu du point de vue de la VM )
    estimated_overload
    ---

    Estimation de la surcharge du Scheduler.

    • Si cette métrique est à zéro alors le Scheduler n'est pas en surcharge.
    • Si cette métrique est trop souvent supérieure à 0, c'est l'indication qu'il y a besoin d'un Scheduler supplémentaire.
    No Format
    languagetext
    themeEmacs
    nb_pollers_in_overload
    ---

    Nombre de Pollers connectés à ce Scheduler en surcharge.