Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Make by tools (01.00.01) - action=clean_macro_parameter
Scroll Ignore
scroll-pdftrue
scroll-officetrue
scroll-chmtrue
scroll-docbookhtmltruefalse
scroll-eclipsehelpdocbooktrue
scroll-epubeclipsehelptrue
scroll-htmlepubtrue
Panel
titleSommaire

Table of Contents
stylenone

Contexte

Le modèle shinken-scheduler vous permet de superviser un hôte hébergeant le démon Scheduler ( voir la page Le Scheduler ).

Le modèle shinken-scheduler hérite du modèledes modèles suivants : 

  • Modèle shinken qui fournira des données globales de fonctionnement des checks de shinken ( voir la page Modèle shinken )
  • Modèle shinken-daemon qui fournira des données globales de fonctionnement des checks de démon de shinken ( voir la page Modèle shinken-daemon
.
  • )

Afin de superviser le démon Scheduler, le modèle shinken-scheduler appliqué à votre l'hôte , attachera deux checks qui vérifieront la santé et la performance de ce démon.

Sommaire des checks

Nom

Description

Synchronizer

Vérifie que le démon

Synchronizer

Scheduler peut être correctement contacté sur le réseau

; la version du démon est affichée également ( Résultat court )

et que les modules sont opérationnels ( Résultat long ).

voir la page Scheduler - $KEY$ - Running Well )

Synchronizer- $KEY$ - Performance
Vérifie lun

La version du démon est également affichée ( Résultat court ) .

Vérifie un grand nombre de données sur les performances du Scheduler et de ses Pollers

voir la page Scheduler - $KEY$ - Performance )

.

Les données

Les données communes pour tous les checks

Provenant du modèle shinken

Excerpt Include
Modèle shinken
Modèle shinken
nopaneltrue

Provenant du modèle shinken-daemon

Excerpt Include
Modèle shinken-daemon
Modèle shinken-daemon
nopaneltrue

Les données spécifiques

Excerpt
Nom de la donnéeDescriptionValeur par défautHérité du modèle d'hôte ou locale
SHINKEN_PROTOCOL

Protocole utilisé pour établir la connexion avec le Scheduler

httpshinken
CHECK_SHINKEN_TIMEOUTTimeout utilisé pour établir la connexion avec le Scheduler, également utilisé par le Scheduler pour tester ses connexions vers les autres démons3shinken
SCHEDULER_PORT

Port utilisé pour établir la connexion avec le Scheduler

7768Locale
PASSIVE_POLLER_LATENCY

Latence de connexion ( en secondes )  au-delà de laquelle le check sort en erreur

0.5Locale
SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTESTemps ( en minutes ) additionnel de marge rajouté à l'intervalle de sauvegarde de la rétention avant qu'une rétention ancienne ne soit déclarée trop vieille et retourne en WARNING.5Locale
THRESHOLD_CPU_STOLEN_WARNINGSeuil de CPU volé ( en pourcentage ) sur une machine virtuelle supervisée par VMware avant de déclencher un warning5shinken-deamon
THRESHOLD_CPU_STOLEN_CRITICALSeuil de CPU volé ( en pourcentage ) sur une machine virtuelle supervisée par VMware avant de déclencher un critique10shinken-deamon

Les données DFE ( Duplicate Foreach )

Provenant du modèle shinken-scheduler

Excerpt Include
Le Scheduler
Le Scheduler
nopaneltrue

Les données spécifiques

Pas de données spécifiques.

Les données DFE ( Duplicate Foreach )

Unités
Excerpt
Scroll Title
anchordata_for_check_sup_de_sup
title
NomModifiable sur Unité
Excerpt
NomModifiable sur 
DéfautValeur par défaut à l'installation de ShinkenDescription
No Format
SYNCHRONIZER
SCHEDULER_LIST

l'Hôte

( Onglet Données )

---

scheduler-master$($_HOSTSCHEDULER

_PORT$)$

scheduler-master$($_HOSTSCHEDULER

_PORT$)$

Liste

de scheduler

des Schedulers (  Multi-démon   )

Check(s) impacté(s) :

( voir la page Scheduler - $KEY$ - Running Well  ).voir la page
Scheduler - $KEY$ - Performance (
)

Comment appliquer un modèle d'hôte à un hôte

Excerpt Include
Comment appliquer un modèle d'hôte à un hôte - Pack shinken
Comment appliquer un modèle d'hôte à un hôte - Pack shinken
nopaneltrue

Problèmes réseau

Latence réseau importante vers des Pollers passif

Quand la connexion vers un ou plusieurs Pollers passifs souffre d'une latence réseau trop importante, cette information est remontée dans le résultat court  

Panel

Image Removed

La récupération des données de connectivité prend trop de temps
Quand le check ne parvient pas à récupérer les données de connectivité du Scheduler, la cause est indiquée dans le résultat court  et le tableau affichant l'état des connexions dans le résultat long n'est plus affiché. 
Panel

Image Removed

Le timeout du check est trop court

Quand le timeout associé à ce check est inférieur au paramètre timeout renseigné dans la configuration d'un des démons que doit contacter le Scheduler, il se peut que la connexion vers ce démon échoue lors du test de connectivité.

Résultat court :

Un message d'avertissement signale que certains démons nécessitent un timeout plus élevé pour être contacté, et une valeur conseillée est affichée.

Panel

Image Removed

Résultat long :

Dans ce cas, le Status dans le  résultat long  précise que l'erreur peut être liée au délai trop court accordé pour tester la connexion. Il est alors conseillé d'augmenter le timeout du check pour que le test soit pertinent.

Panel

Image Removed

Démons passifs injoignables

Résultat court :

Quand la connexion vers certains Pollers passifs ou certains Reactionners passifs est impossible, le résultat court du check liste les démons injoignables, en précisant pour chacun :
  • Le nom
  • L'adresse et le port de connexion
  • Les tags gérés

Ceux-ci sont regroupés par type ( Poller ou Reactionner ), un compteur indique le nombre de passifs injoignables et le nombre total de démons du même type disponible ( passifs et actifs )

Panel

Image Removed

Résultat long :

Le tableau du résultat long , indique les problèmes de connectivité dans la colonne Status, avec un message précisant leur nature. 

Panel

Image Removed

Schedulers injoignables

Résultat court  :

Quand le Scheduler ne parvient pas à communiquer avec un ou plusieurs Schedulers du royaume, ceux-ci sont listés avec :

  • Leur nom
  • Leur adresse
  • Leur port de connexion

Un compteur indiquant le nombre de Schedulers injoignables et le nombre total de Schedulers disponibles est également affiché.

L'indisponibilité d'un ou plusieurs Scheduler pouvant perturber le calcul des états de clusters, un message d'avertissement le précisant est également ajouté.

Panel

Image Removed

Résultat long  :

Le tableau listant les connexions du Scheduler, indique les problèmes de connectivité vers les autres Schedulers dans la colonne Status, avec un message précisant la nature du problème.

Panel

Image Removed

Problème de conflits d'Arbiters

Conflits d'Arbiters :
Si le démon est contacté par des Arbiters qui ne sont pas sur la même architecture ( par exemple un Arbiter de Production et un autre de l'environnement de Testing ), le check sera mis en CRITICAL .
Panel

Image Removed

  • Conflit d'Arbiters qui ont le même nom d'Architecture :

 

Comme dans le cas précédent, le démon est contacté par des Arbiters d'architectures différentes, mais qui ont le même nom. On sort également en CRITICAL mais en avertissant que les noms sont identiques, et en indiquant où changer le nom de vos architectures.

Panel

Image Removed

Les serveurs ne sont pas à la même heure

  • Si le serveur n'est pas à la même heure que le serveur Arbiter ( qui fait office de référence ), une erreur CRITICAL sera levée, car des temps différents sur des serveurs distincts va avoir des effets désastreux sur la cohérence des données de supervision.
Panel

Image Removed

La dernière connexion de l'Arbiter remonte à trop longtemps

  • Si la dernière connexion de l'Arbiter remonte à trop de temps, le démon va lever un WARNING . Ceci peut être dû à :
    • Les Arbiters MASTER et SPARE sont réellement éteints.
    • Les Arbiter MASTER et SPARE sont en train d'envoyer des configurations à d'autres démons, et ne peuvent donc pas contacter ce démon pour l'instant.
Panel

Image Removed

Info

Le temps pris en compte comme limite de dernière connexion est de check_interval * max_check_attempts du démon ( définis dans sa configuration ).

Les valeurs par défauts sont de 60s * 3 ( soit 3 minutes )

Le démon est en cours d'arrêt

Lorsque le démon est en cours d'arrêt, le check le signale, et les informations relatives aux modules ne sont plus disponibles

Panel

Image Removed

Check : Scheduler - $KEY$ - Performance

La supervision d'un démon Scheduler présente un grand nombre de statistiques de performances qui permettent de visualiser le travail d'ordonnancement effectué par le Scheduler, ainsi que les statistiques des Poller qui viennent se connecter à celui-ci.

Le démon Scheduler va effectuer tout le travail d'ordonnancement, et c'est à lui que vont s'adresser ( en autres ) les démons Poller et Reactionner pour récupérer les checks et les notifications à effectuer. Son bon fonctionnement est donc vital au bon fonctionnement de votre architecture Shinken. Aussi, pour dimensionner correctement une installation Shinken Entreprise, il est important de pouvoir visualiser combien de checks ses Poller satellites peuvent traiter, ainsi que leurs utilisations CPU et RAM.

Les checks du Scheduler fournis dans le pack Shinken proposent donc un grand nombre de données sur les performances du Scheduler et de ses Pollers.

L'ensemble des informations se retrouve dans le résultat court du check.

Statistiques générales

  • La première statistique remontée par le check est le pourcentage CPU moyen utilisé par le démon Scheduler sur le serveur supervisé.
  • La deuxième statistique remontée est le temps d'attente moyen d'un check sur le Scheduler avant d'être récupéré par un Poller pour traitement.
  • La date et la durée de la dernière sauvegarde réussie de rétention
  • La date et la durée du dernier chargement de rétention
  • Si votre machine virtuelle est hébergée sur un système VWMare, alors une dernière statistique sera remontée.
    • Elle affiche le taux de CPU %ready ( vol de temps de calcul du CPU votre machine par les autres machines virtuelles de l'hyperviseur ). 
Panel

Image Removed

Suivi des chargements/sauvegardes des données de rétention

Les données de rétention sont chargées/sauvegardées par les démons Schedulers. Un affichage permet de voir :

  • La date et la durée du dernier chargement de rétention ( lors d'une nouvelle configuration )
  • La date et la durée de la dernière sauvegarde de rétention ( lors d'une nouvelle configuration, ou alors toutes les retention_interval disponibles dans le fichier shinken.cfg )
Panel

Image Removed

Panel

Image Removed

Si la dernière sauvegarde de rétention est trop vieille, c’est-à-dire plus que retention_interval + SCHEDULER__RETENTION__RENTENTION-IS-TOO-OLD-AFTER_X_MINUTES, alors un WARNING sera remonté.

Panel

Image Removed

Si le dernier essai en date de sauvegarde de rétention est en ERROR , alors un message sera disponible avec le dernier message du module en question.

Panel

Image Removed

Suivie des Pollers Satellites

Informations générales

Suite aux statistiques générales, un premier tableau rassemble les données de performance des satellites du Scheduler de type Poller.

La première partie du tableau ( les trois premières colonnes ) permet d'identifier les Pollers en affichant leurs noms, leurs appartenances à un Royaume, et enfin leurs tags ( None si aucun tag n'est associé au Poller ).

Panel

Image Removed

Statistiques des checks

Les deux colonnes suivantes affichent les performances de traitement des checks des Pollers :

  • checks todo : Moyenne du nombre de checks à traiter par le Poller (en checks par seconde)
  • checks done : Moyenne du nombre de checks traités par le Poller (en checks par seconde) 

Vous pourrez donc avoir l'information du nombre de checks récupérés et traités par vos différents Pollers rattachés à ce Scheduler et ainsi pouvoir comparer les performances de vos Pollers suivant leur positionnement dans votre architecture réseau, ou suivant leur puissance matérielle.

Panel

Image Removed

Utilisation du CPU

CPU Available

La colonne "CPU available" concerne les performances CPU des Pollers.

Cette information représente la charge du Poller. Il s'agit d'un indicateur général indiquant si le Poller peut encore supporter des checks supplémentaires, ou s’il est chargé au maximum. Cet indicateur n'est pas lié aux autres indicateurs de performances de la machine ( File d'attente CPU, mémoire )

Une pastille orange précédant la mention "Poller load" signifie que le Poller ne peut plus prendre de checks supplémentaires.

C'est donc un signe indiquant qu'il faudrait ajouter un Poller supplémentaire dans l'architecture Shinken.

Si tous vos Pollers sont en surcharge, alors les checks ne pourront plus être récupérés, et vous aurez des retards visibles dans le retour de votre check "Scheduler - Running Well".

Il vous faudra de toute urgence rajouter des Pollers dans votre royaume.

Panel

Image Removed

Voici par exemple une surcharge d'un Poller.

Panel

Image Removed

CPU used by the poller

La colonne "CPU used by the poller" permet d'afficher la consommation CPU utilisée par le Poller. Comme son nom l'indique, un graphique est associé à ce check et permet d'afficher cette métrique.

Lorsque le Poller utilise le maximum de CPU possible sur le serveur, une information apparaît.

Cette valeur de CPU utilisée par le Poller ne sera jamais à 100%, car le système Linux hébergeant le démon utilise une partie du CPU, comme les applications additionnelles que ce serveur peut utiliser.

Plus il y a d'application sur votre serveur Poller consommant du CPU, moins votre démon pourra utiliser de CPU à ses fins et atteindra rapidement sa charge maximale utilisable ( bien en deçà de 100% ).

Panel

Image Removed

Lorsque la limite est atteinte, voici l'affichage dans le tableau.

Panel

Image Removed

Utilisation de la RAM

% used RAM on the server

La dernière colonne du tableau représente le pourcentage de RAM utilisé sur le serveur.

Si la valeur détectée est inférieure à la limite définie, alors la consommation est considérée comme normale et la pastille "normal" est affichée.

La limite paramétrée dans le Poller est affichée entre parenthèses.

Panel

Image Removed

Si l'utilisation de la mémoire (RAM) sur le serveur dépasse le seuil défini dans la configuration de ce Poller, une pastille rouge de dépassement est affichée, indiquant l'utilisation excessive de la mémoire. Lorsque cet avertissement est affiché, le Poller n'exécute plus de checks supplémentaires tant que l'utilisation de la mémoire est supérieure au seuil défini.

Panel

Image Removed

Load

Si par exemple le CPU n'est pas utilisé au maximum de ses performances, mais que sa "running queue" ( file d'attente ) est importante, la limitation de CPU ne peut prévenir ce cas.

Pour s'assurer que le Poller ne tente d'exécuter des checks sur une machine surchargée le Poller se limitera en fonction de l'état de la file d'attente processeur ( représentant la valeur source du load average ).

Dans ce cas, le Poller n'exécutera plus de checks supplémentaires tant que le nombre de processus dans la file d'attente du processeur sera supérieur au seuil choisi. La limite paramétrée dans le Poller est affichée entre parenthèses.

Panel

Image Removed

Lorsque la limite est atteinte pour ce Poller, alors le check "Scheduler - Performance" ajoute une pastille rouge vous informant du dépassement de la limite.

Panel

Image Removed

Suivie des Reactionners Satellites

Suite aux statistiques des Satellites de type "Poller", un deuxième tableau rassemble les données de performance des satellites du Scheduler de type Reactionner.

Les trois premières colonnes représentent, comme pour le tableau précédent, les données d'identification des Reactionners venant récupérer les notifications auprès du Scheduler.

Les deux colonnes suivantes permettent d'obtenir les statistiques des notifications à traiter par les Reactionner ainsi que les notifications déjà réalisées ( en nombre de notifications par seconde ).

Enfin les deux dernières colonnes affichent les informations CPU des Reactionners, de la même manière que pour les Pollers.

Panel

Image Removed

Type de checks fait par seconde

Le Scheduler est un ordonnanceur de checks.

Cet ordonnancement peut être fait pour différentes raisons qui sont énumérées dans la colonne "Causes" de ce tableau ci-contre :

  • Dependency : Les checks qui sont demandés, car liés à une dépendance ( checks liés à son hôte ou hôte fils lié à son hôte parent )
  • Retry : Les checks qui sont revérifiés pour la confirmation des états, via la propriété "Intervalle de nouvelles tentatives de confirmations d'état" des checks et des hôtes
  • Force : Les checks qui sont demandés par les utilisateurs depuis l'interface de visualisation ( bouton "Forcer la vérification" )
  • Schedule : Les checks qui sont ordonnancés de manière régulière via la propriété "intervalle entre les vérifications" des checks et des hôtes ( normalement le plus actif des 4 raisons )

Pour chaque raison, le nombre de checks par seconde est affiché dans la deuxième colonne.

Panel

Image Removed

Consommation de temps CPU des checks

Le check "Scheduler - Performance" peut également détecter si la commande d'un check prend trop de temps CPU lors de son exécution.

Si le seuil est atteint ( et dans ce cas seulement ), le check passe en état WARNING et le tableau ci-contre apparaît dans le résultat du check.

Ce tableau contient le nom des commandes, leurs temps CPU consommés, le seuil fixé pour cette commande et la date de l'exécution.

Panel

Image Removed

Par défaut, le seuil est fixé à 5 secondes. Cette propriété nommée "Seuil d'alerte de l'utilisation CPU (sec)" est modifiable via l'UI de configuration dans les onglets "Supervision" des objets "hôte" et "check" et dans l'onglet "Général" des commandes. La clé d'import est warning_threshold_cpu_usage.

Ce paramètre est aussi modifiable globalement dans le fichier /etc/shinken/shinken.cfg.

Code Block
# How many seconds a command check (for hosts, clusters and checks) is allowed to consume cpu
# before raising a warning in check scheduler performance
# by default: 5
#warning_threshold_cpu_usage=5

Après modification, un redémarrage de l'Arbiter sera ici requis.

Cas Particuliers d'erreur

Si un Poller est détecté comme injoignable ( par exemple s'il y a un problème réseau avec ce démon ou alors qu'il vient juste d'être désactivé depuis l'Arbiter ) alors un message est affiché.

Panel

Image Removed

Description des erreurs

Vol de CPU

Seulement si votre machine virtuelle est hébergé sur un hyperviseur VMWare

  • Votre machine à du vol de CPU :
    • Si la VM se fait voler trop de temps de calcul (CPU Stolen), le check sera mis en  WARNING    ou en  CRITIQUE  (  en fonction du taux de vol fixé par défaut ou  indiqué par l'utilisateur   ).
    • Vous pouvez avoir plus d'information sur cet indicateur et comment réduire la parte de temps de la VM sur la page Machine VMWare avec un fort taux de CPU Stolen (%ready + %costop)
Panel

Image Removed

Panel

Image Removed

Erreur d'un démon bloqué, qui doit être redémarré

  • Si un démon est dans un état bloqué, il doit être redémarré. Si c'est le cas:
    • les checks seront en ERROR avec le message suivant,
    • il faut ouvrir un ticket à votre support pour analyser le blocage
Panel

Image Removed

Le démon a bloqué une tentative de chargement d'objet malveillant

Il est possible qu'un démon puisse détecter et bloquer une tentative d'injection d'objet malveillant par le biais de l'une de ses routes.

Un message est remonté :

  • le nombre total de ces tentatives que le démon a bloqué ce jour ( le compte commence à minuit ) ;
  • pour chacune des tentatives ( maximum 3 ) :
    • descriptif de l'objet que l'attaquant essaye de charger,
    • sa provenance de l'attaque, par exemple le nom de la route utilisée, et l'IP à la source de l'attaque,
    • sa date.
PanelImage Removed

Le démon est en cours d'arrêt

Lorsque le démon est en cours d'arrêt, le check le signale, et les informations relatives aux modules ne sont plus disponibles

PanelImage Removed