Haute disponibilité pour la supervision
La plateforme de supervision est souvent un élément très important d'un parc informatique. Il faut pouvoir avoir pleinement confiance dans cette plateforme, et en sa capacité à informer des erreurs et problèmes potentiels du périmètre de machines supervisées.
Il est donc intéressant d'avoir une architecture hautement disponible pour la supervision afin que celle ci soit fonctionnelle même lors d'un problème sur une partie du logiciel de supervision.
Shinken Entreprise permet de configurer les démons qui composent une installation de manière à obtenir une supervision hautement disponible.
Comment configurer Shinken Entreprise pour avoir une supervision hautement disponible
Le principe des spares
Chaque démon dans Shinken Entreprise peut être secondé par un démon de même type configuré en tant que Spare. Le principe des Spares permet d'assurer une haute disponibilité en assurant un service continu même lorsqu'un démon cesse de fonctionner.
Comment marche un spare. Faire un schéma stylé.
Comment ca se comporte avec les royaumes (les spares prennent le relai uniquement d'un master de son royaume).
On classe alors les démons dans 2 catégories: les démons maîtres et les démons Spare.
Le cycle de vie d'un Spare est le suivant:
- Dans un fonctionnement nominal, le démon maître fonctionne correctement: il reçoit des données des autres démons et effectue son travail. Le démon Spare est présent pour pouvoir effectuer la travail du démon maître si celui ci ne peut plus assumer son rôle. Dans un cas de fonctionnement nominal comme celui ci, le démon Spare est inactif.
- Le démon maître cesse de fonctionner pour une raison quelconque (erreur inconnue, arrêt volontaire, maintenance du serveur, ...). Il ne peut donc plus assumer son rôle. Ce dysfonctionnement est détecté par l'Arbiter qui va alors activer le démon Spare pour qu'il remplace le démon maître et puisse continuer d'assurer le service. Le démon spare agit donc exactement comme la démon maitre: il assure le même service. Ce remplacement de démons est invisible du point de vue de l'utilisateur.
- Le démon maître est à nouveau fonctionnel (intervention suite à une erreur, fin de maintenance du serveur, ...). L'Arbiter remarque que le démon maître peut à nouveau effectuer son travail. Puisqu'il s'agit du démon maître, il va être préféré au démon Spare. L'Arbiter va donc désactiver le démon Spare et ordonner le démon maître de reprendre son travail.
Plusieurs remarques peuvent être effectuées sur le fonctionnement des spares.
- L'exemple sur le schéma met en scène un seul démon maître et un seul démon Spare. Il peut en fait exister plusieurs démons maîtres et plusieurs démons Spares.
Par exemple, on peut avoir 3 Schedulers maîtres et 2 Schedulers spares. Dans ce cas, lorsqu'un Scheduler maitre est en erreur, un Scheduler spare sera choisi au hasard pour assurer le rôle du Scheduler maître en erreur. - Un démon spare ne peut remplacer un démon maître que si ils sont de même type. Par exemple, un Scheduler Spare ne peut pas remplacer un Poller maître en erreur, mais il pourra remplacer un Scheduler maître.
- Un démon spare ne peut remplacer un démon maître que si les deux démons se trouvent dans le même royaume. Un Poller spare d'un royaume "France" ne pourra pas remplacer un Poller maître d'un royaume "Allemagne".
| Panel |
|---|
| Panel |
Autres méthodes
Duplication mongo, duplication de VM, mirroring de je sais pas trop quoi (RAID et compagnie)
Procédure de configuration d'un démon Spare
Comment ajouter un démon Spare.
Cas particulier de l'Arbiter/Synchronizer
C'est mort pour le synchronizer.
Arbiter un peu plus chiant a configurer → a faire aussi sur la machine spare (mettre spare à 1 dans le fichier de conf), changer le hostname dans la conf sur la machine master

