Centreon EMS propose une nouvelle fonctionnalité pour aider les exploitants à améliorer la fiabilité des systèmes critiques ou pour les aider à réduire les temps de rétablissement en cas de pannes. Le tout dans le but de tenir les engagements pris auprès des directions métier quant aux taux de disponibilité de leurs applications.

Cet article commence par préciser ces deux notions de fiabilité et maintenabilité avant de décrire trois nouveaux widgets apportés par la toute dernière version 3.2 du module Centreon MBI.

Fiabilité des services : SRE ou ITIL, même combat

Lorsque l’on participe à des conférences comme Monitorama, à Portland (Oregon), les intervenants font souvent référence à leur bible : le SRE Book. Écrit par les ingénieurs qui ont inventé les méthodes et les organisations qui permettent à Google d’exploiter avec succès son immense infrastructure, ce livre de 550 pages parle de Site Reliability Engineering (SRE), ou comment assurer la fiabilité des services rendus à l’utilisateur final, à l’échelle Google.

Les industries plus traditionnelles ont leur propre encyclopédie, qui fait foi sur le sujet depuis plusieurs décennies : le référentiel ITIL. Ses cinq volumes et presque 2 000 pages listent et détaillent un vaste ensemble de bonnes pratiques de gestion des Systèmes d’Information. La version ITIL v3, publiée en 2007, est aujourd’hui utilisée partout dans le monde. Elle s’organise autour de cinq processus : stratégie, conception, transition, exploitation et amélioration continue des services.

Ces deux approches si différentes sur la forme s’accordent en tous cas sur les notions fondamentales. En particulier, il s’agit toujours in fine d’aligner les ressources IT sur les besoins business de l’entreprise. D’autre part, la notion centrale de ces deux référentiels est le Service que l’on rend à l’utilisateur, et dont il faut assurer la bonne disponibilité. Enfin, l’amélioration continue des taux de disponibilité ne peut se faire que si l’on dispose d’indicateurs pertinents à la fois pour le service concerné et pour les éléments d’infrastructure sous-jacents.

Indicateurs pertinents, nous y voici : c’est le moment de préciser les notions de fiabilité et de maintenabilité.

MTBF, MTRS, MTBSI, MTTA : la foire aux acronymes

Les nouveaux widgets proposés par Centreon EMS permettent de visualiser en un clin d’oeil les ressources les moins fiables, c’est à dire celles qui tombent le plus souvent en panne, ainsi que les ressources qui génèrent les temps d’indisponibilité les plus longs, autrement dit les ressources les plus difficiles à maintenir (au sens où l’on constate les temps de rétablissement les plus longs).

C’est le moment d’expliciter les deux indicateurs que nous supervisons pour mesurer cette fiabilité et cette maintenabilité : les indicateurs MTBF et MTRS.

Et cela sera plus facile avec un petit schéma :

Centreon, supervision informatique

  • MTBF (Mean Time Between Failure)
    Cet indicateur correspond à la Fiabilité : c’est le temps moyen entre la fin d’un incident et le début du suivant. Cet indicateur doit être le plus élevé possible.
  • MTRS (Mean Time To Restore Service)
    Cet indicateur correspond à la Maintenabilité : c’est le temps moyen de rétablissement du service. Cet indicateur doit être le plus faible possible.

L’indicateur MTBSI, qui cumule les deux précédents, moins utilisé, n’est pas proposé dans nos nouveaux widgets.

Ceux-ci proposent un indicateur supplémentaire, non indiqué sur le schéma ci-dessus :

  • MTTA (Mean Time To Acknowledge)
    Cet indicateur correspond à la Réactivité : c’est le temps moyen entre le début de l’incident et sa prise en compte par les équipes d’exploitation (état Acknowledge). Il est souvent utilisé pour mesurer la réactivité des équipes de support niveau 1, en particulier lorsque celles-ci sont externalisées.

Vous pouvez retrouver ce schéma et la définition de nombreux concepts de base dans la documentation en ligne du module Centreon MBI, au chapitre Exploitation / Concept.

Centreon MBI : des rapports, mais aussi des widgets de Custom Views

Dans la solution Centreon EMS, le module MBI apporte une solution d’aide à la décision qui facilite la gestion au long cours de votre infrastructure IT.

En particulier, Centreon MBI est en charge de la génération automatique et de la distribution de plus de 40 modèles de rapports consolidés qui appliquent le référentiel ITIL à la gestion de capacité, de disponibilité, de niveaux de services ou de performances.

Mais Centreon MBI apporte aussi de nombreux widgets que l’on peut afficher dans les Custom Views.

Les Customs Views sont les tableaux de bord temps réel de la solution Centreon EMS. Entièrement personnalisables, ils sont construits à l’aide d’une trentaine de widgets paramétrables. Ces tableaux de bord permettent ainsi de mixer données temps réel et données agrégées de façon à saisir dans une même vue l’ensemble du contexte d’exploitation d’une application critique : à la fois ce qui est en train de se passer maintenant, et ce qui s’est passé sur la dernière semaine ou sur le mois en cours.

Centreon, supervision informatique

Exemple de Custom View

Dans la nouvelle version 3.2 du module MBI, ce sont trois nouveaux widgets qui sont ainsi disponibles pour construire des Custom Views :

  • Fiabilité et maintenabilité des Applications
  • Fiabilité et maintenabilité des Hôtes
  • Fiabilité et maintenabilité des Services

Fiabilité et maintenabilité des Applications

 Centreon MBI 3.2 propose un nouveau widget “Business Application MTBF et MTRS” pour visualiser la fiabilité et la maintenabilité d’un ensemble d’applications modélisées à l’aide du module Centreon BAM.

Pour chaque application modélisée, le widget affiche les deux indicateurs MTBF et MTRS, ainsi que quatre informations supplémentaires : l’état temps réel de l’application et la durée écoulée depuis le dernier changement d’état, son taux de disponibilité et le nombre d’événements critiques sur la période considérée.

Comme toujours, ce widget est paramétrable, par exemple pour choisir la période considérée (année en cours, 6 derniers mois ou 12 derniers mois) ainsi que les colonnes à afficher.

Centreon, supervision informatique,

A noter que ces informations étaient déjà disponibles dans le modèle “BusinessView-BusinessActivities-Availabilities-1”. La première page affiche, entre autres, ces mêmes indicateurs de fiabilité et maintenabilité des applications.

Centreon, supervision informatique

Fiabilité et maintenabilité des Hôtes

Le second nouveau widget s’intitule “MTBF and MTRS par hôte” et permet de visualiser la fiabilité et la maintenabilité d’une liste d’hôtes supervisés par Centreon EMS.

Nous retrouvons donc les colonnes MTBF et MTRS. A noter que pour tous ces widgets on choisira lors du paramétrage à partir de laquelle de ces deux colonnes trier les informations, suivant si l’on veut mettre en avant les moins fiables ou les plus difficiles à maintenir. Et rien n’empêche bien sûr de construire une Custom View qui affiche deux fois le même widget, trié sur deux colonnes différentes.

Les informations supplémentaires affichent l’état temps réel, le taux de disponibilité, le nombre d’événements ainsi qu’une colonne MTTA qui mesure la réactivité moyenne des équipes supports.

Centreon, supervision informatique

Rappelons que ces informations étaient déjà disponibles sous forme de rapport, en utilisant le modèle “Hostgroups-Incidents-1”. La première page de ce rapport affiche l’évolution des alertes sur les hôtes, répartis selon les critères que vous avez définis dans Centreon (technologie, criticité, clients, équipes etc..).

Centreon, supervision informatique

Sur la seconde page, les indicateurs de fiabilité (MTBF) et maintenabilité (MTRS) apparaissent de manière agrégée permettant de détecter rapidement un problème sur des ensembles d’hôtes.

Centreon, supervision informatique

Enfin, pour chaque regroupement (groupe d’hôtes), une page de détail est disponible mettant en avant l’évolution des alertes et des temps de traitement ainsi qu’un top sur les hôtes les moins fiables et un top sur les hôtes les plus long à remettre en fonctionnement.

Centreon, supervision informatique

Fiabilité et maintenabilité des Services

Troisième nouveau widget apporté par Centreon MBI 3.2, “MTBF & MTRS par service” permet, de façon très similaire au widget pour les hôtes, d’afficher un TOP sur les services d’un périmètre précis en choisissant de mettre en avant les moins fiables ou les plus longs à remettre en service, pour une période donnée.

Centreon, supervision informatique

Résumons un peu

Que vous soyez un spécialiste ITIL v3, un aficionados du SRE Book ou un pragmatique qui s’appuie sur son expérience pour bâtir une organisation capable d’aligner les ressources IT sur les besoins business, vous êtes confrontés aux même réalités : vous avez besoin d’indicateurs pertinents pour prendre les décisions qui permettent l’amélioration continue de votre SI, que ce soit en termes de fiabilité des éléments clé ou de rapidité de remise en service après une panne.

Centreon EMS fournissait déjà ces indicateurs dans ses modèles de rapports, lesquels sont utilisés généralement pour alimenter les réunions de pilotage mensuelles ou semestrielles.

Avec cette version 3.2 du module MBI, ces mêmes indicateurs sont désormais disponibles au sein même des tableaux de bords web. Ces “Custom Views” fournissent ainsi une vue complète qui présente toutes les informations de contexte nécessaires au pilotage au jour le jour de chaque application métier et de leurs éléments d’infrastructure sous-jacents.

La solution Centreon EMS consolide ainsi encore un peu plus son positionnement : une solution complète de supervision informatique pour voir et partager au sein de la DSI les informations qui permettent un meilleur alignement métier.

Ressources supplémentaires

Cette nouvelle version de MBI apporte d’autres nouvelles fonctionnalités et améliorations diverses : retrouvez ici la release note de MBI 3.2.

 

Tags :