SRE, quand la fiabilité devient une discipline

devops 2 nov. 2022

Alors que le DevOps cherche à fluidifier la collaboration et la livraison logicielle, le Site Reliability Engineering (SRE) ajoute une dimension essentielle : la fiabilité mesurée.
Le terme apparaît chez Google au début des années 2000. L’idée était simple, mais ambitieuse. Si les systèmes deviennent complexes, dynamiques, distribués, il devient nécessaire de traiter leur exploitation avec la même rigueur que leur développement.

Le SRE consiste à appliquer des pratiques d’ingénierie au domaine de l’exploitation pour rendre les systèmes fiables, observables et scalables.

Le SRE n’est pas en opposition avec le DevOps. Il est plutôt une mise en pratique structurée de ses principes dans les environnements à grande échelle.

Un principe fondateur : mesurer la fiabilité

Dans une démarche traditionnelle, la fiabilité est souvent perçue comme une intention floue : “le système doit fonctionner”.
Le SRE propose une approche plus précise : la fiabilité devient mesurable.

Trois concepts servent de base :

SLO (Service Level Objective)

Un SLO est un objectif de fiabilité mesurable fixé pour un service, par exemple un taux de disponibilité ou de performance attendu. C’est la cible que l’équipe vise à atteindre.

SLI (Service Level Indicator)

Un SLI est une mesure réelle et observable du comportement du service, comme le temps de réponse, le taux d’erreurs ou la disponibilité. Il sert à vérifier si le service respecte son SLO.

SLA (Service Level Agreement)

Un SLA est un engagement officiel ou contractuel entre un fournisseur et un utilisateur. Il définit les niveaux de service garantis et les conséquences (pénalités, compensations) en cas de non-respect.

“L’API doit répondre avec succès à 99.9 % des requêtes sur 30 jours.”

Ce cadre permet de piloter la fiabilité avec des données, pas avec des impressions.

L’erreur fait partie du système

Une idée surprenante du SRE : viser 100 % de disponibilité n’est ni réaliste ni souhaitable.

Pourquoi ?
Parce que chercher la perfection entraîne :

surcoût,
rigidité,
ralentissement des évolutions,
dette technique non maîtrisée.

Le SRE introduit donc la notion d’error budget : une marge acceptable d’erreur calculée à partir du SLO.

Si tout fonctionne bien, l’équipe peut livrer plus vite.
Si les incidents s’accumulent, le rythme ralentit pour restaurer la fiabilité.

L’error budget permet d’équilibrer innovation et stabilité.

Automatiser l’opérationnel

Le SRE considère que les tâches manuelles répétitives doivent être éliminées ou automatisées.
Ce type de travail, souvent appelé toil, absorbe de l’énergie sans créer de valeur durable.

Toil

Le toil désigne tout travail répétitif, manuel et opérationnel qui n’apporte pas de valeur directe au produit ou à l’utilisateur, mais qui est nécessaire pour faire fonctionner ou maintenir un système.
Ce type de tâche est souvent sujet à erreurs humaines et doit idéalement être automatisé ou éliminé.

L’automatisation permet :

de réduire les erreurs,
d'améliorer la rapidité d'intervention,
de permettre aux équipes de se concentrer sur l’amélioration continue.

*tableau comparatif toil vs engineered work.*

L’incident comme opportunité d’apprentissage

Comme en DevOps, le SRE adopte une approche blameless des incidents.
L’objectif n’est plus de trouver un responsable, mais de comprendre les mécanismes qui ont permis à l’incident de se produire.

Un blameless incident

Un blameless incident signifie qu’un incident est analysé sans chercher à accuser ou pointer un individu.
L’objectif est de comprendre les causes réelles, améliorer le système et renforcer les process plutôt que culpabiliser.

Cette approche favorise la transparence, l’apprentissage collectif et une culture où les problèmes sont remontés rapidement au lieu d’être cachés.

Les post-mortems deviennent alors une source d’amélioration du système.

L’échec devient une information. Pas une faute.

Observabilité avancée

Le SRE accorde une importance centrale à la compréhension du système en production.

Cela passe par :

logs structurés,
métriques pertinentes,
traces distribuées,
corrélation d’événements.

La priorité n’est pas seulement de savoir quand un problème survient, mais surtout pourquoi.

En résumé

Le SRE apporte une structure à la recherche de fiabilité.
Il permet d’aligner vitesse et stabilité grâce à des mesures claires, des arbitrages fondés et une discipline d’ingénierie appliquée à l’exploitation.