Roadmap 2025 Ressources vérifiées Tips terrain IA & Agents inclus

SysAdminSRE / DevOps

Le parcours complet pour un administrateur système qui veut évoluer vers le SRE et le DevOps. Chaque phase est autonome et actionnable, chaque ressource est gratuite ou quasi gratuite, dans le bon ordre pédagogique. Estimé entre 18 et 24 mois de pratique réelle — avec les nouvelles compétences IA désormais incontournables.

8Phases
55+Ressources
14Certifications
18–24Mois estimés
🧠

Le vrai shift d'abord : tu ne vas pas devenir ops++

Le SysAdmin résout des problèmes. Le SRE conçoit des systèmes qui se résolvent eux-mêmes. Ce n'est pas un upgrade d'outil — c'est un changement de posture complet. Tu vas passer de « pompier » à « architecte de la fiabilité ». Ce changement de mindset est la compétence n°1 à acquérir, avant même la première ligne de Terraform.

Réactif → Proactif
CLI manuelle → Tout en code
Correctif → Prévention systémique
Connaissance locale → Observabilité globale
Ops seul → Collaboration avec les devs
Uptime → SLO + Error budget
Sécurité réactive → Security by design
Outil IA subi → Ingénieur augmenté
Parcours phase par phase
Phase 0 Socle technique — ce que tu crois maîtriser
⏱ 1–2 mois 🔑 Prérequis bloquant
📚 Compétences
Linux avancé
Processus, signaux, namespaces, cgroups, inotify, systemd units, journald, perf, strace, lsof
Réseau fondations
TCP/IP, DNS, TLS/mTLS, iptables, netfilter, VLAN, BGP bases, sockets UNIX
Scripting fiable
Bash avancé (trap, set -euo pipefail), Python 3 (argparse, pathlib, requests, logging)
Git professionnel
Rebase interactif, bisect, hooks, signing, workflows Gitflow vs trunk-based
Stockage & systèmes de fichiers
LVM, RAID, XFS/ext4/ZFS, NFS, iSCSI, snapshots, performance I/O
🔗 Ressources
🐧Linux JourneyParcours complet interactifGRATUIT ⚔️OverTheWire: BanditLinux pratique gamifiéLAB 📖Pro Git Book (FR)Référence complète, gratuiteLIVRE 🌿Learn Git BranchingBranches et rebase en visuelLAB Book of Secret KnowledgeCheatsheets Linux/réseau/sécuritéGRATUIT ShellCheckLinter Bash en ligneOUTIL
💡 Tips terrain
Ne saute pas cette phase. 80 % des candidats SRE calent en entretien sur du Linux basique. Systemd, namespaces, cgroups — c'est la fondation de tout ce qui vient après.
🎯Monte un lab perso. Proxmox ou Vagrant, peu importe. Casse des choses volontairement — c'est la seule façon d'apprendre ce qui se passe vraiment sous le capot.
📝Documente tout dans un wiki perso. Obsidian, Notion, peu importe. L'habitude de documentation est une compétence SRE critique, pas un détail.
🔍Apprends à lire les man pages. man 7 tcp, man systemd.service. Le réflexe docs avant Stack Overflow te distinguera de 90 % des ingénieurs.
Phase 1 Containers & Orchestration — penser comme un dev
⏱ 2–3 mois 🏗️ Core DevOps
📚 Compétences
Docker en profondeur
Layers, multi-stage, namespaces/cgroups sous le capot, réseaux (bridge/host/overlay), volumes, rootless containers, capabilities
Kubernetes core
Pods, Deployments, StatefulSets, DaemonSets, Services, Ingress, ConfigMaps, Secrets, RBAC, NetworkPolicies, resource limits/requests
Helm
Charts, templating, values, hooks, chart museum, gestion des dépendances
Réseaux Kubernetes
CNI (Calico, Flannel, Cilium), CoreDNS, kube-proxy, bases du service mesh (Istio/Linkerd)
Stockage Kubernetes
PV, PVC, StorageClass, drivers CSI, sauvegarde avec Velero
🔗 Ressources
🐋Play with DockerBac à sable Docker gratuit en ligneLAB ⚙️KillerCoda — Labs CKALabs Kubernetes guidés en ligneLAB ☸️Kubernetes Tutorials officielsGuides interactifs de la CNCFOFFICIEL Documentation HelmPackage manager KubernetesOFFICIEL 🔐Cilium — Démarrage rapideCNI nouvelle génération avec eBPFGRATUIT 💪K8s the Hard WayInstaller K8s à la main — incontournableGRATUIT
💡 Tips terrain
🐋Docker d'abord, K8s ensuite. Beaucoup sautent à Kubernetes sans comprendre les namespaces et les cgroups. Ce sera un trou noir en production.
💪Fais K8s the Hard Way au moins une fois. Installer Kubernetes à la main sans kubeadm t'apprend plus que trois mois de cours vidéo.
🔒Jamais de conteneurs en root. Prends l'habitude dès le début : rootless containers, capabilities minimales, système de fichiers en lecture seule. La sécurité n'est pas une option.
🔁La certification CKA comme objectif concret. Pas pour le badge — pour forcer la rigueur sur des scénarios réels sous contrainte de temps.
Phase 2 Infrastructure as Code — l'infra devient du code, pour de vrai
⏱ 2–3 mois ⚡ Productivité ×10
📚 Compétences
Terraform (IaC)
Gestion du state, modules, workspaces, remote backend (S3/GCS), tfvars, import, data sources, providers
Ansible
Playbooks, rôles, inventaires dynamiques, Vault, tags, Molecule pour tester les rôles
GitOps
ArgoCD ou Flux v2, réconciliation déclarative, pattern app-of-apps, gestion des secrets dans GitOps (Sealed Secrets, SOPS)
Cloud provider
AWS, Azure ou GCP — un seul en profondeur. Réseau (VPC/VNet), IAM, compute, stockage, services managés
Policy as Code
OPA/Rego, Kyverno, Checkov pour valider l'infra avant chaque déploiement
🔗 Ressources
🟣Terraform Tutorials — HashiCorpParcours officiel completOFFICIEL 🔴Ansible — Premiers pasAutomatisation et gestion de configurationOFFICIEL 🐙Documentation ArgoCDGitOps pour KubernetesOFFICIEL 🛡️CheckovScanner sécurité IaC statiqueGRATUIT Terraform Best PracticesGuide des bonnes pratiques terrainGRATUIT 📦Terraform RegistryModules et providers officielsOFFICIEL
💡 Tips terrain
🚫L'IaC est du code, pas de la config. Tests unitaires (Terratest), linting (tflint), formatage (terraform fmt) dans la CI. Toujours. Sans exception.
🔐Jamais de secrets dans le state. Utilise Vault ou AWS Secrets Manager. Le state Terraform peut contenir des mots de passe en clair — c'est un vecteur d'attaque réel et documenté.
📦Modules atomiques et réutilisables. Un module = une responsabilité. Évite les modules « dieu » de 2 000 lignes. Pense composition plutôt qu'héritage.
🌿GitOps change la donne. ArgoCD + réconciliation déclarative = tu ne déploies plus jamais à la main. La prod = ce qui est dans git. C'est tout.
Phase 3 CI/CD & DevSecOps — livrer vite sans sacrifier la sécurité
⏱ 2–3 mois 🚀 Pipeline prod-ready
📚 Compétences
Pipelines CI/CD
GitHub Actions, GitLab CI — stages, jobs parallèles, caching, matrix builds, environments, approval gates
Testing automatisé
Tests unitaires, d'intégration, smoke tests, tests de contrat (Pact), intégrés avant chaque merge
Stratégies de déploiement
Blue/green, canary, feature flags, rollback automatique, progressive delivery (Flagger)
SAST & DAST
Analyse statique (SonarQube, Semgrep), analyse dynamique (OWASP ZAP), intégrés dans la CI dès le premier jour
Gestion des secrets
HashiCorp Vault, rotation automatique, External Secrets Operator, politiques granulaires par environnement
🔗 Ressources
Documentation GitHub ActionsCI/CD natif GitHubOFFICIEL 🦊Documentation GitLab CI/CDPipelines GitLab completsOFFICIEL 🔍Trivy — Security ScannerScan images, IaC et dépendancesGRATUIT 🕷️OWASP ZAPDAST — tests dynamiques d'applicationGRATUIT 🔐Documentation HashiCorp VaultGestion avancée des secretsOFFICIEL 🚦Flagger — Progressive DeliveryCanary et blue/green automatisés sur K8sGRATUIT
💡 Tips terrain
🚦La CI doit échouer vite. Fail fast : lint → tests unitaires → build → tests d'intégration → scan sécurité. Si le lint prend 5 min, personne ne le corrige.
🕵️Shift-left security. Intègre Trivy dans ta CI dès le départ. Traiter les vulnérabilités en début de cycle coûte 100 fois moins cher qu'en production.
🎯Feature flags avant les hotfixes. Déployer et activer sont deux actions distinctes. Apprends Unleash ou LaunchDarkly. C'est la clé du zero-downtime réel.
📊DORA metrics. Mesure ton deploy frequency, lead time, MTTR et change failure rate. C'est le seul langage que comprend le business.
Phase 4 Sécurité avancée — Zero Trust, supply chain & runtime security
⏱ 2–3 mois 🔴 DevSecOps senior
📚 Compétences
Zero Trust Architecture
mTLS entre services (Istio/Linkerd), micro-segmentation réseau, identités de charge de travail (SPIFFE/SPIRE), principe du moindre privilège appliqué partout
Sécurité Kubernetes
Admission controllers, OPA Gatekeeper/Kyverno, Pod Security Standards, Seccomp, AppArmor, audit logs K8s, kube-bench (CIS Benchmarks)
Supply chain security
SLSA framework (niveaux 1 à 4), signature d'images (Cosign/Sigstore), génération de SBOM (Syft), vérification de provenance des artefacts
Sécurité runtime
Falco pour la détection d'anomalies en temps réel, eBPF pour l'observabilité sécurité, réponse aux incidents conteneurisés
Modélisation des menaces
STRIDE, arbres d'attaque, threat modeling appliqué à l'infrastructure, revue de sécurité architecturale (PASTA)
🔗 Ressources
🦅Falco DocumentationDétection d'intrusion runtime pour K8sGRATUIT 📋kube-benchVérification CIS Benchmarks KubernetesGRATUIT 🏗️SLSA FrameworkSupply chain Levels for Software ArtifactsFRAMEWORK ✍️Sigstore / CosignSignature et vérification d'artefactsGRATUIT 🆔SPIFFE / SPIREIdentités universelles pour les workloadsGRATUIT 🎯OWASP Threat ModelingMéthodologie et outilsOFFICIEL
💡 Tips terrain
🔒Zero Trust ≠ zéro confiance en les devs. C'est « ne jamais faire confiance implicitement, toujours vérifier ». Commence par mTLS entre services et RBAC minimal — déjà une révolution pour la plupart des infras.
🦅Falco en prod dès maintenant. C'est un IDS (système de détection d'intrusion) pour tes conteneurs. Il détecte les comportements anormaux en temps réel — shell dans un conteneur, lecture de fichiers sensibles, etc.
🔗La supply chain est le vecteur d'attaque n°1. SolarWinds, XZ Utils, log4shell — tout est parti de dépendances compromises. SBOM + signature d'images + SLSA niveau 2 minimum en prod.
📐Modélise les menaces avant de coder. 1 heure de threat modeling en début de sprint évite 10 heures de remédiation après un audit. STRIDE est suffisant pour commencer.
Phase 5 Observabilité — voir ce que les autres ne voient pas
⏱ 2–3 mois 🔭 Superpouvoir SRE
📚 Compétences
Métriques (Prometheus)
PromQL, recording rules, alerting rules, Pushgateway, exporters personnalisés, gestion de la cardinalité
Visualisation (Grafana)
Dashboards as code, alerting Grafana, Grafana Loki, sources de données multiples, annotations
Logs centralisés
Loki + LogQL, ou ELK (Elasticsearch/Logstash/Kibana), parsing structuré (JSON logs), rétention, alertes sur logs
Tracing distribué
OpenTelemetry (standard), Jaeger ou Tempo, propagation de contexte, sampling, analyse de latence
On-call & incidents
Runbooks actionnables, politiques d'escalade (PagerDuty/OpsGenie), postmortems sans culpabilisation, analyse des causes profondes
🔗 Ressources
🔥Prometheus — Vue d'ensembleMétriques et alertingOFFICIEL 📊Grafana TutorialsDashboards et alertingGRATUIT 🔭Documentation OpenTelemetryStandard d'observabilité unifiéOFFICIEL 🕵️Documentation JaegerTracing distribuéGRATUIT 📋Google SRE — Culture du postmortemTemplate blameless officielLIVRE 📓Template de runbook (GitHub)Modèle opérationnel prêt à l'emploiGRATUIT
💡 Tips terrain
👁️Métriques, logs, traces = les 3 piliers. Une stack d'observabilité qui n'a pas les trois est incomplète. Commence par métriques + logs. Ajoute le tracing quand tu as des microservices.
🔔Alerte sur des symptômes, pas des causes. « Latence P99 > 500 ms » est une alerte. « CPU > 80 % » n'en est pas une. Si ça ne réveille pas quelqu'un, ce n'est pas une alerte.
📋Runbooks = valeur immédiate. Pour chaque alerte, un runbook. Pas une doc de 20 pages — une checklist de 5 actions. Si un junior peut la suivre à 3 h du matin, c'est bon.
🧪Teste tes alertes. Provoque intentionnellement les conditions qui devraient les déclencher. Si elles ne se déclenchent pas, elles n'existent pas.
Phase 6 SRE Principles — la fiabilité comme discipline d'ingénierie
⏱ 3–4 mois 🎓 Senior SRE
📚 Compétences
SLI / SLO / SLA
Définir des SLIs pertinents (disponibilité, latence, qualité), fixer des SLOs réalistes, les défendre face au business, les automatiser
Error budget
Calcul, suivi, utilisation comme levier de négociation (gel des déploiements si budget épuisé), politiques d'error budget
Élimination du toil
Identifier et mesurer le toil, automatiser ce qui est répétitif, reporter le temps gagné, prioriser par ROI
Chaos Engineering
LitmusChaos, Chaos Monkey, GameDays planifiés, hypothèses, rayon d'explosion (blast radius), sécurité du rollback
Capacity planning
Modélisation de la croissance, tests de charge (k6, Locust), rightsizing, prévision de capacité
🔗 Ressources
📗Google SRE Book (complet, gratuit)La référence absolue du domaineRÉFÉRENCE 📘Google SRE Workbook (pratique)Implémentation concrète des principesRÉFÉRENCE 🌪️Principles of Chaos EngineeringLe manifeste originalMANIFESTE 🧪LitmusChaosChaos Engineering pour KubernetesOUTIL k6 — Tests de chargeTests de montée en charge scriptés en JSOUTIL Awesome SRE (GitHub)Curation ultime de ressources SRECURATION
💡 Tips terrain
📐SLO : commence à 99 %. Pas 99,99 %. Un SLO trop ambitieux tue l'innovation — il faut un error budget utilisable. Augmente progressivement selon la maturité du système.
💰L'error budget est un outil business. Si le budget est épuisé, les déploiements s'arrêtent. C'est un contrat, pas une punition. Apprends à le présenter aux Product Managers.
🌪️Chaos Engineering ≠ casser la prod. C'est hypothèse → expérience contrôlée → résultat. Commence en staging. Documente tout. Montre que le système est plus robuste après.
🤝Le SRE travaille AVEC les devs. Pas contre. Ta mission = réduire la friction entre vitesse et fiabilité. Si tu es perçu comme « la police de la prod », c'est raté.
Phase 7 IA & Agents — l'ingénieur augmenté devient la norme
⏱ 2–3 mois 🤖 Incontournable en 2025 ✨ Nouveau
📚 Compétences
Assistants IA de code
Claude Code, GitHub Copilot, Cursor — génération, refactoring, review automatisée, tests générés par IA. Savoir les évaluer et les cadrer.
Agents IA dans le pipeline
Intégration d'agents dans la CI/CD, auto-remédiation d'incidents, génération automatique de runbooks, analyse de logs par LLM
Prompt engineering technique
Prompts pour les tâches DevOps/SRE : génération de Terraform, review de code, analyse de postmortems, rédaction de runbooks
MCP & intégrations
Model Context Protocol — connecter les LLM aux outils DevOps (Kubernetes, GitHub, PagerDuty), workflows agents autonomes
IA & sécurité
Détection de vulnérabilités par IA (CodeRabbit, Snyk DeepCode), analyse de CVE assistée, génération de politiques de sécurité
🔗 Ressources
🤖Claude Code (Anthropic)Agent de code en ligne de commandeIA 🐙GitHub CopilotAssistant IA intégré dans l'IDEIA ⌨️CursorIDE IA-first, très utilisé en DevOpsIA 🐇CodeRabbitReview de code automatisée par IAIA 🔌Model Context Protocol (MCP)Standard pour connecter LLM aux outilsOFFICIEL 🛡️GitHub Copilot AutofixCorrection automatique de failles de sécuritéIA
💡 Tips terrain
🤖Claude Code change le travail quotidien. Génération de Terraform, review de Helm charts, analyse de logs — un bon agent IA bien prompté remplace 2 h de travail répétitif par session. Ce n'est pas de la triche, c'est du levier.
🔌MCP est l'avenir des workflows agents. Le Model Context Protocol (Anthropic, 2024) permet de connecter un LLM directement à tes outils : kubectl, GitHub, PagerDuty, Grafana. Les premiers qui maîtrisent ça ont une avance massive.
⚠️Ne déploie jamais du code IA non relu. Les assistants hallucinentparfois — surtout sur les politiques IAM, les Network Policies et les règles Falco. Lis toujours ce que tu appliques en production.
📐Prompt engineering = compétence métier. Un prompt bien formulé pour générer un module Terraform ou analyser un postmortem est aussi précieux qu'une commande kubectl. Entraîne-toi comme pour n'importe quel outil.
Ruptures de posture — SysAdmin vs SRE

Ce qui change vraiment (et qui déstabilise)

Les 9 ruptures cognitives que tu vas traverser. Anticipe-les.

✖ Mindset SysAdmin
Je résous les incidents au cas par cas
Je connais mon infra par cœur (dans ma tête)
Je déploie manuellement en SSH sur la prod
L'uptime doit être de 100 %, sinon c'est un échec
Les devs cassent la prod, je la répare
Mon travail = les tickets qui arrivent
La sécurité = le pare-feu et le VPN
Le monitoring = Nagios/Zabbix qui pingue
L'IA = un gadget pour les développeurs
✔ Mindset SRE
Je conçois des systèmes qui s'auto-réparent
Mon infra est dans Git, documentée, reproductible
Aucun humain ne touche la prod — le pipeline déploie
100 % est impossible. Je gère un error budget.
Je travaille avec les devs pour que la prod tienne
Mon travail = réduire le toil et la friction
La sécurité est intégrée dans chaque composant
L'observabilité couvre métriques, logs ET traces
L'IA multiplie ma productivité — je la maîtrise
Certifications recommandées

🎯 Le parcours certifications dans l'ordre

Une certification par phase. Ne pas les accumuler sans pratique — elles valident, elles n'enseignent pas.

Bibliothèque SRE/DevOps — lire dans l'ordre
📗
Site Reliability Engineering
Google · Gratuit en ligne
LA référence. Lis les chapitres sur les SLO, l'error budget et le toil en premier.
📘
The SRE Workbook
Google · Gratuit en ligne
La version pratique du SRE Book. Implémentation concrète des principes avec des cas réels.
🔥
The Phoenix Project
Gene Kim, Kevin Behr, George Spafford
Roman d'entreprise. Comprendre DevOps par le storytelling. Accessible, indispensable.
🚀
Accelerate
Nicole Forsgren, Jez Humble, Gene Kim
Les données scientifiques derrière les DORA metrics. Indispensable pour parler DevOps au business.
Systems Performance
Brendan Gregg · O'Reilly
Performance Linux avancée. Référence absolue pour l'observabilité et le tuning système.
🏗️
Designing Distributed Systems
Brendan Burns (Google) · Gratuit
Patterns de systèmes distribués. Comprendre sidecar, ambassador et adapter avant Kubernetes.
Communautés & veille
📡
r/sreReddit · Discussions SRE
⚙️
r/devopsReddit · Actualité DevOps
☸️
Kubernetes SlackCommunauté officielle K8s
☁️
CNCF CommunityCloud Native Foundation
🎤
SREconConférence SRE de référence
📧
The Pragmatic EngineerNewsletter n°1 pour les ingénieurs
💪
DevOps Exercises500+ exercices pratiques
🗺️
roadmap.sh/devopsRoadmap visuelle interactive