Roadmap 2025 Ressources vérifiées Tips terrain IA & Agents inclus

SysAdmin→SRE / DevOps

Le parcours complet pour un administrateur système qui veut évoluer vers le SRE et le DevOps. Chaque phase est autonome et actionnable, chaque ressource est gratuite ou quasi gratuite, dans le bon ordre pédagogique. Estimé entre 18 et 24 mois de pratique réelle — avec les nouvelles compétences IA désormais incontournables.

8Phases

55+Ressources

14Certifications

18–24Mois estimés

🧠

Le vrai shift d'abord : tu ne vas pas devenir ops++

Le SysAdmin résout des problèmes. Le SRE conçoit des systèmes qui se résolvent eux-mêmes. Ce n'est pas un upgrade d'outil — c'est un changement de posture complet. Tu vas passer de « pompier » à « architecte de la fiabilité ». Ce changement de mindset est la compétence n°1 à acquérir, avant même la première ligne de Terraform.

Réactif → Proactif

CLI manuelle → Tout en code

Correctif → Prévention systémique

Connaissance locale → Observabilité globale

Ops seul → Collaboration avec les devs

Uptime → SLO + Error budget

Sécurité réactive → Security by design

Outil IA subi → Ingénieur augmenté

Parcours phase par phase

Phase 0 Socle technique — ce que tu crois maîtriser

⏱ 1–2 mois 🔑 Prérequis bloquant

📚 Compétences

Linux avancé

Processus, signaux, namespaces, cgroups, inotify, systemd units, journald, perf, strace, lsof

Réseau fondations

TCP/IP, DNS, TLS/mTLS, iptables, netfilter, VLAN, BGP bases, sockets UNIX

Scripting fiable

Bash avancé (trap, set -euo pipefail), Python 3 (argparse, pathlib, requests, logging)

Git professionnel

Rebase interactif, bisect, hooks, signing, workflows Gitflow vs trunk-based

Stockage & systèmes de fichiers

LVM, RAID, XFS/ext4/ZFS, NFS, iSCSI, snapshots, performance I/O

🔗 Ressources

🐧Linux JourneyParcours complet interactifGRATUIT ⚔️OverTheWire: BanditLinux pratique gamifiéLAB 📖Pro Git Book (FR)Référence complète, gratuiteLIVRE 🌿Learn Git BranchingBranches et rebase en visuelLAB ⭐Book of Secret KnowledgeCheatsheets Linux/réseau/sécuritéGRATUIT ✅ShellCheckLinter Bash en ligneOUTIL

💡 Tips terrain

⚡Ne saute pas cette phase. 80 % des candidats SRE calent en entretien sur du Linux basique. Systemd, namespaces, cgroups — c'est la fondation de tout ce qui vient après.

🎯Monte un lab perso. Proxmox ou Vagrant, peu importe. Casse des choses volontairement — c'est la seule façon d'apprendre ce qui se passe vraiment sous le capot.

📝Documente tout dans un wiki perso. Obsidian, Notion, peu importe. L'habitude de documentation est une compétence SRE critique, pas un détail.

🔍Apprends à lire les man pages. man 7 tcp, man systemd.service. Le réflexe docs avant Stack Overflow te distinguera de 90 % des ingénieurs.

Phase 1 Containers & Orchestration — penser comme un dev

⏱ 2–3 mois 🏗️ Core DevOps

📚 Compétences

Docker en profondeur

Layers, multi-stage, namespaces/cgroups sous le capot, réseaux (bridge/host/overlay), volumes, rootless containers, capabilities

Kubernetes core

Pods, Deployments, StatefulSets, DaemonSets, Services, Ingress, ConfigMaps, Secrets, RBAC, NetworkPolicies, resource limits/requests

Helm

Charts, templating, values, hooks, chart museum, gestion des dépendances

Réseaux Kubernetes

CNI (Calico, Flannel, Cilium), CoreDNS, kube-proxy, bases du service mesh (Istio/Linkerd)

Stockage Kubernetes

PV, PVC, StorageClass, drivers CSI, sauvegarde avec Velero

🔗 Ressources

🐋Play with DockerBac à sable Docker gratuit en ligneLAB ⚙️KillerCoda — Labs CKALabs Kubernetes guidés en ligneLAB ☸️Kubernetes Tutorials officielsGuides interactifs de la CNCFOFFICIEL ⛵Documentation HelmPackage manager KubernetesOFFICIEL 🔐Cilium — Démarrage rapideCNI nouvelle génération avec eBPFGRATUIT 💪K8s the Hard WayInstaller K8s à la main — incontournableGRATUIT

💡 Tips terrain

🐋Docker d'abord, K8s ensuite. Beaucoup sautent à Kubernetes sans comprendre les namespaces et les cgroups. Ce sera un trou noir en production.

💪Fais K8s the Hard Way au moins une fois. Installer Kubernetes à la main sans kubeadm t'apprend plus que trois mois de cours vidéo.

🔒Jamais de conteneurs en root. Prends l'habitude dès le début : rootless containers, capabilities minimales, système de fichiers en lecture seule. La sécurité n'est pas une option.

🔁La certification CKA comme objectif concret. Pas pour le badge — pour forcer la rigueur sur des scénarios réels sous contrainte de temps.

Phase 2 Infrastructure as Code — l'infra devient du code, pour de vrai

⏱ 2–3 mois ⚡ Productivité ×10

📚 Compétences

Terraform (IaC)

Gestion du state, modules, workspaces, remote backend (S3/GCS), tfvars, import, data sources, providers

Ansible

Playbooks, rôles, inventaires dynamiques, Vault, tags, Molecule pour tester les rôles

GitOps

ArgoCD ou Flux v2, réconciliation déclarative, pattern app-of-apps, gestion des secrets dans GitOps (Sealed Secrets, SOPS)

Cloud provider

AWS, Azure ou GCP — un seul en profondeur. Réseau (VPC/VNet), IAM, compute, stockage, services managés

Policy as Code

OPA/Rego, Kyverno, Checkov pour valider l'infra avant chaque déploiement

🔗 Ressources

🟣Terraform Tutorials — HashiCorpParcours officiel completOFFICIEL 🔴Ansible — Premiers pasAutomatisation et gestion de configurationOFFICIEL 🐙Documentation ArgoCDGitOps pour KubernetesOFFICIEL 🛡️CheckovScanner sécurité IaC statiqueGRATUIT ⭐Terraform Best PracticesGuide des bonnes pratiques terrainGRATUIT 📦Terraform RegistryModules et providers officielsOFFICIEL

💡 Tips terrain

🚫L'IaC est du code, pas de la config. Tests unitaires (Terratest), linting (tflint), formatage (terraform fmt) dans la CI. Toujours. Sans exception.

🔐Jamais de secrets dans le state. Utilise Vault ou AWS Secrets Manager. Le state Terraform peut contenir des mots de passe en clair — c'est un vecteur d'attaque réel et documenté.

📦Modules atomiques et réutilisables. Un module = une responsabilité. Évite les modules « dieu » de 2 000 lignes. Pense composition plutôt qu'héritage.

🌿GitOps change la donne. ArgoCD + réconciliation déclarative = tu ne déploies plus jamais à la main. La prod = ce qui est dans git. C'est tout.

Phase 3 CI/CD & DevSecOps — livrer vite sans sacrifier la sécurité

⏱ 2–3 mois 🚀 Pipeline prod-ready

📚 Compétences

Pipelines CI/CD

GitHub Actions, GitLab CI — stages, jobs parallèles, caching, matrix builds, environments, approval gates

Testing automatisé

Tests unitaires, d'intégration, smoke tests, tests de contrat (Pact), intégrés avant chaque merge

Stratégies de déploiement

Blue/green, canary, feature flags, rollback automatique, progressive delivery (Flagger)

SAST & DAST

Analyse statique (SonarQube, Semgrep), analyse dynamique (OWASP ZAP), intégrés dans la CI dès le premier jour

Gestion des secrets

HashiCorp Vault, rotation automatique, External Secrets Operator, politiques granulaires par environnement

🔗 Ressources

⚡Documentation GitHub ActionsCI/CD natif GitHubOFFICIEL 🦊Documentation GitLab CI/CDPipelines GitLab completsOFFICIEL 🔍Trivy — Security ScannerScan images, IaC et dépendancesGRATUIT 🕷️OWASP ZAPDAST — tests dynamiques d'applicationGRATUIT 🔐Documentation HashiCorp VaultGestion avancée des secretsOFFICIEL 🚦Flagger — Progressive DeliveryCanary et blue/green automatisés sur K8sGRATUIT

💡 Tips terrain

🚦La CI doit échouer vite. Fail fast : lint → tests unitaires → build → tests d'intégration → scan sécurité. Si le lint prend 5 min, personne ne le corrige.

🕵️Shift-left security. Intègre Trivy dans ta CI dès le départ. Traiter les vulnérabilités en début de cycle coûte 100 fois moins cher qu'en production.

🎯Feature flags avant les hotfixes. Déployer et activer sont deux actions distinctes. Apprends Unleash ou LaunchDarkly. C'est la clé du zero-downtime réel.

📊DORA metrics. Mesure ton deploy frequency, lead time, MTTR et change failure rate. C'est le seul langage que comprend le business.

Phase 4 Sécurité avancée — Zero Trust, supply chain & runtime security

⏱ 2–3 mois 🔴 DevSecOps senior

📚 Compétences

Zero Trust Architecture

mTLS entre services (Istio/Linkerd), micro-segmentation réseau, identités de charge de travail (SPIFFE/SPIRE), principe du moindre privilège appliqué partout

Sécurité Kubernetes

Admission controllers, OPA Gatekeeper/Kyverno, Pod Security Standards, Seccomp, AppArmor, audit logs K8s, kube-bench (CIS Benchmarks)

Supply chain security

SLSA framework (niveaux 1 à 4), signature d'images (Cosign/Sigstore), génération de SBOM (Syft), vérification de provenance des artefacts

Sécurité runtime

Falco pour la détection d'anomalies en temps réel, eBPF pour l'observabilité sécurité, réponse aux incidents conteneurisés

Modélisation des menaces

STRIDE, arbres d'attaque, threat modeling appliqué à l'infrastructure, revue de sécurité architecturale (PASTA)

🔗 Ressources

🦅Falco DocumentationDétection d'intrusion runtime pour K8sGRATUIT 📋kube-benchVérification CIS Benchmarks KubernetesGRATUIT 🏗️SLSA FrameworkSupply chain Levels for Software ArtifactsFRAMEWORK ✍️Sigstore / CosignSignature et vérification d'artefactsGRATUIT 🆔SPIFFE / SPIREIdentités universelles pour les workloadsGRATUIT 🎯OWASP Threat ModelingMéthodologie et outilsOFFICIEL

💡 Tips terrain

🔒Zero Trust ≠ zéro confiance en les devs. C'est « ne jamais faire confiance implicitement, toujours vérifier ». Commence par mTLS entre services et RBAC minimal — déjà une révolution pour la plupart des infras.

🦅Falco en prod dès maintenant. C'est un IDS (système de détection d'intrusion) pour tes conteneurs. Il détecte les comportements anormaux en temps réel — shell dans un conteneur, lecture de fichiers sensibles, etc.

🔗La supply chain est le vecteur d'attaque n°1. SolarWinds, XZ Utils, log4shell — tout est parti de dépendances compromises. SBOM + signature d'images + SLSA niveau 2 minimum en prod.

📐Modélise les menaces avant de coder. 1 heure de threat modeling en début de sprint évite 10 heures de remédiation après un audit. STRIDE est suffisant pour commencer.

Phase 5 Observabilité — voir ce que les autres ne voient pas

⏱ 2–3 mois 🔭 Superpouvoir SRE

📚 Compétences

Métriques (Prometheus)

PromQL, recording rules, alerting rules, Pushgateway, exporters personnalisés, gestion de la cardinalité

Visualisation (Grafana)

Dashboards as code, alerting Grafana, Grafana Loki, sources de données multiples, annotations

Logs centralisés

Loki + LogQL, ou ELK (Elasticsearch/Logstash/Kibana), parsing structuré (JSON logs), rétention, alertes sur logs

Tracing distribué

OpenTelemetry (standard), Jaeger ou Tempo, propagation de contexte, sampling, analyse de latence

On-call & incidents

Runbooks actionnables, politiques d'escalade (PagerDuty/OpsGenie), postmortems sans culpabilisation, analyse des causes profondes

🔗 Ressources

🔥Prometheus — Vue d'ensembleMétriques et alertingOFFICIEL 📊Grafana TutorialsDashboards et alertingGRATUIT 🔭Documentation OpenTelemetryStandard d'observabilité unifiéOFFICIEL 🕵️Documentation JaegerTracing distribuéGRATUIT 📋Google SRE — Culture du postmortemTemplate blameless officielLIVRE 📓Template de runbook (GitHub)Modèle opérationnel prêt à l'emploiGRATUIT

💡 Tips terrain

👁️Métriques, logs, traces = les 3 piliers. Une stack d'observabilité qui n'a pas les trois est incomplète. Commence par métriques + logs. Ajoute le tracing quand tu as des microservices.

🔔Alerte sur des symptômes, pas des causes. « Latence P99 > 500 ms » est une alerte. « CPU > 80 % » n'en est pas une. Si ça ne réveille pas quelqu'un, ce n'est pas une alerte.

📋Runbooks = valeur immédiate. Pour chaque alerte, un runbook. Pas une doc de 20 pages — une checklist de 5 actions. Si un junior peut la suivre à 3 h du matin, c'est bon.

🧪Teste tes alertes. Provoque intentionnellement les conditions qui devraient les déclencher. Si elles ne se déclenchent pas, elles n'existent pas.

Phase 6 SRE Principles — la fiabilité comme discipline d'ingénierie

⏱ 3–4 mois 🎓 Senior SRE

📚 Compétences

SLI / SLO / SLA

Définir des SLIs pertinents (disponibilité, latence, qualité), fixer des SLOs réalistes, les défendre face au business, les automatiser

Error budget

Calcul, suivi, utilisation comme levier de négociation (gel des déploiements si budget épuisé), politiques d'error budget

Élimination du toil

Identifier et mesurer le toil, automatiser ce qui est répétitif, reporter le temps gagné, prioriser par ROI

Chaos Engineering

LitmusChaos, Chaos Monkey, GameDays planifiés, hypothèses, rayon d'explosion (blast radius), sécurité du rollback

Capacity planning

Modélisation de la croissance, tests de charge (k6, Locust), rightsizing, prévision de capacité

🔗 Ressources

📗Google SRE Book (complet, gratuit)La référence absolue du domaineRÉFÉRENCE 📘Google SRE Workbook (pratique)Implémentation concrète des principesRÉFÉRENCE 🌪️Principles of Chaos EngineeringLe manifeste originalMANIFESTE 🧪LitmusChaosChaos Engineering pour KubernetesOUTIL ⚡k6 — Tests de chargeTests de montée en charge scriptés en JSOUTIL ⭐Awesome SRE (GitHub)Curation ultime de ressources SRECURATION

💡 Tips terrain

📐SLO : commence à 99 %. Pas 99,99 %. Un SLO trop ambitieux tue l'innovation — il faut un error budget utilisable. Augmente progressivement selon la maturité du système.

💰L'error budget est un outil business. Si le budget est épuisé, les déploiements s'arrêtent. C'est un contrat, pas une punition. Apprends à le présenter aux Product Managers.

🌪️Chaos Engineering ≠ casser la prod. C'est hypothèse → expérience contrôlée → résultat. Commence en staging. Documente tout. Montre que le système est plus robuste après.

🤝Le SRE travaille AVEC les devs. Pas contre. Ta mission = réduire la friction entre vitesse et fiabilité. Si tu es perçu comme « la police de la prod », c'est raté.

Phase 7 IA & Agents — l'ingénieur augmenté devient la norme

⏱ 2–3 mois 🤖 Incontournable en 2025 ✨ Nouveau

📚 Compétences

Assistants IA de code

Claude Code, GitHub Copilot, Cursor — génération, refactoring, review automatisée, tests générés par IA. Savoir les évaluer et les cadrer.

Agents IA dans le pipeline

Intégration d'agents dans la CI/CD, auto-remédiation d'incidents, génération automatique de runbooks, analyse de logs par LLM

Prompt engineering technique

Prompts pour les tâches DevOps/SRE : génération de Terraform, review de code, analyse de postmortems, rédaction de runbooks

MCP & intégrations

Model Context Protocol — connecter les LLM aux outils DevOps (Kubernetes, GitHub, PagerDuty), workflows agents autonomes

IA & sécurité

Détection de vulnérabilités par IA (CodeRabbit, Snyk DeepCode), analyse de CVE assistée, génération de politiques de sécurité

🔗 Ressources

🤖Claude Code (Anthropic)Agent de code en ligne de commandeIA 🐙GitHub CopilotAssistant IA intégré dans l'IDEIA ⌨️CursorIDE IA-first, très utilisé en DevOpsIA 🐇CodeRabbitReview de code automatisée par IAIA 🔌Model Context Protocol (MCP)Standard pour connecter LLM aux outilsOFFICIEL 🛡️GitHub Copilot AutofixCorrection automatique de failles de sécuritéIA

💡 Tips terrain

🤖Claude Code change le travail quotidien. Génération de Terraform, review de Helm charts, analyse de logs — un bon agent IA bien prompté remplace 2 h de travail répétitif par session. Ce n'est pas de la triche, c'est du levier.

🔌MCP est l'avenir des workflows agents. Le Model Context Protocol (Anthropic, 2024) permet de connecter un LLM directement à tes outils : kubectl, GitHub, PagerDuty, Grafana. Les premiers qui maîtrisent ça ont une avance massive.

⚠️Ne déploie jamais du code IA non relu. Les assistants hallucinentparfois — surtout sur les politiques IAM, les Network Policies et les règles Falco. Lis toujours ce que tu appliques en production.

📐Prompt engineering = compétence métier. Un prompt bien formulé pour générer un module Terraform ou analyser un postmortem est aussi précieux qu'une commande kubectl. Entraîne-toi comme pour n'importe quel outil.

Ruptures de posture — SysAdmin vs SRE

Ce qui change vraiment (et qui déstabilise)

Les 9 ruptures cognitives que tu vas traverser. Anticipe-les.

✖ Mindset SysAdmin

Je résous les incidents au cas par cas

Je connais mon infra par cœur (dans ma tête)

Je déploie manuellement en SSH sur la prod

L'uptime doit être de 100 %, sinon c'est un échec

Les devs cassent la prod, je la répare

Mon travail = les tickets qui arrivent

La sécurité = le pare-feu et le VPN

Le monitoring = Nagios/Zabbix qui pingue

L'IA = un gadget pour les développeurs

✔ Mindset SRE

Je conçois des systèmes qui s'auto-réparent

Mon infra est dans Git, documentée, reproductible

Aucun humain ne touche la prod — le pipeline déploie

100 % est impossible. Je gère un error budget.

Je travaille avec les devs pour que la prod tienne

Mon travail = réduire le toil et la friction

La sécurité est intégrée dans chaque composant

L'observabilité couvre métriques, logs ET traces

L'IA multiplie ma productivité — je la maîtrise

Certifications recommandées

🎯 Le parcours certifications dans l'ordre

Une certification par phase. Ne pas les accumuler sans pratique — elles valident, elles n'enseignent pas.

Phase 0

LPIC-1

Linux Professional Institute

Phase 1

Kubernetes Administrator

INTERMÉDIAIRE

CKAD

Kubernetes App Developer

Phase 2

Phase 4

AWS Security Specialty

Sécurité cloud AWS

AVANCÉ

Phase 5–6

AWS DevOps Pro

CI/CD, IaC, fiabilité

Phase 6–7

Kubernetes Security Specialist

Bibliothèque SRE/DevOps — lire dans l'ordre

📗

Site Reliability Engineering

Google · Gratuit en ligne

LA référence. Lis les chapitres sur les SLO, l'error budget et le toil en premier.

📘

The SRE Workbook

Google · Gratuit en ligne

La version pratique du SRE Book. Implémentation concrète des principes avec des cas réels.

🔥

The Phoenix Project

Gene Kim, Kevin Behr, George Spafford

Roman d'entreprise. Comprendre DevOps par le storytelling. Accessible, indispensable.

🚀

Accelerate

Nicole Forsgren, Jez Humble, Gene Kim

Les données scientifiques derrière les DORA metrics. Indispensable pour parler DevOps au business.

⚡

Systems Performance

Brendan Gregg · O'Reilly

Performance Linux avancée. Référence absolue pour l'observabilité et le tuning système.

🏗️

Designing Distributed Systems

Brendan Burns (Google) · Gratuit

Patterns de systèmes distribués. Comprendre sidecar, ambassador et adapter avant Kubernetes.

Communautés & veille

📡

r/sreReddit · Discussions SRE

⚙️

r/devopsReddit · Actualité DevOps

☸️

Kubernetes SlackCommunauté officielle K8s

☁️

CNCF CommunityCloud Native Foundation

🎤

SREconConférence SRE de référence

📧

The Pragmatic EngineerNewsletter n°1 pour les ingénieurs

💪

DevOps Exercises500+ exercices pratiques

🗺️

roadmap.sh/devopsRoadmap visuelle interactive