Platform Operations Engineer – SRE & Infrastructure Automation (m/w/d)
Rolle
Zwischen Code und Betrieb liegt eine Disziplin, die beides vereint: Site Reliability Engineering. Gesucht wird eine Fachkraft, die Systeme nicht nur am Leben erhält, sondern sie durch Automatisierung, Observability und kontinuierliches Verbessern auf ein neues Zuverlässigkeitsniveau hebt.
Verantwortung
Design und Betrieb von Multi-Infrastruktur-Deployments über On-Prem-, Private-Cloud- und Public-Cloud-Umgebungen hinweg
Entwicklung und Pflege von IaC-Lösungen zur vollständigen Automatisierung von Provisionierung, Updates und Kunden-Onboardings
Aktive Rolle im Incident Management: Ursachenanalyse, Eskalationshandling und nachhaltige Problemlösung durch gezielte Log- und Datenbankanalysen
Aufbau eines umfassenden Observability-Systems inkl. SLI/SLO-Framework, Alerting-Logik, Runbooks und automatisierter Incident-Reaktion
Technische Verantwortung für den Onboarding-Prozess neuer Kunden – von der Infrastrukturbereitstellung bis zur betrieblichen Übergabe
Enge Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Systemarchitektur, Resilienz und Deploymentgeschwindigkeit
Erarbeitung verbindlicher Betriebsrichtlinien und technischer Standards für externe Dienstleister und Partner
Qualifikationen
Solide Entwicklungserfahrung in Kotlin, Java oder Python – du verstehst Code und kannst ihn lesen, anpassen und debuggen
Tiefes Linux-Know-how und sicherer Umgang mit der Kommandozeile inkl. komplexem Shell-Scripting
Praktische Erfahrung mit Container-basierten Architekturen (Docker, idealerweise auch Kubernetes)
SQL-Kenntnisse für die eigenständige Analyse produktiver Datenbanken im Incident-Kontext
Fundiertes Verständnis von Netzwerkkonzepten: TLS-Zertifikate, DNS-Architektur, Firewall-Regeln, Routing
Erfahrung mit Konfigurationsmanagement und Automatisierung (Ansible, Terraform o. ä.)
Ausgeprägtes SRE-Mindset: Fehlerbudgets, Toil-Reduktion, Reliability als Engineering-Disziplin
Präzise, strukturierte Dokumentationskultur – du hältst fest, was du tust und warum