Plattform & Infrastruktur

Site Reliability Engineer

Du sorgst dafür, dass dutzende verteilte Kundenumgebungen rund um die Uhr laufen — mit Observability, Automatisierung und einer ehrlichen On-Call-Kultur.

Jetzt bewerben Erst kennenlernen

Weil unsere Plattform verteilt in vielen Liegenschaften läuft, ist Betrieb kein Nebenthema, sondern Kernprodukt. Als SRE baust du die Observability, das Alerting und die Automatisierung, mit der ein kleines Team viele Umgebungen sicher betreibt. Du definierst SLOs, jagst Fehlerklassen statt Einzelfeuer und machst Incidents zu Lernquellen — nicht zu Schuldzuweisungen.

Deine Aufgaben

Observability-Stack betreiben und ausbauen (Prometheus, Grafana, Loki, Tracing).
SLOs definieren, Error-Budgets verwalten und Alerting signalarm halten.
Incident-Response und blameless Postmortems etablieren und leben.
Wiederkehrende manuelle Arbeit konsequent wegautomatisieren.
On-Call mitgestalten — fair, planbar und nachhaltig.

Das bringst du mit

Erfahrung im Betrieb produktiver, verteilter Systeme auf Kubernetes.
Sattelfest in Observability-Tooling und im Debuggen über Systemgrenzen hinweg.
Scripting/Automatisierung in Go, Python oder Bash.
Ruhe und Struktur im Incident — und die Disziplin, danach die Ursache zu beheben.
Sehr gutes Deutsch und Englisch.

Schön, aber kein Muss

Erfahrung mit OpenStack-Betrieb.
Chaos-Engineering oder Performance-Tuning.
Kenntnisse in eBPF.

Klingt nach dir?

Schick uns CV oder LinkedIn und ein paar Sätze, warum gerade diese Rolle. Kein perfektes Profil nötig — Neugier und Substanz zählen mehr als jede Checkliste.

Auf „Site Reliability Engineer“ bewerben

Weitere offene Stellen

Plattform & Infrastruktur

Site Reliability Engineer

Deine Aufgaben

Das bringst du mit

Schön, aber kein Muss

Klingt nach dir?

Weitere offene Stellen

Senior Cloud Platform Engineer

Senior Backend Engineer (Go)

Security & Compliance Engineer