Alle Stellen
Plattform & Infrastruktur

Site Reliability Engineer

Du sorgst dafür, dass dutzende verteilte Kundenumgebungen rund um die Uhr laufen — mit Observability, Automatisierung und einer ehrlichen On-Call-Kultur.

Weil unsere Plattform verteilt in vielen Liegenschaften läuft, ist Betrieb kein Nebenthema, sondern Kernprodukt. Als SRE baust du die Observability, das Alerting und die Automatisierung, mit der ein kleines Team viele Umgebungen sicher betreibt. Du definierst SLOs, jagst Fehlerklassen statt Einzelfeuer und machst Incidents zu Lernquellen — nicht zu Schuldzuweisungen.

Deine Aufgaben

  • Observability-Stack betreiben und ausbauen (Prometheus, Grafana, Loki, Tracing).
  • SLOs definieren, Error-Budgets verwalten und Alerting signalarm halten.
  • Incident-Response und blameless Postmortems etablieren und leben.
  • Wiederkehrende manuelle Arbeit konsequent wegautomatisieren.
  • On-Call mitgestalten — fair, planbar und nachhaltig.

Das bringst du mit

  • Erfahrung im Betrieb produktiver, verteilter Systeme auf Kubernetes.
  • Sattelfest in Observability-Tooling und im Debuggen über Systemgrenzen hinweg.
  • Scripting/Automatisierung in Go, Python oder Bash.
  • Ruhe und Struktur im Incident — und die Disziplin, danach die Ursache zu beheben.
  • Sehr gutes Deutsch und Englisch.

Schön, aber kein Muss

  • Erfahrung mit OpenStack-Betrieb.
  • Chaos-Engineering oder Performance-Tuning.
  • Kenntnisse in eBPF.

Klingt nach dir?

Schick uns CV oder LinkedIn und ein paar Sätze, warum gerade diese Rolle. Kein perfektes Profil nötig — Neugier und Substanz zählen mehr als jede Checkliste.

Auf „Site Reliability Engineer“ bewerben