So richtest du prometheus‑alerts so ein, dass du echte incidents statt noise bekommst

Warum "weniger Noise" wichtig ist — und warum viele Prometheus-Setups scheitern

Ich habe in Projekten immer wieder erlebt, wie ein schlecht konfiguriertes Alerting-Setup Vertrauen zerstört: Teams reagieren nicht mehr auf Alerts, weil 80% davon falsch‑positiv oder trivial sind. Prometheus und Alertmanager sind mächtige Werkzeuge, aber sie liefern von Haus aus Rohdaten. Ohne sorgfältige Regeln und Prozesse verwandelt sich das in Alarm‑Lärm statt in echte Betriebssicherheit.

Grundprinzipien, bevor du startest

Bevor ich an die konkreten Alert-Regeln gehe, gelten ein paar Prinzipien, die ich immer zuerst klar mache:

Alerts sollen Handlung auslösen. Jede Alert-Definition muss eine klare Aktion erlauben — "Investigate pod crashloop" ist besser als "High error rate".

Fokus auf Symptome, nicht nur Metriken. Statt CPU > 90% zu alarmieren, frage ich: beeinflusst das die Latenz oder Sättigung einer Ressource?

Vermeide Duplicate Alerts. Gruppiere auf Service-Ebene oder verwende deduplizierende Labels.

Setze eine Severity‑Skala. z.B. P1/P2/P3 oder critical/warning/info, und differenziere Routing im Alertmanager.

Schritt 1 — Metriken sinnvoll vormodellieren (Recording Rules)

Eine der besten Maßnahmen gegen Noise sind Recording Rules. Ich fasse rohe Metriken zu aussagekräftigen Kennzahlen zusammen, damit Alerts auf stabileren Aggregaten basieren.

Beispiele:

error_rate: rate(http_requests_total{job="app",status=~"5.."}[5m]) / rate(http_requests_total{job="app"}[5m]) — so alarmiere ich auf Verhältnis statt auf absolute Anzahl.

replica_unavailable: kube_deployment_status_replicas_unavailable{...} — statt direkt Pod-Counts zu überwachen, prüfe ich Deployment-Health.

Recording Rules reduzieren Fluktuation in den Zeitreihen und ermöglichen konsistente Alerts über verschiedene Teams hinweg.

Schritt 2 — Alerts mit Verstand schreiben

Beim Schreiben der eigentlichen Alert-Rules achte ich auf folgende Punkte:

Nutze längere Abfrageintervalle für nicht-kritische Checks. Ein for: 5m oder for: 10m verhindert Flapping durch kurzfristige Spitzen.

Arbeite mit Relativen Werten. Prozentuale Fehlerraten oder Ratio-Metriken sind oft robuster als absolute Schwellen.

Vermeide harte Schwellen ohne Kontext. Statt "CPU > 90%" kombiniere ich mit Load, Queue-Länge oder Latenz.

Labelbasiertes Targeting. Füge Labels wie service, team, severity, environment hinzu — das vereinfacht Routing und Eskalation.

Ein typisches Rule-Beispiel (verkürzt):

ALERT HighAppErrorRate — wenn error_rate über 5 Minuten > 0.05 und for: 10m, label: severity=warning, team=backend.

Schritt 3 — Alertmanager: Routing, Inhibit und Gruppierung

Alertmanager ist der Ort, an dem "Rauschen" effektiv gefiltert wird. Ich konfiguriere in drei Ebenen:

Routing nach Severity und Team. Kritische Alerts landen direkt im Pager (z. B. PagerDuty), Warnungen gehen in Slack-Kanäle.

Grouping. Ich gruppiere Alerts pro service oder instance, damit ein Incident einmal gemeldet wird, statt 50 Mal pro Pod.

Inhibit Rules. Inhibit-Policies unterdrücken weniger wichtige Alerts, wenn ein übergeordnetes Problem aktiv ist. Z. B. unterdrücke ich Pod-Restarts, wenn das ganze Cluster ein Netzwerkproblem hat.

Praktisch: setze group_by: ['service', 'severity'] und group_wait/group_interval/group_timeout so, dass Aggregation funktioniert ohne Verzögerung bei echten Incidents.

Schritt 4 — Flapping & Rate-Limits

Flapping löst schnell Fatigue aus. Ich verwende zwei Mechanismen:

Backoff/Gating über Alertmanager. Erhöhe die Benachrichtigungsfrequenz nicht sofort; sende die erste Nachricht, danach nur bei anhaltender Verschlechterung.

Prometheus-Seite: for-delay. Nutze längere for:-Dauern bei fluktuierenden Metriken. Für kritische Pfade kann kürzeres "for" sinnvoll sein, aber mit strikteren Bedingungen.

Schritt 5 — Testen und Chaos-Engineering

Ich teste Alerts nicht nur synthetisch — ich simuliere reale Fehler. Praktische Methoden:

Führe Lasttests durch und beobachte, welche Alert-Regeln feuern.

Simuliere Service-Ausfälle (z. B. mit chaos-mesh oder Kubernetes PodKill) und stelle sicher, dass die richtigen Teams benachrichtigt werden.

Review nach jedem Incident: Welche Alerts waren nützlich? Welche waren unnötig? Passe Regeln an.

Schritt 6 — Dokumentation, Runbooks und Playbooks

Ein Alert ohne klaren Handlungsanweisungen ist fast wertlos. Für jede kritische Alert-Art erstelle ich ein kurzes Runbook mit:

Symptombeschreibung

Priorität und betroffene Systeme

Erste Diagnoseschritte (logs, metrics, endpoints)

Rollback- oder Mitigationsschritte

Diese Runbooks verlinke ich direkt in Alertmanager-Notifications (z. B. ein URL-Feld), damit incident responder sofort wissen, was zu tun ist.

Praktische Tuning‑Tipps, die bei mir geholfen haben

Schwellen relativ zur Baseline setzen: alarmiere bei > 3× Median-Baseline statt bei fixen Werten.
Use blackbox_exporter für externe Checks: Verfügbarkeit von außen ist oft aussagekräftiger als interne Metriken.
Deduplicating Across Regions: Bei Multi-Region-Deployments entferne Duplicate-Alerts per Alertmanager-Cluster oder dedupe-Logik.
Alertlevel "info" für Observability: Verwende "info" als passive Notifikation, die z. B. nur in Slack-Archivkanäle geht.

Metriken, die ich fast immer überwache

Metrik	Warum
Request Error Rate (5m)	Direkter Indikator für Nutzerimpact
Latency P95/P99	Zeigt echte Performance-Probleme
Deployment Unavailable Replicas	zeigt Rollout- oder Crash-Probleme
Queue Depth / Backlog	Früher Warnindikator für Überlast
Disk Saturation / iowait	Hardware-bedingte Störungen frühzeitig erkennen

Was ich gelernt habe — Zusammengefasst in Praxisregeln

Ich habe drei Faustregeln, die schnell helfen:

Jede Alert muss eine Aktion haben. Wenn niemand weiß, was zu tun ist, ändere den Alert.

Bevorzuge relative/aggregierte Metriken. Sie sind stabiler und sinnlicher interpretierbar.

Investiere in Routing & Runbooks. Gute Automation ohne menschliche Prozesse hilft nicht viel.

Wenn du willst, kann ich dir beim Review deiner aktuellen Alert-Rules helfen: schicke mir ein paar typische Alerts (anonymisiert) und ich zeige dir, welche Regeln ich sofort ändern würde, um echten Incidents Vorrang zu geben.