Key-Performance-Indicators : SOC-KPIs für das KI-Zeitalter : Wie neue Metriken moderne Cyberabwehr messbar(er) machen
Die Messbarkeit des Erfolgs ist ein Kernelement jeder Cybersecurity-Strategie – Unternehmen müssen wissen, wie performant die Maßnahmen des Security-Operations-Center (SOC) sind, um im Bedarfsfall nachjustieren zu können. Durch künstliche Intelligenz und neuerdings Agentic AI haben sich die Maßeinheiten klassischer Key-Performance-Indicators (KPIs) allerdings deutlich verändert und neue Kennzahlen gewinnen zunehmend an Relevanz.
Der Druck auf Security-Operations-Center (SOCs) nimmt seit Jahren zu. Das liegt vor allem an der steigenden Anzahl von Alerts, mit denen sich Sicherheitsanalysten und Cybersecurityexperten herumschlagen müssen – Hacker halten sie durch automatisierte Massenangriffe und immer komplexere Angriffsszenarien ordentlich auf Trab. Gleichzeitig fordern Unternehmen eine immer höhere Reaktionsgeschwindigkeit: Zwar ist die Business-Continuity nicht unbedingt wichtiger geworden – die war schon immer essenziell –, doch potenzielle Schäden, die Cyberattacken nach sich ziehen, sind deutlich gestiegen.
Eine präzise Beurteilung und Steuerung der operativen Leistung ist daher unerlässlich. Key-Performance-Indicators (KPIs) für die Beurteilung der Effizienz von SOCs sind dafür das zentrale Instrument und – wie die Cybersecurity-Welt an sich – im ständigen Wandel begriffen. Analysten müssen sie an aktuelle Begebenheiten anpassen. Bevor das jedoch möglich ist, erscheint es wichtig, die Historie der SOC-KPIs holistisch zu betrachten.
Klassische SOC-KPIs
Vor dem breiten Einsatz von Automatisierung und künstlicher Intelligenz (KI) wurde die Leistungsfähigkeit von SOCs vor allem anhand operativer Effizienz und menschlicher Analysequalität gemessen. Die entsprechenden Kennzahlen orientierten sich stark an der manuellen Bearbeitung von Alerts, also Alarmmeldungen von Cybersecurity-Tools wie Firewalls oder Antivirensoftware, und Sicherheitsvorfällen (Security-Incidents). Automatisierte Filtermechanismen oder kontextbasierte Priorisierung spielten eine untergeordnete Rolle.
Von den in dieser Zeit etablierten KPIs besitzen einige nach wie vor eine große Bedeutung. Die Mean Time to Detect (MTTD) beschreibt beispielsweise die mittlere Zeitspanne vom Auftreten eines Events, also etwa dem Durchbrechen einer Firewall, bis zu dessen Identifikation als potenziellem Sicherheitsvorfall. Hinter dem im Cybersecurity-Kontext sehr wichtigen Akronym MTTR können sich hingegen mehrere Kennzahlen verbergen: Mean Time to Respond, Resolve oder Recover. Time to Respond beziffert die Zeit, die Analysten von der Detektion eines Incidents bis zu dessen Eindämmung benötigen. Time to Resolve misst, wie lange sie benötigen, um den Sicherheitsvorfall zu klären, während Time to Recover die Zeit angibt, bis auch die Folgen eines Incidents restlos behoben sind.
Weitere traditionelle KPIs sind das Alert-Volumen sowie die Anzahl geschlossener Tickets (Alert-Closure-Rate): Diese Werte werden verwendet, um die operative Leistungsfähigkeit eines SOCs gegenüber Kunden oder Stakeholdern zu demonstrieren. Das Problem ist allerdings, dass sie zwar den Workload abbilden, jedoch an sich keinen Sicherheitsgewinn belegen. Ein Analyst kann durchaus den ganzen Tag damit beschäftigt sein, Tickets abzuarbeiten – wenn es sich dabei allerdings um False Positives handelt, also Warnmeldungen ohne echte Sicherheitsrelevanz, steigt der Securitylevel hierdurch eher nicht.
Um herauszufinden, wie groß der Anteil an Fehlalarmen tatsächlich ist, tracken viele SOCs die False-Positive-Rate ebenfalls. Dieses Tracking hilft, die Qualität von Detection-Regeln zu beurteilen, und deckt auf, wie viel Zeit Analysten mit Fehlalarmen verschwenden. Das Ticket-Aging, also die Dauer, die Security-Tickets im Schnitt bis zur Bearbeitung unangetastet bleiben sowie die Größe des Backlogs geben überdies Aufschluss darüber, ob ein SOC mit der Arbeitslast Schritt halten kann. Zu guter Letzt beschreibt die Dwell-Time, wie lange Angreifer sich unentdeckt in internen Systemen bewegen konnten, während die Escalation-Rate zeigt, wie viele Incidents tatsächlich an Kunden (im Falle externer SOCs) oder Response-Teams weitergegeben werden.
Abbildung 1: Benchmarks für traditionelle KPIs haben sich im KIZeitalter deutlich verändert.
Benchmarking traditioneller KPIs für SOCs
Die Bewertung der KPIs für SOCs erfolgt typischerweise anhand von Branchenstandards. Unternehmen orientieren sich dafür an etablierten oder offiziellen Richtlinien etwa vom SANS Institute (SysAdmin, Audit, Network, Security) oder dem US-amerikanischen National Institute of Standards and Technology (NIST). Auch SOC-Maturity-Frameworks wie MITRE ATT&CK [1] oder die Gartner SOC Visibility Triad (siehe etwa [2]) werden oft für die Definition von Benchmarks herangezogen. Neben Compliance-Anforderungen spielen dabei auch interne Ressourcen wie die Kapazitäten der Mitarbeiter sowie bei externen SOCs die Kundenanforderungen eine Rolle.
Typische Benchmark-Werte sehen traditionell in etwa so aus:
- 10–30 Minuten durchschnittliche Bearbeitungszeit pro Alert
- 20–80 Tickets pro Analyst und Tag
- MTTR im Bereich von Tagen bis Wochen
- False-Positive-Rates von 20–60%
Als besonders leistungsfähig galten SOCs, die deutlich unter diesen aus heutiger Sicht eher lockeren Werten lagen. Ein hochperformantes SOC konnte beispielsweise Alerts innerhalb von fünf bis zehn Minuten bearbeiten, mehr als 100 Tickets pro Analyst bewältigen oder Incidents innerhalb von 24 Stunden lösen.
Diese Benchmarks können allerdings lediglich im rein manuellen Arbeitsbereich als besonders effizient gelten, wo Kontextbeschaffung, Log-Recherche und Korrelationsanalysen erhebliche Zeit erfordern. Bevor überhaupt mit der Bearbeitung von Tickets begonnen werden kann, müssen Analysten in solchen Settings schließlich Abfragen für die Sicherheitssysteme formulieren, relevante Artefakte identifizieren und weitere Vorarbeit leisten.
Automatisierung
Viele dieser Aufgaben sind redundant und fressen wertvolle Zeit von Cybersecurityexperten, weshalb ihre Automatisierung bereits lange vor dem breiten Einsatz von KI begann. Analysten definierten dafür standardisierte Triage-Workflows und automatisierte Enrichment-Prozesse – allem voran Tier-1- und Tier-2-Aufgaben ließen sich so zunehmend automatisieren. Dazu gehören etwa die Event-Korrelation, die Kontextanreicherung von Tickets, Threat-Intel-(TI)-Abfragen, eine initiale Risikobewertung sowie das Ausführen vordefinierter Responsesaktionen in einem sehr engen Rahmen.
Durch diese Automatisierung konnten SOCs die Zeit für die Kontextgewinnung und auch die MTTRWerte bereits deutlich reduzieren: Benötigten Analysten zuvor etwa 15–20 Minuten, um überhaupt nur grundlegende Informationen zu sammeln, standen diese Daten sodann bereits beim Öffnen eines Tickets zur Verfügung. Dadurch verschob sich der Fokus für SOC-Analysten von manueller Datensammlung dorthin, wo er eigentlich liegen sollte: auf die Bewertung von Sicherheitsvorfällen und die aktive Bearbeitung sowie Klärung echter Incidents.
KI und Agentic AI
Mit der Einführung KI-basierter Analytik und Automatisierung auf Basis von Agentic AI müssen sich nun allerdings auch die KPIs und ihre Zielgrößen wandeln: So sollten Unternehmen die Leistungsfähigkeit eines SOC heute nicht mehr ausschließlich anhand der Effizienz menschlicher Mitarbeiter messen, sondern dafür eine Kombination aus Automatisierung, Entscheidungsqualität und Skalierbarkeit betrachten. Neben der bereits zuvor wichtigen Automatisierung von Tier-1- und Tier‑2- Aufgaben wird der Erfolg eines SOCs nun auch durch die Verbesserung der Entscheidungsqualität, Optimierung der Ressourcennutzung und Steigerung der allgemeinen Analysequalität definiert.
KI-gestützte Systeme können Alerts schließlich nicht mehr nur initial bewerten, sondern auch – basierend auf vordefinierten Kritikalitätsindikatoren – automatisch eine Triage durchführen. Sie korrelieren zudem Events und fassen die wichtigsten Informationen einzelner Incidents in natürlicher Sprache zusammen.
Wenn ein Analyst dann ein Ticket öffnet, hat er bereits eine vorstrukturierte Informationsgrundlage, wodurch er konsistenter und schneller Entscheidungen über die weiteren Vorgänge treffen kann. Durch Agentic AI sind hochmoderne SOCs zudem in der Lage, die Bearbeitung bestimmter Vorkommnisse komplett automatisiert durchführen zu lassen. Dadurch reduziert sich der manuelle Aufwand so weit, dass Analysten mehr Zeit für komplexe Incidents haben, die tatsächlich menschliche Expertise erfordern.
Klassische Benchmarks haben ausgedient
Ein weiterer wesentlicher Effekt des KI-Einsatzes im SOC ist die bessere Skalierbarkeit: In klassischen Strukturen mussten Unternehmen mit dem Wachstum der IT-Infrastruktur und der Zunahme von Incidents auch die Anzahl ihrer Analysten steigern – Gleiches galt für Anbieter von SOC-Dienstleistungen, die mit zunehmender Kundschaft ihre Workforce vergrößern mussten.
KI-gestützte Prozesse ermöglichen heutzutage eine effizientere Nutzung der vorhandenen Ressourcen. Auf diese Weise findet auch im Hinblick auf die Benchmarks für den Erfolg von SOCs ein Paradigmenwechsel statt – und früher als ambitioniert geltende Werte sind heute leicht zu erreichen. In Zahlen drückt sich diese Verschiebung wie folgt aus:
- MTTD sinkt von Minuten auf Sekunden oder Near-Real-Time
- MTTR sinkt von Tagen auf Stunden oder Minuten
- Alert-Closure-Rate steigt von Dutzenden auf Hunderte oder Tausende pro Tag
- False-Positive-Rate sinkt von 20–60% auf nunmehr < 5%
Allerdings ist die Alert-Rate in den letzten Jahren deutlich gestiegen – Cyberkriminelle können logischerweise ebenso auf ein ganzes Arsenal von KI-Tools für automatisierte Attacken zutrückgreifen. Durch den Einsatz von Agentic AI in der Verteidigung wird jedoch ein Durchbrechen oder Aushebeln der Sicherheitsmaßnahmen – etwa wegen Ermüdung oder Ressourcenknappheit auf Verteidigerseite – nicht wahrscheinlicher. Gleichzeitig bewirkt KI, dass Tickets nicht mehr so lange herumliegen und sich der Backlog auf diese Weise reduziert. Durch einen Zuwachs der automatisierten Bearbeitungs-Qualität im SOC selbst sinkt zudem die Escalation-Rate und da KI schneller als jeder Analyst auffällige Muster in Systemen erkennt, reduziert sich auch die potenzielle Verbleibszeit von Angreifern in Systemen (Dwell-Time).
Neue KPIs für moderne SOCs
Da KI und vor allem Agentic AI in der Cybersicherheit mittlerweile einen deutlich größeren Stellenwert haben, sollten SOCs neben klassischen Metriken auch neue KPIs verwenden, die speziell auf diese Entwicklung zugeschnitten sind. Solche Kennzahlen messen nicht nur Geschwindigkeit, sondern auch Automatisierungsgrad und Entscheidungsqualität. Zu den wichtigsten dieser neuen KPIs gehören:
- AI-Automation-Coverage: misst, welcher Anteil der SOC-Workloads durch Automatisierung oder KI bearbeitet wird – diese Kennzahl gibt Aufschluss über den Reifegrad der Automatisierung im SOC.
- Accuracy of AI-Decisions: Anhand dieses Benchmarks bewerten SOCs, wie häufig KI-basierte Entscheidungen korrekt sind – die Einschätzung erfolgt auf Basis von Analystenfeedback oder Incident-Validierung.
- AI-to-Human-Escalation-Ratio: Dieser KPI zeigt, wie viele Incidents die KI autonom abschließt und wie viele an Analysten eskaliert werden müssen.
- Human-Intervention-Rate: misst, wie oft Analysten KI-Entscheidungen überschreiben – eine niedrige Rate deutet auf eine hohe Zuverlässigkeit der KI hin.
- Time Saved per Incident: Mit dieser Kennzahl erfassen SOCs, wie viel Bearbeitungszeit sie durch Automatisierung einsparen – sie ist besonders relevant für Business-Case-Betrachtungen.
- Autonomous-Response-Rate: misst den Anteil automatisch eingeleiteter Response-Maßnahmen, beispielsweise zur Endpoint-Isolation oder Account-Sperrung.
Welche KPIs ein SOC wann einsetzt, sollte stets am allgemeinen Reifegrad des SOC ausgerichtet sein: Zu Beginn liegt der Fokus typischerweise auf klassischen operativen Kennzahlen wie MTTD, MTTR, Alert-Volumen oder Escalation-Rate. Mit zunehmendem Einsatz von KI sollte man diese Basiskennzahlen um Automatisierungsmetriken ergänzen. In hochentwickelten SOCs, die autonom agierende KI-Agenten einsetzen, sind die oben genannten Leistungsindikatoren eine obligatorische Ergänzung, um die tatsächliche Effizienz zu messen. Insgesamt verlagert sich damit der Fokus von reiner Geschwindigkeit hin zu Qualität, Konsistenz und Automatisierungsgrad der Cybersecurity.
Neben dem Reifegrad beeinflusst außerdem auch die Bedrohungslandschaft die Definition geeigneter KPIs und Benchmarks: Branchen mit hoher Regulierung oder erhöhtem Angriffsrisiko benötigen in der Regel strengere Zielwerte. Finanzinstitute oder Betreiber kritischer Infrastrukturen (KRITIS) definieren häufig deutlich niedrigere MTTR-Ziele sowie höhere Anforderungen an Automatisierung und Reaktionsgeschwindigkeit als etwa Produktionsunternehmen.
Governance nicht vernachlässigen
Mit zunehmender Automatisierung gewinnt die Governance an Bedeutung: KI-basierte Entscheidungen müssen heute nachvollziehbar, überprüfbar und auditierbar sein. Dazu gehören die vollständige Protokollierung von KI-Aktionen, die Dokumentation der verwendeten Datenquellen sowie eine kontinuierliche Analyse der Sicherheit des Systems und der Korrektheit der Bewertungen (Confidence-Level).
Eine transparente Begründung des KI-Systems hinsichtlich seiner automatisierten Maßnahmen ist ebenfalls unabdingbar. Ergänzend sollten Unternehmen Human-in-the-Loop-Konzepte etablieren, um kritische Entscheidungen weiterhin durch Analysten freigeben zu lassen. Grundsätzlich sind klare Guardrails, also ein Regelkorsett, für KI-gestützte SOCs – jedenfalls derzeit – noch obligatorisch: Autonom agierende KI-Agenten sollten ausschließlich innerhalb definierter Handlungsspielräume agieren dürfen. Typische Maßnahmen in diesem Zusammenhang umfassen die Begrenzung automatischer Isolationen, Freigabe-Workflows für kritische Aktionen, rollenbasierte Zugriffskontrollen sowie eine nur stufenweise Einführung von Autonomie. Diese Mechanismen sichern die Kontrolle über automatisierte Prozesse und erhöhen gleichzeitig die Akzeptanz bei Stakeholdern.
Zukünftig dürfte sich die Bewertung der Effizienz von SOCs weiter verschieben: Geschwindigkeit und Ticketvolumen werden weiter an Bedeutung verlieren, da KI ohnehin die Geschwindigkeit für Reaktionen auf ein Mindestmaß reduziert – Automatisierungsgrad, Entscheidungsqualität der KI sowie eine kontrollierte Autonomie von KI-Agenten rücken allem voran in den Fokus. Klassische KPIs bleiben zwar relevant, werden jedoch durch KI-spezifische Metriken ergänzt, die den tatsächlichen Sicherheitsgewinn besser abbilden.
Erfolgreiche SOCs sind künftig damit solche, die KI höchst effizient einsetzen, ohne Governance, Transparenz und menschliche Kontrolle zu vernachlässigen.
Biren Patel ist Senior Manager, AMER SOC bei Ontinue.
Literatur
[1] The MITRE Corporation, MITRE ATT&CK, undatiert, https://attack.mitre.org/
[2] Sapphire, What is the SOC Visibility Triad?, Blogpost, undatiert, www.sapphire.net/blogs-press-releases/what-is-the-soc-security-operations-centre-visibility-triad/


