Falsch-positiver Indikator : Warum sich Security-Experten von der False-Positive-Rate als Kennzahl lösen sollten
Wenig Fehlalarme (False Positives) sind immer gut, denn so vermeidet man nicht zuletzt unnötige Belastungen seiner Security-Expert:inn:en. Doch sind False Positives davon abgesehen auch ein aussagekräftiger Indikator für die Effektivität von Cybersicherheitsmaßnahmen?
False Positives spielen in der Bedrohungsanalyse eine wichtige Rolle, da sie dazu beitragen können, Schwachstellen im Sicherheitssystem aufzudecken. Tatsächlich kann eine hohe Zahl von False Positives darauf hindeuten, dass ein System zu empfindlich eingestellt ist oder bestimmte Sicherheitsmaßnahmen möglicherweise ineffizient oder unzureichend sind.
Die Gefahren sind offensichtlich: Zum einen binden False Positives wertvolle Kapazitäten der Security-Teams, die bei echten Bedrohungen sinnvoller eingesetzt wären – das schwächt die Security im Falle eines Falles. Zum anderen besteht das Risiko, dass bei einem zu häufigen Auftreten von False Positives eine Alarmmüdigkeit eintritt – Mitarbeiter:innen reagieren dann aufgrund der „ständig“ falschen Alarme weniger sensibel auf tatsächliche Gefahren und übersehen oder ignorieren diese möglicherweise in der Masse der Alarmmeldungen.
Umgebungsabhängigkeit
Die Zahl der False Positives kann durch verschiedene Faktoren beeinflusst werden, darunter die Größe des Netzwerks, das verwendete Sicherheitssystem und die Art der Bedrohungen, denen ein Unternehmen ausgesetzt ist. Es ist wichtig, diese Umgebungsparameter im Auge zu behalten, um eine realistische Einschätzung der Effektivität von Sicherheitsmaßnahmen und der Aussagekraft der False-Positive-Rate zu erhalten und diese in einen angemessenen Kontext zu setzen.
Als Beispiel möge ein fiktiver Algorithmus Domain-Analyse dienen, der 80 % aller böswilligen/schädlichen Domains in einem Set findet. Alle statistischen oder Machine-Learning-(ML)-Algorithmen unterliegen einem gewissen Fehler, da sie grundsätzlich auf Wahrscheinlichkeiten basieren. Für den Beispiel-Algorithmus nehmen wir an, dass in 5 % der Fälle eine legitime Domain fälschlicherweise als schädlich gekennzeichnet wird – das ist genau der Fehler, der zu False Positives führt. False-Negative-Ergebnisse, die auftreten, wenn schädliche Domains nicht erkannt werden, sind zwar ebenfalls eine wichtige Art von Fehlern, stehen hier jedoch nicht im Fokus.
Wie hoch wäre unter den genannten Randbedingungen Ihre Erwartung an die False-Positive-Rate des Algorithmus? Zugegebenermaßen handelt es sich hierbei um eine Fangfrage – denn die vorliegenden Informationen sind noch nicht ausreichend, um eine echte Einschätzung vornehmen zu können. Tatsächlich sind nämlich auch weitere Parameter entscheidend, wie ein Vergleich des Algorithmus in zwei verschiedenen Umgebungen verdeutlicht. Im ersten Beispiel seien 20 % aller untersuchten Domains in einem Datensatz tatsächlich schädlich. Umfasst der Datensatz 50 Domains, gibt es also 10 gefährliche Domains, von denen der Algorithmus 8 finden wird. Von den restlichen 40 legitimen Domains wird der Algorithmus fälschlicherweise 2 als schädlich blockieren. Insgesamt werden also 10 Domains als gefährlich gekennzeichnet – 8 tatsächlich schädliche und 2 eigentlich harmlose. Hier kommt der Algorithmus noch halbwegs gut weg: Mit 2 von 10 Domains, die fälschlicherweise als gefährlich erkannt werden, liegt die False-Positive-Rate bei 20 % – auch wenn man aufgrund der Beschreibung des Algorithmus „intuitiv“ eventuell nur 5 % erwartet hätte. Wenn ein Datenset nur 50 Domains umfasst, ist diese Abweichung nicht so schlimm. Was aber, wenn der Algorithmus aber einige Millionen Domains überprüft?
Ein zweites Beispiel liegt näher an der Realität: einerseits aufgrund der heute enormen Datenmengen und andererseits durch einen Prozentsatz schädlicher Domains, der deutlich unter dem ersten Beispiel liegt. Auch wenn sich Experten über die genaue Zahl streiten, scheinen 5 % eine gute Zahl für diese Betrachtung zu sein – statt 50 Domains umfasse der zu prüfende Datensatz nun eine Million. Insgesamt gibt es darin also 50 000 gefährliche Domains, von denen der Algorithmus 40 000 erkennen sollte. Von den verbleibenden 950 000 legitimen Domains wird er fälschlicherweise 47 500 als schädlich einstufen. An diesem Punkt sollten alle Alarmglocken angehen: Obwohl der Algorithmus 80 % der problematischen Domains erkennt und „nur“ 5 % der legitimen Domains falsch einordnet, übersteigen die False Positives sogar die Zahl der erkannten schädlichen Domains! Damit liegt die False-Positive-Rate in diesem Szenario bei extremen 54 %.
False Positives sind proportional zur Menge der legitimen Domains – und im DNS-Bereich spielen die Zahlen massiv gegen die Sicherheitssysteme: Denn die Anzahl der Domains selbst ist schon hoch und durch das Ungleichgewicht zwischen legitimen und gefährlichen Domains schlägt die Waage noch mehr in Richtung legitimer Domains aus, was die False-Positive-Rate im Vergleich weiter steigen lässt.
Alternative: Low-Regret-Methode
Eine mögliche Alternative zur Bewertung der Effektivität von Cybersicherheitsmaßnahmen ist die sogenannte Low-Regret-Methode [1,2] des Johns Hopkins University Applied Physics Lab (JHU/APL). Sie stellt eine relativ neue Herangehensweise in der Cybersecurity dar, die darauf abzielt, den Nutzen automatisierter Reaktionen auf Bedrohungen zu maximieren und gleichzeitig das Risiko unbeabsichtigter negativer Auswirkungen auf Netzwerkoperationen zu minimieren.
Anders als die Betrachtung von False Positives, bei denen Sicherheitsteams möglicherweise unnötige Ressourcen für die Untersuchung harmloser Ereignisse aufwenden müssen, konzentriert sich die Low-Regret-Methode auf die Identifikation von Aktionen mit geringem Risiko oder geringen Auswirkungen. Kurz gesagt: Je geringer der Impact auf das Geschäft, die Abläufe und das Netzwerk ist, desto weniger relevant ist eine exakte Risikoeinschätzung. Und in den Fällen, in denen das anschließende „Bedauern“ nach einer Fehleinschätzung sehr gering ist, können ruhig automatisierte Maßnahmen gegen potenzielle Bedrohungen erfolgen, die nicht erst von Menschen überprüft werden müssen. Durch diesen Ansatz lässt sich die Effizienz von Sicherheitsteams steigern, indem diese ihre wertvollen Ressourcen gezielter einsetzen und sich auf die Analyse und Abwehr von „High-Regret“-Bedrohungen konzentrieren, die erhebliche negative Auswirkungen auf das Unternehmen haben könnten.
Fazit
Es ist wichtig zu betonen, dass maschinelles Lernen dennoch eine wichtige Rolle in der Cybersicherheit spielen kann: Viele Anbieter nutzen sowohl maschinelles Lernen als auch statistische Lernanalytik effektiv zur Erkennung von Bedrohungen. Wir alle sollten jedoch unsere Erwartungen an solche Algorithmen überdenken – vor allem, wenn sie auf großen Datenmengen zum Einsatz kommen. Denn Fehler sind unvermeidbar und sie skalieren mit ihren Umgebungen.
Für die umfängliche Beurteilung eines Algorithmus ist es daher auch wichtig zu wissen, wie die Zahlen exakt lauten, wie sie in verschiedenen Umgebungen aussehen und wie eine Lösung arbeitet. Analysen von 2022 haben beispielsweise gezeigt, dass Infoblox-Kunden eine False-Positiv-Rate von 0,00015 % gemeldet haben – negative Auswirkungen also nur für 1 von 543 000 eindeutigen „Indicators of Compromise“ (IoC). Solche Zahlen lassen sich erreichen, indem man eine Vielzahl von Informationen aus verschiedensten Algorithmen in die letztliche Entscheidung einfließen lässt. Dabei geht es um eine Kombination von statistischen und nicht-statistischen Algorithmen sowie „Human-in-the-Loop“-Strategien für Algorithmen mit hohem Risiko und das Threat-Hunting.
Neben der richtigen Einordnung eines Algorithmus ist vor allem auch die Sensibilisierung dafür wichtig, dass die Frage, wie viele Fehlalarme es im Netzwerk gibt, nicht unbedingt zielführend ist: Denn wenn False Positives das Netzwerk und die Ressourcen gar nicht negativ beeinflussen, sollten sie bei Entscheidungen auch keine Rolle spielen.
Literatur
[1] Applied Physics Lab der Johns Hopkins University (JHU/APL), Low-Regret Methodology for Evaluating Cyber Threat Intelligence to Enable Network Defense, githubRepository, https://github.com/JHUAPL/Low-RegretMethodology
[2] Charles Frick, Applying „Low-Regret“ Methodology For Cyber Threat Intelligence Triage, Cybersecurity Automation and Threat Intelligence Sharing Best Practices, April 2021, www.cisa.gov/resources-tools/resources/applying-low-regret-methodology-cyber-threat-intelligence-triage-white-0