Banner E-Learning IT-Sicherheit
Free

Open-Source-Tool generiert Wissensgraphen aus Texten mittels KI

Ein Werkzeug namens AI Powered Knowledge Graph Generator nutzt große Sprachmodelle, um aus unstrukturierten Texten interaktive Wissensgraphen zu erstellen – mit vielversprechenden Anwendungen für die Cybersicherheitsanalyse.

Der Entwickler Robert McDermott hat ein Open-Source-Tool veröffentlicht, das unstrukturierte Texte verarbeitet und daraus sogenannte Subjekt-Prädikat-Objekt-Triplets (SPO) extrahiert. Diese semantischen Triplets werden anschließend als interaktiver Wissensgraph visualisiert, wie der Sicherheitsexperte Russ McRee in einem Beitrag für das SANS Internet Storm Center berichtet.

Das System mit dem Namen AI Powered Knowledge Graph Generator (AIKG) arbeitet mit beliebigen OpenAI-kompatiblen API-Endpunkten. Laut McRee teilt das Tool große Dokumente automatisch in verarbeitbare Abschnitte auf und identifiziert mittels künstlicher Intelligenz Entitäten sowie deren Beziehungen zueinander. Eine konsistente Benennung der Entitäten über verschiedene Dokumentabschnitte hinweg soll dabei sicherstellen, dass auch Verbindungen zwischen zunächst nicht zusammenhängenden Teilen des Graphen erkannt werden.

Praxistest mit Berichten zu russischen Cyberoperationen

Für einen Praxistest wurden zwei Dokumente zu russischen staatlich gesponserten Cyberangriffen herangezogen: einem CISA-Advisory zu GRU-Angriffen auf westliche Logistik- und Technologieunternehmen sowie einem SecurityWeek-Artikel über APT28-Aktivitäten gegen Energieforschungseinrichtungen. Für die Tests nutzte Russ McRee Googles Gemma-3-Modell über die lokale Ollama-Plattform auf einem Lenovo ThinkBook mit AMD Ryzen-7-Prozessor und 40 Gigabyte Arbeitsspeicher unter Ubuntu. Er begründet seine Wahl der Testdokumente damit, dass Aktivitäten von Advanced Persistent Threats (APT) und staatlichen Akteuren sich besonders gut für die Darstellung in interaktiven Wissensgraphen eignen.

Ergebnisse zeigen automatisch extrahierte Bedrohungsbeziehungen

Beim ersten Test mit dem kürzeren SecurityWeek-Artikel und dem Gemma 3-Modell mit 12 Milliarden Parametern generierte AIKG 38 Knoten, 105 Kanten, davon 52 extrahierte und 53 inferierte Kanten, sowie vier Communities. Der resultierende Graph stellte semantische Triplets dar, die beispielsweise zeigten, dass Bedrohungsakteure Personen ins Visier nahmen, die mit Denkfabriken assoziiert waren – einschließlich Verweisen auf ein gefälschtes OWA-Portal mit türkischsprachigem Text.

Der zweite Test mit dem deutlich umfangreicheren CISA-Advisory und 27 Milliarden Parametern produzierte einen komplexeren Graphen mit 118 Knoten, 486 Kanten, 152 extrahierten und 334 abgeleiteten Kanten sowie sieben Gruppen (Cluster). Der anfänglich unübersichtliche Graph konnte durch Filteroptionen – etwa nach Knotenfarbe oder spezifischen Entitäten – handhabbar gemacht werden. Die gefilterte Darstellung habe unmittelbar Verbindungen zwischen Bedrohungsakteuren und deren Aktivitäten wie Credential Access, Shell-Befehlen und PowerShell-Kommandos sichtbar gemacht.

Anwendungspotenzial für Threat Intelligence

Russ McRee sieht in der Kombination aus SPO-Triplets und großen Sprachmodellen erhebliches Potenzial für die Arbeit von Cyberthreat-Intelligence-Analysten und Ermittlern. Visuelle Schlussfolgerungen aus der Textverarbeitung könnten demnach die Berichterstattung durch zusätzlichen Kontext und Anreicherung verbessern. Er wolle die erforschten Prinzipien gemeinsam mit seinem Machine-Learning-Team in die eigene Praxis für Kontext- und Anreicherungsgenerierung integrieren.

Semantische Triplets werden zwar meist mit Suchmaschinenoptimierung assoziiert, entfalteten aber in Verbindung mit LLM-Verarbeitung besondere Stärken für Threat-Intelligence-Anwendungen. Die bei den Tests generierten JSON- und HTML-Ausgabedateien wurden auf GitHub veröffentlicht, sodass Interessierte die interaktiven Wissensgraphen auch ohne eigene Installation im Browser erkunden können.