Strukturschwächenausgleich : KI-Unterstützung und -Automatisierung zur Klassifizierung von unstrukturierten Datenbeständen
Informationssicherheit und Cyberresilienz beginnen mit Transparenz: Welche Daten liegen in welcher Menge und welchen Formaten vor? Wo liegen die Daten – und in welchem Systemkontext? Wie sensibel sind sie? Wer ist zum Zugriff berechtigt? Erst mit diesem Wissen lassen sich IT-Sicherheitsmaßnahmen priorisieren, Datenschutzanforderungen sauber umsetzen und Investitionen in Sicherheitsarchitekturen sinnvoll steuern. Eine verlässliche Basis hierfür liefert eine systematische Klassifikation des Datenbestands – beispielsweise durch semantisch arbeitende KI-Systeme, die auch in heterogenen und verteilten Datenlandschaften schnell handfeste Ergebnisse liefern.
Obwohl Daten der Theorie nach als einer der wichtigsten Unternehmenswerte gelten, fehlt in der Praxis oft die Grundlage für eine systematische Klassifikation und Risikobewertung. Besonders unstrukturierte Daten sind häufig unklassifiziert, redundant oder lassen sich nicht eindeutig zuordnen – das betrifft etwa Daten, die außerhalb standardisierter Systeme für das Enterprise-Resource-Planning (ERP) oder Customer-Relationship-Management (CRM) abgelegt werden. Eine fehlende Klassifizierung bedeutet jedoch, dass die Verantwortlichen im Ernstfall nicht wissen, welche Risiken genau ein Datenabfluss birgt, weil sie die betroffenen Daten im Detail gar nicht kennen. Abgesehen davon verursacht eine fehlende Datenstrategie aber auch mehr Aufwand im operativen Alltag, da Mitarbeiter* vermeidbare Zeit für Suchen und manuelles Klassifizieren aufwenden. Auch die Kosten gehen so in die Höhe – sowohl für diesen operativen Mehraufwand als auch beispielsweise für Cloud-Speicherplatz.
Hinzu kommt: Gerade in größeren Unternehmen sind Zuständigkeiten für die Informationsklassifikation häufig komplex: Sicherheits-, Datenschutz- und Risikomanagement-Verantwortliche verfolgen teils unterschiedliche Zielsetzungen. Klassifikation schafft hier eine gemeinsame Grundlage: eine semantisch strukturierte Sicht auf die vorhandenen Information Assets – einschließlich ihrer Thematik, ihres Schutzbedarfs und ihrer Aktualität.
In der Praxis stellen sich Fragen wie: Welche Dateiformate dominieren in welcher Abteilung? Warum archiviert die Finanzabteilung massenhaft E-Mails, während HR überwiegend mit Word-Dateien arbeitet? Welche Dokumente sind über zehn Jahre alt – und bergen Risiken im Hinblick auf Aufbewahrungsfristen oder Datenschutz?
Erst eine entsprechende Transparenz bildet die Grundlage, um unterschiedliche Interessen systematisch zu integrieren: vom Schutz sensibler Personaldaten über den gezielten Einsatz von Verschlüsselung bis hin zur Löschung veralteter Daten, um DSGVO-Anforderungen zu erfüllen und die Speichernutzung wirtschaftlicher zu gestalten.
Semantische Klassifikation
Die „forensische Methode“, jede Datei manuell zu öffnen und zu bewerten, ist dabei in größeren Unternehmen weder praktikabel noch bezahlbar. Als effektive Alternative haben sich – auch in Konzernen – semantische Klassifikationssysteme bewährt, die mithilfe analytischer künstlicher Intelligenz (KI) Inhalte maschinell analysieren, bewerten und thematisch einordnen.
Generative Sprachmodelle (Large Language Models, LLM) stoßen bei großen Dokumentenvolumina schnell an Kosten- und Performance-Grenzen. Spezielle analytische Machine-Learning-(ML)-Modelle sind hingegen prädestiniert für die strukturierte Kontextanalyse großer Datenmengen und lassen sich sowohl in Bezug auf ihre Erkennungslogik als auch ihrer Rechenlast deutlich effizienter in bestehende IT-Landschaften integrieren.
Die Zielsetzung solcher Klassifikationen variiert: In manchen Unternehmen steht die DSGVO-Compliance im Vordergrund, in anderen das Retention-Management oder die Cloud-Kostenkontrolle. Klassifikation kann aber auch der Startpunkt für abteilungsübergreifendes Wissensmanagement sein: indem sie auffindbar macht, welche Personengruppen besonders häufig mit bestimmten Dokumententypen arbeiten oder wo fachliches Wissen unstrukturiert abgelegt wurde.
Die Arbeitsweise der KI-Algorithmen geht dabei weit über das Auslesen einzelner Schlagworte hinaus – stattdessen werden Inhalte kontextbasiert interpretiert. Das bedeutet: Entitäten wie Namen, Geldbeträge oder medizinische Begriffe werden identifiziert, Inhalte thematisch modelliert und ihr jeweiliger Schutzbedarf mit Blick auf den semantischen Kontext bewertet. So kann ein semantisches Klassifikationssystem erkennen, ob beispielsweise eine Bankverbindung (IBAN) im Kontext einer Reisekostenabrechnung auftaucht oder in einem vertraulichen Arbeitsvertrag mit externem Zugriff.
Moderne Klassifikationslösungen kombinieren regelbasierte Komponenten mit lernfähigen Modellen: Unternehmen können damit eigene Regelwerke definieren – etwa „personenbezogene Daten + medizinische Begriffe = Vertraulichkeitsstufe hoch“ – und gleichzeitig maschinelles Lernen einsetzen, um organisationsspezifische Inhalte automatisch und intelligent zu klassifizieren. Die zugrunde liegenden KI-Modelle werden mit Beispielmaterial aus dem Unternehmen trainiert und laufend optimiert.
Besonderes Augenmerk liegt auf der Nachvollziehbarkeit der Entscheidungen: Fachverantwortliche müssen in der Lage sein, zu verfolgen, warum ein Dokument als kritisch eingestuft wurde – etwa anhand einer Übersicht erkannter Merkmale, Gewichtungen oder Regelverknüpfungen. Diese sogenannte Explainability – also die technische Nachvollziehbarkeit von Klassifikationsentscheidungen – ist ein Schlüsselfaktor für Auditierbarkeit und regulatorische Dokumentation. Dieses Prinzip fördert zudem die Akzeptanz in den Fachabteilungen, die sich nicht auf „Blackbox“-Bewertungen verlassen müssen. Stattdessen können sie klar nachvollziehen, auf welchen inhaltlichen Merkmalen, Regelkombinationen oder Kontextinformationen eine Einstufung beruht – und über entsprechende Dashboards bei Bedarf intervenieren.
Metadaten-Analyse
Idealerweise bewegt sich der eingesetzte KI-Agent auf der Ebene von Metadaten und Referenzinformationen – der eigentliche Dokumenteninhalt wird nicht verschoben oder verändert. Die semantische Analyse extrahiert dann beispielsweise Informationen zu Dateityp, Alter, Speicherort, Autorenschaft, Themenbezug, enthaltenen Entitäten oder Zugriffshistorie und reichert sie um Klassifikationskennzeichen an. So entsteht ein vernetztes Informationsinventar, das sich systemübergreifend durchsuchen, filtern und auswerten lässt.
Dabei unterstützt das aufgebaute Metadaten-Schema auch eine kontextsensitive Analyse: So wird beispielsweise nicht nur die bloße Präsenz einer IBAN erkannt, sondern auch deren Zusammenhang mit dem jeweiligen Dokumenttyp – etwa einer Reisekostenabrechnung oder einem Arbeitsvertrag. Der Kontext bleibt also allein durch die angereicherten Metadaten nachvollziehbar. Auch quantitative Auswertungen und Anomalieerkennung lassen sich so auf rein strukturierter Ebene durchführen – etwa bei auffälliger Häufung sensibler Inhalte wie Kreditkartennummern in bestimmten Dateitypen oder Speicherorten.
Die Analyse sensibler Inhalte erfolgt hierzu nicht auf den Endgeräten der Mitarbeiter, sondern über zentrale Speicherorte wie SharePoint, File-Shares, Cloudlösungen oder CRM-Systeme – also dort, wo die Daten ohnehin vorliegen. Statt Dokumente zu verschieben oder gar in externe Umgebungen auszulagern, werden sie in ihrer Quellumgebung belassen und ausschließlich anhand ihrer Metadaten und inhaltlichen Strukturen analysiert. Das entlastet die Infrastruktur, vermeidet unnötige Datenbewegungen und hält die Kontrolle über vertrauliche Informationen im eigenen Haus.
Bei Bedarf lassen sich die aus Dokumenten extrahierten Inhalte auch auf Ebene des KI-Systems speichern. Dies ist eine Frage des Designs und birgt sowohl Vorteile (z.B. schnellere Wiederverwendbarkeit, transparente Herkunftsnachweise) als auch Herausforderungen (z.B. Datenredundanz oder Sensitivität des KI-internen Datenspeichers).
Besonders in hybriden IT-Landschaften – also bei einer Kombination aus Cloud- und On-Premises-Systemen – hat sich dieses „Streaming-Prinzip“ bewährt. Unternehmen können so auch komplexe Speicherarchitekturen analysieren, ohne ihre Sicherheitsarchitektur aufzuweichen. Im Unterschied zu extern gehosteten Blackbox-Lösungen, bei denen Daten zur Analyse hochgeladen werden, lassen sich auf diese Weise regulatorische Vorgaben zuverlässig einhalten und die Performance im Griff behalten. Die Verarbeitung bleibt nachvollziehbar, revisionssicher und unter der vollständigen Hoheit der Organisation.
Vom Risk-Audit zur Klassifikationsstrategie
Der Weg zu einer strukturierten Informationsklassifikation beginnt mit einer umfassenden Bestandserhebung – dem Information-Risk-Audit. In dieser Phase wird systematisch erfasst, welche Dokumenttypen in welchen Systemen vorliegen, wie alt sie sind, ob sie bereits klassifiziert wurden, wer darauf Zugriff hat und welche Entitäten sie enthalten. Die Ergebnisse liefern ein erstes Risikobild und helfen dabei, Prioritäten zu setzen – etwa bei der Frage, welche Speicherorte zuerst untersucht oder welche Inhalte als besonders kritisch bewertet werden sollten.
Auf dieser Grundlage werden anschließend Regelwerke und Klassifikationsschemata definiert. In vielen Unternehmen hat sich ein vierstufiges Modell bewährt: „öffentlich“, „intern“, „vertraulich“ und „streng vertraulich“. Diese Kategorien lassen sich mit Domänenwissen, thematischen Clustern und Entitätsprofilen verknüpfen – so entstehen semantisch präzise, maschinenlesbare Schutzbedarfsbewertungen.
Im Anschluss beginnt die KI-gestützte Klassifikation: Die zuvor definierten Regeln und trainierten Modelle werden auf den realen Datenbestand angewendet. Je nach Plattform erfolgt dies in Echtzeit oder asynchron über Batchprozesse. Die Ergebnisse sollten dabei mit einem nachvollziehbaren Analyseprotokoll hinterlegt sein – auf Wunsch können idealerweise Schwellenwerte, Plausibilitäten oder Kontextlogiken ergänzt werden.
Ein zentrales Element in dieser Phase ist die Rückkopplung mit Fachverantwortlichen: Über Dashboards lassen sich Klassifikationsergebnisse prüfen, kommentieren und bei Bedarf korrigieren. Dieser Human-in-the-Loop-Ansatz beugt Folgefehlern vor. Auch der Akzeptanz innerhalb des Unternehmens ist er zuträglich, da das KI-System von den Stakeholdern nicht mehr als Black Box wahrgenommen wird.
Prozess-Integration
Eine systematische Klassifikation bildet die Grundlage für weiterführende Sicherheitsmaßnahmen: Dokumente mit hohem Schutzbedarf können etwa automatisiert verschlüsselt, mit strengeren Zugriffsrechten versehen oder durch Data-Loss-Prevention (DLP) geschützt werden. Die automatisiert erstellten Klassifikationen lassen sich zudem mit unternehmensspezifischen Rollen und Rechtemodellen abgleichen. Gleichzeitig lässt sich der Datenlebenszyklus steuern – etwa durch Löschregeln für veraltete, aber klassifizierte Inhalte.
Diese Fähigkeit ist besonders im Kontext der Cloud-Nutzung entscheidend: Unternehmen, die Daten ohne Prüfung in externe Speicher verschieben, laufen Gefahr, schützenswerte Inhalte ungewollt offenzulegen oder aber unnötige Lizenz- und Speicherkosten zu verursachen. Ein auf Klassifikation basierender Migrationsfilter kann gezielt steuern, welche Inhalte ausgelagert, archiviert oder gelöscht werden sollen.
Auch aus regulatorischer Sicht wird Klassifikation zunehmend unverzichtbar: Die EU Datenschutz-Grundverordnung (bes. Art. 32 DSGVO) fordert eine risikoorientierte Absicherung personenbezogener Daten – ohne systematische Schutzbedarfsbewertung ist diese Anforderung kaum nachweisbar umzusetzen. Ähnliches gilt für NIS-2 und die KRITIS-Regulierung, die in bestimmten Sektoren umfassende Dokumentation und Kontrollierbarkeit der Informationsverarbeitung verlangen.
Gesetzliche Aufbewahrungspflichten – etwa im Handels-, Steuer- oder Gesundheitsrecht – sind ebenfalls wesentlich: Sie regeln präzise, welche Inhalte man wie lange vorhalten muss. Dabei variieren die Retention-Policies nach Dateityp und Branche: So kann ein medizinisches Gutachten anderen Löschfristen unterliegen als eine Rechnung oder ein Arbeitsvertrag. Eine kontextsensible Klassifikation stellt sicher, dass diese Regularien passende Berücksichtigung finden.
Steuerbare Daten – fundierte Investitionen
Der Mehrwert von Klassifikationssystemen liegt jedoch nicht allein im Sicherheitsgewinn, sondern ebenso in einer operativen Entlastung: Unternehmen, die ihre Datenlage kennen, können Investitionen in Schutzmaßnahmen gezielter steuern und ihre Speicherauslastung optimieren.
Beispielsweise ermöglicht die Unterscheidung zwischen kritischen und unkritischen Daten eine selektive Verschlüsselung. So werden hochsensible Dokumente geschützt, ohne die Systemleistung oder die Zusammenarbeit mit internen wie externen Partnern unnötig zu verkomplizieren. Gleiches gilt für DLP-Systeme: Statt umfassend alle Dateibewegungen zu blockieren, lassen sich Ausnahmen dort zulassen, wo das Risiko nachweislich gering ist.
Auch bei Cloud-Migrationen oder Systemzusammenführungen wirkt die Transparenz als operativer Beschleuniger: Veraltete oder redundante Daten lassen sich gezielt ausmustern – ein nicht zu unterschätzender Vorteil in Zeiten steigender Cloud-Lizenzkosten und komplexer IT-Landschaften. Gleichzeitig können spezielle Aufbewahrungspflichten, etwa bei steuerlich relevanten oder personenbezogenen Unterlagen, zuverlässig berücksichtigt werden, um ungewollte Löschungen zu verhindern.
Und nicht zuletzt liefern Klassifikationssysteme valide Entscheidungsgrundlagen für strategische Maßnahmen: Welche Speicherorte sind besonders risikobehaftet? Welche Abteilungen arbeiten mit vielen vertraulichen Inhalten – und sind entsprechend zu entlasten oder zu schulen? Wo bestehen Schutzlücken im Datenzugriff?
Beständige Klassifizierung
Damit Klassifikation dauerhaft wirksam bleibt, muss sie in den operativen Alltag eingebettet werden. Ein zentraler Baustein sind interaktive Dashboards, die aktuelle Klassifikationsverteilungen, Schutzbedarfsprofile, Speicherortanalysen oder Risikocluster visualisieren. Diese Informationen sind sowohl für interne Audits als auch für strategische Reports nutzbar – etwa zur Vorbereitung auf Zertifizierungen, Sicherheitsprüfungen oder Governance-Reviews.
Zudem sollten Klassifikationssysteme in der Lage sein, neue Inhalte automatisch zu bewerten – etwa beim Speichern, Hochladen oder Versenden. Nur so lässt sich angfristig sicherstellen, dass auch zukünftige Dokumente den Schutzbedarfsvorgaben entsprechen. Systeme, die diese Analyse in Echtzeit umsetzen, ermöglichen eine kontinuierliche Risikobewertung statt punktueller Einzelanalysen.
Fazit
Die Frage, wie sich der Schaden eines Cyberangriff s begrenzen lässt, ist nicht erst relevant, wenn ein Angriff erfolgreich war. Unternehmen, die vorab systematisch analysieren, welche Informationen sie speichern, welche Risiken mit diesen Informationen verbunden sind und wie Schutzmaßnahmen gezielt ausgelöst werden können, sind im Ernstfall deutlich besser vorbereitet: Sie sparen Zeit, Geld – und im Zweifel den Verlust ihres geistigen Eigentums.
Ein semantisch fundiertes Information-Risk-Audit verhindert, dass Sicherheit im Blindflug betrieben wird – und es verschiebt den Fokus von punktuellen Reaktionen hin zu einer ganzheitlichen Sicherheitsarchitektur, in der Transparenz, Governance und technische Schutzmaßnahmen sinnvoll ineinandergreifen. Darüber hinaus verwandelt diese Transparenz unstrukturierte, verteilte Daten in eine steuerbare Wissensbasis.
Klassifi kationen lassen sich nicht nur rückblickend für Audits, Compliance oder Migrationsprojekte nutzen, sondern auch dynamisch in operative Workflows einbinden – etwa zur Echtzeit-Auslösung von Zugriffskontrollen, zur automatisierten Steuerung von Verschlüsselung oder zur Durchsetzung von Löschrichtlinien. Damit wird Klassifikation vom Reporting-Werkzeug zum aktiven Steuerungsinstrument der Informationssicherheit.
Prof. Dr. Heiko Beier ist Gründer und Geschäftsführer von moresophy und Professor für Medienkommunikation mit über 25 Jahren Erfahrung in der KI-gestützten Datenanalyse und Automatisierung von Geschäftsprozessen. Seine Expertise umfasst die Entwicklung erklärbarer KI-Lösungen, die sich nahtlos in Unternehmensprozesse integrieren lassen.
Wirtschaftsfaktor „Daten-Audit“ – ein Rechenbeispiel
Neben der Cybersicherheit ist auch das Information-Risk-Audit ein Treiber für die IT-Strategie. Welche Ersparnisse konkret damit möglich sind, zeigt sich an folgendem Beispiel: Ein global tätiger Konzern betreibt Microsoft 365 für 10 000 User. Die Nutzer haben gemeinsam 600TB an Daten gespeichert – deutlich mehr als der im Lizenzumfang inkludierte Speicherplatz. Der Überhang von 500TB verursacht monatlich Zusatzkosten von rund 100.000 €. Theoretisch ergäbe das ein Einsparpotenzial von 1,2 Mio. € pro Jahr; dies zu erreichen, ist aber nicht möglich, weil etliche der Daten aufbewahrungspflichtig sind.
Eine KI-gestützte Dateninventarisierung kann aber helfen, Speicherplatz effizienter zu nutzen: Der Autor geht davon aus, dass sich eigentlich rund 50 % der geprüften Dokumente ohne Risiko löschen ließen – etwa veraltete, doppelte oder irrelevante Dateien. Alternativ könnte man als konservative Annahme 30 % ansetzen.
Aufgrund technischer Beschränkungen seitens Microsoft (z.B. Drosselung beim Dokumenten-Streaming, das sog. Throttling) lassen sich allerdings maximal 60TB pro Monat analysieren. Daraus ergibt sich ein sukzessiver Löschverlauf: Monatlich reduziert sich der belegte Speicherplatz um 30TB (bzw. 18TB im 30 %-Szenario). Das entspricht einer ansteigenden Kosteneinsparung von 6.000 € im ersten, 12.000 € im zweiten, 18.000€ im dritten Monat und so weiter, bis zu 60.000€ im zehnten Monat.
Kumuliert summieren sich diese Einsparungen im ersten Jahr auf etwa 330.000 € in den ersten zehn Monaten – ist von da an anzunehmen, dass keine nennenswerten neuen Datenmengen hinzukommen, verbleiben die Minderkosten auf dem Niveau von 60.000 € pro Monat. Insgesamt ergibt sich damit eine Einsparung von rund 450.000 € im ersten Jahr; in den Folgejahren belaufen sich die jährlichen Spareffekte dann auf jeweils 720.000 €. Im konservativeren Szenario mit 30 % Löschpotenzial erzielt man Einspareffekte von 270.000 € im ersten Jahr und danach von 432.000 € jährlich.
Diesen Einsparungen stehen Investitionskosten von rund 150.000 € für die Implementierung und Einrichtung sowie laufende monatliche Kosten von etwa 15.000 € für Software und Infrastruktur gegenüber – also insgesamt 180.000 € pro Jahr.
Somit ist bereits im ersten Jahr bei 50 % Löschpotenzial ein positiver Return on Investment (ROI) zu erwarten, da die Einsparungen von 450.000 € den Investitionsaufwand von circa 330.000 € deutlich übersteigen. In den Folgejahren verbessert sich die Bilanz noch weiter – von zusätzlichen Vorteilen einer semantischen Inventarisierung im Sicherheitskontext einmal ganz abgesehen.
Hinweis: Das dargestellte Beispiel basiert auf idealisierten Rahmenbedingungen und positiven Annahmen (u. a. stabile Datenlage, keine Neuzugänge, maximale Löschquote). In realen Szenarien variieren die Ergebnisse naturgemäß abhängig von IT-Architektur, regulatorischen Anforderungen und dem Reifegrad der vorliegenden Datenstrategie.