Data-Leakage-Tracking durch digitale Wasserzeichen
Datenlecks sind ein bekanntes und immer noch herausforderndes Problem für Unternehmen und staatliche Organisationen. Entgegengewirkt wird solchen Lecks beispielsweise durch Document-Rights-Management-Lösungen, die Dokumente an Systeme und Identitäten binden. Der Beitrag stellt ein alternatives Lösungskonzept mittels digitaler Wasserzeichen vor, um im Fall des Falles Data-Leakage nachvollziehen und aufklären zu können.
Viele Studien zum Thema Data-Leakage haben gezeigt: Die Bedrohung besteht durch externe Aggressoren (Cyberkriminelle, andere Nationalstaaten), durch böswillige Geschäftspartner und Innentäter sowie durch versehentliche Unachtsamkeit der Mitarbeiterinnen gleichermaßen [1]. Das betrifft den Datenverlust von Arbeitsplatz-PCs und -Laptops, physischen oder virtuellen Servern, Netzwerkkomponenten, Mobilgeräten und externen Datenträgern. Zudem bleiben viele Datenlecks wochenlang oder gar jahrelang unentdeckt, bevor sie aufgeklärt und erfolgreich geschlossen werden [2].
Unternehmen und Institutionen stemmen sich gegen den unkontrollierten Abfluss vertraulicher Daten mithilfe zahlreicher technischer und organisatorischer Maßnahmen. So nutzen sie beispielsweise Data-Leakage-Prevention-(DLP)-Systeme, die vorhandene Assets bezüglich ihrer Vertraulichkeit klassifizieren (z. B. intern, geheim, public) sowie die Einhaltung der Zugriffsrichtlinien für diese Assets überwachen und durchsetzen („Wer darf was?“).
Technische DLP-Komponenten können dabei auf den Endgeräten (Endpoint-DLP) und im Unternehmensnetzwerk (Network-DLP) platziert werden. DLP-Systeme bieten häufig auch eine Verhaltenserkennung von verdächtigem Nutzerverhalten (User and Entity Behavior Analytics, UEBA) und nutzen Machine-Learning, um Innentäter und sorglose Mitarbeiter schneller zu erkennen, die bewusst oder unbewusst ein Sicherheitsrisiko für die eigene Organisation darstellen können.
Rights-Management
Eine DLP-unterstützende Methode ist das Rights-Management zum Kopierschutz und der Nutzungskontrolle. Es wird realisiert, indem zu schützende Daten innerhalb eines proprietären Dateicontainers in verschlüsselter Form abgelegt und eventuell bewegt werden. Sie können nur über kompatible Softwarekomponenten auf dem Endgerät temporär entschlüsselt und somit nutzbar gemacht werden. Diese überprüfen die Nutzungsrechte anhand einer lokalen oder zentralen Zugriffsrichtlinie und schalten bei positivem Prüfungsergebnis die Entschlüsselung temporär frei.
Selbst wenn der Dateicontainer die geschützte Umgebung der Organisation verlässt, sind die darin gespeicherten Informationen für einen Angreifer aufgrund der Verschlüsselung wertlos. Rights-Management ist daher eine geeignete DLP-Funktionalität im Zusammenspiel mit Endpoint-DLP-Lösungen. Dieser technische Ansatz ist unter der Bezeichnung Enterprise-Rights-Management (ERM) – mit Schwerpunkt auf Unternehmensdaten – und als Digital-Rights-Management (DRM) – in der Unterhaltungsbranche für Spielfilme und Musik – bekannt.
Digitale Wasserzeichen
Ein alternativer Ansatz dazu sind digitale Wasserzeichen (Digital Watermarking); ein Standardverfahren, mit dem sich Multimediainhalte markieren lassen, indem innerhalb eines Mediums eine Nachricht versteckt wird. Wasserzeichen-Systeme sind für viele gängige Medientypen bekannt. Die Verfahren darf man jedoch nicht verwechseln mit dem Einblenden von sichtbaren Logos oder Markierungen, wie sie etwa Druckertreiber beim Ausdrucken ermöglichen.
Wird ein digitales Wasserzeichen in eine Datei eingebettet, werden an den Bild-, Video- oder Audiodaten oder auch dem Textinhalt Veränderungen im Original-Medium vorgenommen. Diese Modifikationen repräsentieren die eingebettete Wasserzeichen-Nachricht, meistens als kurze Bitsequenz. Sie sind so gestaltet, dass sie für einen Menschen nicht wahrnehmbar sind, für einen Computer aber erkennbare statistische Auffälligkeiten darstellen.
Die eingebettete Wasserzeichen-Nachricht enthält meistens wichtige Metadaten über das markierte Medium:
– Beim sogenannten Quellen-Wasserzeichen enthält die Nachricht Informationen über den Ursprung des Mediums, zum Beispiel über den Ersteller, Urheber, Absender oder das Unternehmen.
– Beim Transaktions-Wasserzeichen bettet man in unterschiedliche Kopien desselben Originalmediums individuell verschiedene Nachrichten ein. Diese repräsentieren zum Beispiel eine Benutzerkennung des Empfängers oder eine fortlaufende Transaktions-ID. (siehe Abb.1). Nach der Markierung sind die Datei-Kopien nur noch für den menschlichen Betrachter identisch – rein binär unterscheiden sie sich.
Zu jedem Wasserzeichen-System gehört ein Auslesealgorithmus, der „Wasserzeichen-Detektor“. Dieser kann die eingebettete Markierung zu einem späteren Zeitpunkt auslesen und damit helfen, einen Leakage-Vorfall aufzuklären. Üblicherweise benötigt der Detektor keinen Zugriff auf die Originaldatei, er kann allein aus der markierten Kopie das Wasserzeichen ableiten. Man spricht hier von blinden Wasserzeichen.

Eigenschaften
Heutige am Markt verfügbare Wasserzeichen-Verfahren haben meistens die folgenden Eigenschaften, die Unternehmen bei der Beschaffung einer geeigneten Lösung beachten sollten:
- Transparenz: Die Wasserzeichen-Nachrichten stecken unwahrnehmbar in den sichtbaren beziehungsweisen hörbaren Nutzdaten. Markierte und unmarkierte Medien sind vom Menschen in der Regel nicht unterscheidbar.
- Robustheit: Die Markierungen sind bei vielen Verfahren robust gegenüber den meisten digitalen Nachverarbeitungsschritten; bei Bild-Wasserzeichen beispielsweise gegenüber Skalierung, Beschneiden oder JPG-Kompression in gewissen Maßen.
- Einbettungsstärke: Bei vielen Algorithmen kann man regeln, wie stark die Veränderungen im Medium sein dürfen.
- Einbettungsstärke: Kurze Wasserzeichen-Nachrichten von einigen Dutzend Bit können zumeist eingebettet werden.
- Sicherheit: Gängige Wasserzeichen-Lösungen schützen den Zugriff auf die eingebettete Nachricht sowie deren Vertraulichkeit durch einen geheimen „Wasserzeichen-Schlüssel“. Ohne Kenntnis des Schlüssels sind markierte und unmarkierte Medien (bei vielen Verfahren) technisch nicht unterscheidbar.
Diese Parameter beeinflussen sich teilweise gegenseitig: Je größer beispielsweise die Einbettungsstärke gewählt wird, desto robuster ist die Nachricht eingebettet. Je nachdem können sie sogar analoge Übertragung überleben, zum Beispiel das Abfotografieren, Abfilmen oder eine Mikrofonaufnahme. Die Robustheit kann man auch zulasten der Einbettungskapazität optimieren, indem intern eine stärkere Redundanz bei der Einbettung durchgeführt wird.

Anwendungsfall: Wasserzeichen für E-Mails
Als Anwendungsfall für digitale Wasserzeichen betrachten wir nun folgendes Szenario: Ein Projektmitarbeiter verschickt eine E-Mail mit vertraulichen Informationen als PDF im Dateianhang. Empfänger sind einige Kollegen im Haus und auch Mitarbeiter bei mehreren externen Projektpartnern. Einer der Empfänger gibt dieses PDF unerlaubt weiter und es taucht später im Internet auf oder wird bei Strafermittlungen sichergestellt.
Wie kann man nun zurückverfolgen, welcher der E-Mail-Empfänger als Verursacher infrage kommt? Genau hierfür sind digitale Wasserzeichen einsetzbar: Beim Verschicken einer E-Mail lassen sich die Dateianhänge mit einem digitalen Transaktions-Wasserzeichen unsichtbar markieren.
Um das zu erreichen, können Access-Control-Richtlinien um eine Wasserzeichenfunktion erweitert werden – eine Forschungsgruppe des Fraunhofer SIT hat das prototypisch in der Policysprache „eXtensible Access Control Markup Language (XACML)“ realisiert [3, 4]. Eine simple Regel könnte zum Beispiel festlegen, dass alle Dateianhänge verpflichtend markiert werden sollen (als sogenannte Obligation). In XACML kann man aber auch komplexere Richtlinien regelrecht „programmieren“. Denkbar ist, dass diese Obligation nur unter der Bedingung (Condition) gilt,
- dass die Objektattribute die fraglichen Dateien als besonders schützenswert kennzeichnen (z. B. als vertraulich oder geheim).
- dass die E-Mail-Adresse des Empfängers zu einer externen Domain gehört, dass wir also nur E-Mails an externe Personen schützen und per se den eigenen Kollegen vertrauen (siehe Abb. 3).

Integration in ein XACML-Framework
Das Konzept wurde nun prototypisch in ein XACML-Framework implementiert
(siehe Abb. 4):

- Absenden: Der Absender möchte eine E-Mail an zwei Empfänger versenden; an eine Kollegin und an einen externen Kontakt. Er benutzt dabei sein übliches E-Mail-Programm und bemerkt nichts von den folgenden Schritten.
- Policy-Enforcement: Der eigene Mailserver nimmt die E-Mails entgegen und wirkt als Policy-Enforcement-Point (PEP) und setzt die Richtlinie durch.
- Policy-Decision: Der Mailserver löst hierzu, bevor die E-Mails weiter zugestellt werden, die Prüfung der Conditions auf einem DLP-Server aus. Dieser entscheidet als Policy-Decision-Point (PDP) über den Einsatz eines Wasserzeichens.
- Wasserzeichen-Markierung: Jeder Dateianhang oder Bodytext, der gemäß der Richtlinie markiert werden soll, wird an einen separaten Wasserzeichen-Server übertragen und dort markiert. Bei jedem Markiervorgang wird eine neue Transaktions-ID vergeben und als Wasserzeichen-Nachricht eingebettet. Die Metadaten zu jeder Transaktion (z. B. User ID des Absenders, Empfänger-Adresse, Datum und Uhrzeit, ggf. Dateihashes, Signaturen, IP-Adressen) werden in einer Transaktions-Datenbank gespeichert.
- Markierte Daten beziehungsweise Dateien ruft der Mailserver vom Wasserzeichen-Server ab und kompiliert sie zu neuen, vollständigen E-Mails. Erst dann stellt er sie zu.
Falls mit einem Wasserzeichen markierte Daten zu einem beliebigen Zeitpunkt im Zusammenhang mit einer unerlaubten Weitergabe aufgefunden werden, lassen sich nun über die eingebettete Transaktions-ID die ursprünglichen Empfänger identifizieren.
Besonderheiten
Allerdings sollten Institutionen einige Besonderheiten beachten, wenn sie DLP-Watermarking einsetzen.
Begrenzte Einbettungskapazität
So betragen typische Nachrichtenlängen nur einige Dutzend Bits, was meistens nicht ausreichend ist, um die vollständigen Metadaten des Vorgangs einzubetten. Stattdessen dient die eingebettete Transaktions-ID als Datenbankindex für den jeweiligen Vorgang. In vielen Szenarien ist das jedoch mehr als ausreichend: beispielsweise reichen bereits 32-Bits aus, um mehr als vier Milliarden Transaktionen einer Datei zu indizieren. Die Indizierung ist gleichzeitig eine Maßnahme zum Datenschutz der betroffenen Kommunikationspartner, denn falls der geheime Wasserzeichenschlüssel kompromittiert werden sollte, könnten Dritte aus den Wasserzeichen der geleakten Dateikopien keine direkten Rückschlüsse auf die beteiligten Personen ziehen.
Begrenzte Markierbarkeit
Eigene Tests haben gezeigt, dass ein kleiner Prozentsatz an Mediendateien für robuste Wasserzeichenmarkierung ungeeignet ist. Beispiele sind sehr kleine Bilder (in Pixel gemessen). Die DLP-Richtlinie muss dem Rechnung tragen – daher sollte in der Policy per Attribut unterschieden werden können, ob der Markierungsvorgang im engeren Sinne „obligatorisch“ ist oder ob im Einzelfall toleriert werden kann, dass ein Medium optional auch unmarkiert bleibt.
Konformität mit anderen Schutzverfahren
Wasserzeichenmarkierungen verändern aktiv das Datenmaterial. Die Veränderungen finden innerhalb der sichtbaren/hörbaren „Nutzdaten“ statt und nicht im Speicherplatz für Metadaten, die das jeweilige Dateiformat möglicherweise bietet. Problematisch kann das werden, wenn aufgrund anderer Schutzverfahren keine nachträglichen Änderungen an den Daten möglich oder zulässig sind. Das beschriebene Schutzkonzept ist daher nicht konform mit clientseitiger Ende-zu-Ende-Verschlüsselung, Signaturverfahren zur Echtheitsprüfung oder Datenklassifizierung in DLP-Systemen per Kryptohashes.
Mehrfachmarkierung
Wasserzeichenalgorithmen sind sehr unterschiedlich geeignet, mehrfache Markierungen im gleichen Medium nacheinander auszuführen. Das ist etwa dann relevant, wenn Arbeitskopien während ihrer Bearbeitung durch viele Hände gehen, bevor das Dokument finalisiert wird. Je nach Design würde bei jeder Weitergabe, zum Beispiel per E-Mail, ein weiteres Transaktions-Wasserzeichen eingebettet. Bei manchen Algorithmen führen mehrfache Markierungen prinzipiell zu einem Transparenzverlust: Die Markierung einer Bilddatei oder eines Bildes in einem PDF-Dokument würde beispielsweise für das bloße Auge sichtbar. Manche Verfahren haben auch eine Art „Einweg-Eigenschaft“, sodass die erste und eventuell anschließende Markierungen sich gegenseitig „stören“ und schließlich keine der Nachrichten ausgelesen werden können.
Symmetrischer Schlüssel
Letztlich nutzen Wasserzeichenlösungen in der Regel ein symmetrisches Vorgehensmodell bezüglich des Schlüssels. Die geheimen Schlüssel müssen also durch geeignete Maßnahmen vor unerlaubter Kompromittierung geschützt werden. Asymmetrische Wasserzeichen sind weiterhin Forschungsgegenstand, aber nicht als kommerzielle Lösungen verfügbar.
Fazit und Ausblick
Insgesamt verhindert ein eingebettetes Transaktions-Wasserzeichen zwar nicht aktiv die unerlaubte Weitergabe von vertraulichen Dateien. Es wirkt vielmehr wie das Autokennzeichen bei einem Pkw, das eine Nachverfolgung erlaubt. So können Unternehmen ihre Mitarbeiter zu verantwortungsvollem Umgang mit den ihnen anvertrauten Daten anhalten und Innentäter oder externe Partner werden vor unerlaubtem Datenabfluss abgeschreckt. Hierzu müssen Unternehmen alle Beteiligten vorab über den Einsatz von Wasserzeichen informieren.
Vergleicht man E-Mail-Verschlüsselung, DLP und DRM miteinander, so lässt sich feststellen, dass eine E-Mail-Verschlüsselung wirksam die Vertraulichkeit des Mailtextes und der Dateianhänge während der E-Mail-Zustellung und der Speicherung auf Mailservern und ihrer Kopien auf Client-Rechnern schützt. Allerdings sind die E-Mails nach der Entschlüsselung ungeschützt. Die unerlaubte Weitergabe der Dateien kann somit technisch nicht kontrolliert werden – das gilt vor allem für E-Mails an externe Empfänger.
Das Gleiche gilt auch für eingesetzte DLP-Systeme oder DRM: Eine Weitergabe von Daten, die – legitimerweise – per E-Mail zirkulieren, können diese Lösungen außerhalb der eigenen Organisation nicht beeinflussen oder nachvollziehbar machen.
Digitale Wasserzeichen bieten einen zusätzlichen Schutz bei der Aufklärung von Datenlecks und der Abschreckung vor künftigen Vorfällen dieser Art. Ein eingebettetes Transaktions-Wasserzeichen kann als „psychologischer Kopierschutz“ wirken; auch außerhalb der eigenen Organisation und prinzipiell auch für analoge Kopien. Verfahren dieser Art sind bereits in der Film- und Musikbranche im Einsatz und schützen Previews und Promo-Kopien. Im Unternehmensumfeld lässt sich das Konzept beispielsweise im Kontext von Access-Control-Richtlinien zum Schutz von E-Mails anwenden. Auch die technische Parametrisierung von Wasserzeichen-Algorithmen kann regelrecht „programmiert“ werden, zum Beispiel für die Steuerung der Einbettungsstärke oder die Wahl des geheimen Schlüssels.
In Policy-Beschreibungssprachen wie XACML kann man auch DLP-Profile für weitere Exfiltrationswege festlegen, etwa für Data-Leakage aus Fileservern, Cloudspeichern oder mobilen Datenträgern.
Literatur
[1] InfoWatch Analytics Center, A Study on Global Data Leaks in 2018, April 2019, https://infowatch.com/report2018
[2] Verizon Communications Inc., The 2019 Data Breach Investigations Report, Mai 2019, https://enterprise.verizon.com/resources/reports/2019-data-breach-investigations-report-emea.pdf
[3] Erik Rissanen (Editor), XACML v3.0 Core and Hierarchical Role Based Access Control (RBAC) Profile Version 1.0 – Specification 02, OASIS Consortium, XACML Technical Committee, Oktober 2014, http://docs.oasis-open.org/xacml/3.0/rbac/v1.0/xacml-3.0-rbac-v1.0.html
[4] John Tolbert, Richard Hill, Crystal Hayes, David Brossard, Hal Lockhart und Steven Legg, XACML Data Loss Prevention / Network Access Control (DLP/NAC) Profile Version 1.0 – Committee Specification 01, XACML Technical Committee, OASIS Consortium, Februar 2015, http://docs.oasis-open.org/xacml/xacml-3.0-dlp-nac/v1.0/cs01/xacml-3.0-dlp-nac-v1.0-cs01.pdf
[5] Shabtai, Asaf, Yuval Elovici und Lior Rokach, A Taxonomy of Data Leakage Prevention Solutions, In: A Survey of Data Leakage Detection and Prevention Solutions, SpringerBriefs in Computer Science, S. 11 ff., 2012, Springer US
Dr. Sascha Zmudzinski ist im Fraunhofer Institut für sichere Informationstechnologie SIT zuständig für die Themen Multimedia‑Forensik und Data-Leakage-Prevention. E-Mail: sascha.zmudzinski@sit.fraunhofer.de
Prof. Dr. Martin Steinebach leitet am Fraunhofer SIT die Abteilung „Media Security and IT Forensics“. Er ist Honorarprofessor der TU Darmstadt in Multimedia-Sicherheit und leitet zahlreiche Projekte zu IT-Forensik, Big-Data-Sicherheit und maschinellem Lernen für Industrie und die öffentliche Hand. E-Mail: martin.steinebach@sit.fraunhofer.de