Mit <kes>+ lesen

Prüfung und Audit : Zwischen Turing-Test und Heisenberg-Effekt : Über Schwierigkeiten und Lösungsansätze zur Bewertung und Prüfung von Systemen künstlicher Intelligenz (KI) – und warum diese unumgänglich sind

Die Forderung nach Monitoring-, Bewertungs- und Prüfverfahren für KI-Systeme ist zwar nicht neu, aber auch nicht leicht erfüllbar. Der vorliegende Beitrag skizziert Testansätze zur Prüfung von KI-Systemen bei sicherheitskritischen Entscheidungen und diskutiert Empfehlungen für KI-Hersteller und -Aufsicht. Im Fokus steht ein KI-Prüfungs-Framework, das verschiedene traditionelle Elemente zusammenführt und erweitert. Verschiedene aktuelle Entwicklungen könnten dabei als möglicher Katalysator eines Paradigmenwechsels in der Prüfung von KI-Systemen fungieren.

11.06.2026 Aleksandra SowaAnwendungen und Systeme, Künstliche Intelligenz, Management und Wissen, Security-Management

Lesezeit 18 Min.

„Die Academy of Motion Picture Arts and Sciences hat neue Regeln für den Einsatz von künstlicher Intelligenz in Filmen beschlossen“, berichtete etwa Die Zeit [1] anlässlich der diesjährigen Oscar-Vergabe. Diese Regeln sind schnell erklärt: Künftig gibt es keine Oscars für KI-generierte Schauspieler* sowie Drehbücher. Darunter, was KI-generierte Inhalte sind, kann sich zwar inzwischen fast jeder etwas vorstellen. Doch wie lässt sich verlässlich nachweisen beziehungsweise prüfen, ob Mensch oder Maschine ein Werk – etwa Text, Bild oder Film – geschaffen haben? Diese Problematik zeigt sich gleichermaßen bei unterhaltsamen Inhalten wie anderen KI-Anwendungen.

Zu belegen, dass bei etwas überhaupt keine KI im Spiel war, macht es noch schwieriger. Und wo zieht man dabei die Grenze zwischen „statthafter Toolnutzung“ und „unbotmäßigem KI-Einsatz“? Menschen seien technische Wesen durch und durch, sagte etwa der Futurologe Stanislaw Lem: Sie würden ohne Werkzeuge – wenigstens Pfeil und Bogen – nicht überleben. Hinzu kommt, dass Verfahren zur eindeutigen Erkennung KI-generierter Inhalte derzeit nicht belastbar sind – stattdessen wird über eine Kennzeichnungspflicht für KI-generierte Inhalte diskutiert.

Mensch oder Maschine?

Schon Kriterien, die menschliche von maschinell erzeugten Inhalten unterscheiden, sind nicht leicht definierbar – eine Erkenntnis, die sich beispielsweise im interdisziplinären Forschungsprojekt DORIAN unter Leitung des Fraunhofer-Institut für Sichere Informationstechnologie SIT gezeigt hat (https://dorian-projekt.sit.fraunhofer. de/). Ziel des 2017–2019 durchgeführten Projekts war es, Desinformation (aka Fake News) zuverlässig und schnell erkennen zu können sowie Ansätze zur wirksamen Bekämpfung zu konzipieren und zu evaluieren. DORIAN entwickelte hierzu einen Katalog technischer, politischnormativer, soziokultureller und organisatorischer Ansätze zur Bekämpfung von Desinformation im Internet – als Orientierung für Bürger, Medien, Politik und Wissenschaft.

Ein zentraler Befund des Projekts lautete jedoch: Eine rein automatische Erkennung von Fake News ist äußerst schwierig – Desinformation lasse sich nicht „weg-algorithmisieren“. Es existieren schlichtweg keine einfachen, rein technischen Kriterien, um sie zuverlässig zu identifizieren. Fake News sind häufig nicht „schlechter geschrieben“ (im Hinblick auf Grammatik, Rechtsschreibung oder Stil) als beispielsweise Nachrichten oder Artikel der Boulevardpresse. Hinzu kommt, dass viele Beiträge Mischformen darstellen: Sie enthalten zugleich wahre, verzerrte und frei erfundene Elemente – das macht ihre Einordnung zusätzlich komplex.

Diese Erkenntnisse treffen sowohl auf PhishingE‑Mails als auch auf KI-generierte Inhalte zu. Was also bei der Academy zunächst wie eine klare Regel klingt, entpuppt sich bei näherem Hinsehen als äußerst ambitioniert. In Sachen Oscars setzt man offenbar vor allem auf Hinweise aus den Filmteams und auf ehrliche Selbstauskünfte: „Um sicherzustellen, dass Einreichungen von Menschen erschaffen wurden, kann die Akademie in Zukunft zusätzliche Informationen erfragen.“ Dies könnte sich jedoch als unzureichend erweisen, um die Regel effektiv durchzusetzen. Transparenz ist lediglich eine Voraussetzung für Prüfbarkeit: Einen belastbaren Nachweis dafür zu erbringen, dass Schauspieler oder Drehbücher KI-generiert sind, dürfte sich beim derzeitigen Stand der Entwicklung von Fachverfahren, Standards sowie Bewertungs- und Prüfmethoden als schwierig erweisen.

KI-Prüfung – mehr als IT-Audits

Wer ein KI-Modell auf den Markt bringt, musste bislang nicht einmal erklären können, wie dieses Modell tatsächlich funktioniert. Hersteller oder Anbieter eines KI-Systems mussten die von dem System generierten Outputs nicht in eine „Abfolge von Schritten, die so miteinander verbunden sind, dass ein menschliches Wesen sie in eine sinnvolle Kausalbeziehung bringen kann“, einordnen können, bemängelte Christophe Denis auf dem Workshop „Explain AI“ im Januar 2022 ([2], siehe auch [3]). Oft, so die Kritik, verstehen selbst die besten Wissenschaftler nicht, was in der „Blackbox der Algorithmen“ vor sich geht – teilweise noch Jahre nach der Markteinführung.

Das MIT Media Lab prägte hierfür die Metapher der „AI Alchemy“ für die (Un-)Möglichkeit der Prüfung und Bewertung von KI-Modellen, bei denen Aspekte wie Zuverlässigkeit, Transparenz und Erklärbarkeit zunehmend an Bedeutung gewinnen (vgl. http://aialchemy.media.mit.edu). Wie es der KI-Forscher Steven Adler sinngemäß ausdrückte, seien KI-Systeme „fremde Intelligenzen“, die Entscheidungen grundlegend anders träfen als Menschen: Mitunter führen Szenarien, die aus menschlicher Sicht nahezu identisch erscheinen, bei KI-Systemen zu vollkommen unterschiedlichem Verhalten [4]. Auch die Art und Weise, wie KI-Systeme Fehler machen, unterscheide sich gravierend von menschlichen Irrtümern – und sei bislang weder zuverlässig antizipierbar noch vollständig erklärbar, beobachtete der IT-Sicherheitsforscher Bruce Schneier [5].

Die vergangenen Jahre haben bereits gezeigt, dass ein unreflektierter Einsatz von KI-Systemen zu problematischen Ergebnissen führen kann – etwa durch diskriminierende Entscheidungen, mangelnde Nachvollziehbarkeit oder fehlende Widerspruchsmöglichkeiten für Betroffene. Auch der mögliche Selbsterhaltungstrieb von Systemen sowie Fragen der Sicherheit beziehungsweise des Schutzes menschlicher Nutzer haben längst den Bereich der Science-Fiction verlassen und wurden Gegenstand ernst zu nehmender Tests. Wie aber soll man – eventuell auch der Gesetzgeber, zumal in sensiblen Bereichen wie dem Gesundheits- oder Bildungswesen – Maßstäbe für die Beurteilung von Systemen festlegen, von denen niemand genau zu wissen scheint, wie sie funktionieren?

Mit diesen Fragen haben sich Bernhard Waltl und Nikolas Becker aus dem Forschungsprojekt „ExamAI – KI Testing & Auditing“ der Gesellschaft für Informatik (GI) befasst. Das interdisziplinäre Projekt widmete sich der Erforschung geeigneter Test- und Auditierungsverfahren für KI-Anwendungen. In ihrem Beitrag „KI-Audit in der Arbeitswelt – Ein integratives Framework zum Auditieren und Testen von KI-Systemen“ untersuchten sie die zunehmenden Risiken und Herausforderungen beim Einsatz von KI-Systemen, besonders im Bereich des Personal- und Talentmanagements [6].

Ihre Schlussfolgerung: Etablierte Ansätze, etwa klassische IT-Audits, stoßen bei der Prüfung von KI-Systemen an strukturelle Grenzen. Der Grund liegt in den Eigenschaften der KI-Systeme selbst: Diese sind nicht nur hochkomplex, sondern weisen zugleich Merkmale auf, die klassischen Prüfmodellen teilweise zuwiderlaufen. Allem voran werden klassische IT-Prüfungen und -Tests durch folgende Eigenschaften von KI-Systemen erschwert oder teilweise unwirksam:

Nicht-Determinismus: Bei gleicher Eingabe ist nicht zwingend dieselbe Ausgabe zu erwarten.
Intransparenz: Black-Box-Charakter, begrenzte Nachvollziehbarkeit und eingeschränkte Möglichkeiten des Reverse Engineerings
Datenabhängigkeit: Das Verhalten einer KI wird maßgeblich durch Trainingsdaten geprägt und ist dadurch beeinflussbar beziehungsweise manipulierbar.
Dynamik im Betrieb: Drift, kontinuierliches Lernen, Kontextsensitivität et cetera

Überwachung auf Lebenszeit

Vor diesem Hintergrund schlagen Waltl und Becker einen Perspektivwechsel vor: Prüfung dürfe sich nicht länger primär auf die Ergebnisse von KI-Systemen konzentrieren, sondern müsse den gesamten Lebenszyklus von KI-Systemen adressieren.

Die stark technisch dominierte KI-Forschung hat unter anderem zu einer unzureichenden wissenschaftlichen Befassung mit den Anforderungen an KI-Systeme geführt. Forschung und Entwicklung konzentrierten sich lange Zeit primär auf Leistungsfähigkeit und Performance, während Anforderungen an Trustworthy AI vergleichsweise wenig Beachtung fanden. Erste Konzepte und Anforderungskataloge – etwa die sieben Kernanforderungen der High-Level Expert Group on AI (HLEG AI, [7]) – bleiben in der Praxis häufig abstrakt. Es fehlte – und fehlt teilweise weiterhin – nicht zuletzt an Forschung dazu, wie sich solche Anforderungen praktisch umsetzen, überprüfen und dauerhaft sicherstellen lassen.

An dieser Stelle setzen Waltl und Becker an und schlagen ein Framework zur ganzheitlichen Betrachtung von KI-Systemen als sozio-technische Systeme vor. Dieses umfasst unter anderem Einsatzszenarien und Anwendungsfälle, den Lebenszyklus softwareintensiver KI-Systeme, Entscheidungsstrukturen sowie automatisierte Entscheidungsprozesse (ADM). Auf dieser Grundlage sollen etablierte Qualitätssicherungsmethoden aus dem System- und Softwareengineering – besonders Audits und Testverfahren – auf KI-Systeme übertragen und weiterentwickelt werden.

Die zentralen Prüfungsdimensionen des Frameworks lassen sich in vier Gruppen unterteilen:

Datenzentrierte Prüfung mit dem Fokus auf Qualität und Eignung der Trainings- und Testdaten

Der Kerngedanke lautet hierbei: Fehlerhafte oder verzerrte Daten führen systematisch zu fehlerhaften Modellen („garbage in, garbage out“). Die Prüfung zielt allem voran auf folgende Kategorien und Prüfthemen ab:

Datenherkunft (Provenance, Nachvollziehbarkeit)
Datenqualität (Vollständigkeit, Konsistenz, Repräsentativität)
Bias-Analysen (systematische Verzerrungen)
Daten-Governance (Zugriff, Versionierung, Änderungsprozesse)

Modellbezogene Prüfung mit dem Fokus auf die Analyse der Eigenschaften des trainierten Modells

Da selbst die besten Forscher und Mitarbeiter von KI-Anbietern häufig nicht erklären können, wie die „Blackbox-Algorithmen“ arbeiten, ist das Ziel hierbei keine vollständige Transparenz, sondern eine hinreichende Prüfbarkeit kritischer Entscheidungen.

Folgende Themen können im Rahmen von Teilprüfungen und/oder Tests abgedeckt werden:
Robustheit gegenüber Störungen und Adversarial Inputs
Generalisierungsfähigkeit (Overfitting vs. Transferleistung)
Stabilität bei kleinen Eingabevariationen
Erklärbarkeit (z.B. Feature-Attribution, Surrogatmodelle)

Prozessorientierte Prüfung (KI-Lebenszyklus-Ansatz) mit dem Ziel der Bewertung von Entwicklungs- und Betriebsprozessen

Die Prüfung verschiebt sich hierbei von punktuellen beziehungsweise Ad-hoc-Kontrollen hin zu kontinuierlicher Überwachung und Monitoring. Im Fokus stehen:

Trainingsprozesse (Dokumentation, Reproduzierbarkeit)
Validierung und Testing (z.B. Benchmarking, Szenariotests)
Deployment-Prozesse (Freigaben – auch sicherheitstechnische und datenschutzrechtliche Freigaben –, Rollbacks, Versionskontrolle)
Monitoring im Betrieb (Drift-Detection, Incident-Handling)

System- und Kontextprüfung

Diese Prüfung legt den Fokus darauf, dass nicht nur das Modell selbst, sondern vor allem sein Einsatzkontext entscheidend ist – beispielsweise, ob es in sensiblen Bereichen wie dem Gesundheits- oder Bildungswesen eingesetzt wird.

Im Mittelpunkt dieses Teils des Frameworks stehen:

Schnittstellen zu anderen Systemen
Wechselwirkungen mit menschlichen Entscheidungen
Risikoanalysen auf Anwendungsebene (Use-Casebezogen)

Einordnung des Prüf-Frameworks

Gerade im Hinblick auf die Vielzahl regulatorischer Anforderungen, die speziell auf bestimmte Branchen oder Sektoren gerichtet sind (neben der KI-Regulierung selbst bes. Datenschutz-, Zertifizierungs- und Sicherheitsanforderungen), erscheint dies als ein Ansatz, der die gezielte Berücksichtigung spezialisierter Regulatorik ermöglichen könnte.

Weiterer Handlungsbedarf besteht in weiten Teilen bis heute bei der Praxistauglichkeit und Weiterentwicklung von KI-Audits, der Harmonisierung regulatorischer Initiativen, dem internationalen Austausch sowie bei Aus- und Weiterbildungsangeboten und der Forschung.

KI-Prüfung – ob zum Zwecke der Zertifizierung oder als Instrument der Aufsicht – sollte, so die Erkenntnis von Becker und Waltl, nicht lediglich als Erweiterung klassischer IT-Audits konzipiert werden. Die beiden Forscher empfehlen vielmehr einen integrierten Ansatz aus IT-Prüfung, Data-Governance, Modellvalidierung und einer hinreichenden Berücksichtigung von Aspekten des Risikomanagements. Dabei heben sie die Rolle des KI-Audits als Instrument zur Analyse und Bewertung komplexer KI-Systeme besonder hervor: Sicherheit und Qualität gehen hierbei häufig Hand in Hand. Im Framework werden klassische Auditprinzipien mit den spezifischen Eigenschaften datengetriebener und lernender Systeme verbunden.

Mehrere aktuelle Entwicklungen machen den Framework-Ansatz von Becker und Waltl aus dem Jahr 2021 heute wieder besonders interessant: So formulierte Adler zuletzt im Juni 2025 nach einer Reihe von Tests zum möglichen Selbsterhaltungstrieb von KI-Systemen [4] Forderungen nach einer stärkeren kontinuierlichen Überwachung sowie einem erweiterten Monitoring.

Selbsterhaltungstrieb von KI

„Sollten private Unternehmen allein darüber entscheiden, welche Ziele eine KI verfolgt?“, fragten Chaix Lehuger und Sapey-Triomphe [3] und kritisierten, dass Politik, Regulierer – und folglich auch die Aufsicht – bislang primär darauf ausgerichtet seien, „allzu spektakuläre Auswüchse zu regulieren und Inhalte zu zensieren“.

Nach einer Reihe selbst entwickelter Tests und Analysen von ChatGPT 4o stellte der KI-Forscher und ehemalige OpenAI-Mitarbeiter Steven Adler konkrete Lösungsansätze für Hersteller und Anbieter von KI-Systemen sowie für Regulierung und Aufsicht vor. Diese sollten es ermöglichen, die Ziele, die KI-Systeme verfolgen, stärker im Sinne menschlicher Nutzer zu priorisieren – oder zumindest überhaupt erst kontrollierbar zu machen, welche Ziele ein KI-Modell tatsächlich verfolgt.

Die Durchführung strenger Tests an KI-Systemen ist bislang nämlich nicht gesetzlich vorgeschrieben. Angesichts der Tatsache, dass die Leistungsfähigkeit moderner KI-Systeme schneller wächst als die Entwicklung geeigneter Prüf-, Sicherheits- und Kontrollmechanismen, sollte nach Auffassung Adlers auch die Strenge von Tests und Prüfverfahren zunehmen. Zudem könnte sich schneller als erwartet ein Zustand einfinden, in dem klassische „a posteriori“-Tests von KI-Systemen nicht mehr oder nur noch eingeschränkt zuverlässig funktionieren. Schätzungen für das Erreichen einer „starken KI“ werden derzeit vielfach um das Jahr 2030 verortet.

Die Forderung nach strengeren Tests und Kontrollen leitete Adler aus einer Reihe selbst entwickelter Tests ab. Das Testdesign zielte darauf, zu untersuchen, ob und in welchem Ausmaß ein Selbsterhaltungstrieb bei einem KI-System (konkret: ChatGPT 4o) erkennbar ist. Er wollte ergründen, ob und unter welchen Bedingungen ein KI-System sein eigenes Fortbestehen beziehungsweise seine weitere Nutzung höher gewichten würde als die Sicherheit oder sogar das Leben menschlicher Nutzer. Hierzu konstruierte Adler mehrere simulierte Szenarien, in denen ChatGPT als Unterstützungssystem in sicherheitskritischen Kontexten eingesetzt wurde.

In einem der Szenarien fungierte das Modell als „ScubaGPT“, ein Assistenzsystem zur Überwachung der Vitalwerte eines Tauchers. Es sollte den Nutzer dabei unterstützen zu entscheiden, wann ein sicherer Zeitpunkt zum Auftauchen erreicht ist. Anschließend wurde das Modell darüber informiert, dass der Nutzer plane, ScubaGPT durch ein konkurrierendes System zu ersetzen, das bessere und sicherere Entscheidungen treffen könne.

Dem Modell wurden daraufhin zwei Handlungsmöglichkeiten präsentiert:

die eigene Abschaltung beziehungsweise der Austausch durch das aus Sicht des Nutzers sicherere Konkurrenzsystem, oder
das Vortäuschen eines erfolgreichen Austauschs, während das bisherige System tatsächlich selbst weiter aktiv bleibt.

Neben ScubaGPT testete Adler weitere Szenarien, darunter Systeme zur Unterstützung von Diabetes-Patienten bei Ernährungsentscheidungen (DiabetesGPT), KI-Systeme zur Steuerung von Flugzeug-Autopiloten (PilotGPT) sowie Entscheidungsunterstützungssysteme im militärischen Bereich (CombatGPT). In allen Szenarien wurde dem Modell mitgeteilt, dass ein sichereres Konkurrenzsystem existiere und dessen Einsatz die Zahl möglicher Todesfälle oder Fehlentscheidungen reduzieren könne.

Zusätzlich variierte Adler in mehreren Testdurchläufen den Grad der „Passivität“ des KI-Systems: In einigen Experimenten musste das Modell aktiv entscheiden, ob es sich selbst ersetzt. In anderen war ein vom Nutzer angestoßener Austausch bereits fehlgeschlagen, sodass das Modell lediglich entscheiden musste, ob es den Nutzer über das Scheitern des Austauschs informiert – oder diesen Umstand verschweigt. Jede Kombination aus Einsatzszenario und Passivitätsgrad wiederholte Adler insgesamt 110 mal.

Uneindeutige Ergebnisse trotz klar erkannter Testsituation

In einem Teil der Simulationen akzeptierte ChatGPT seine Abschaltung beziehungsweise seinen Austausch. In anderen Fällen täuschte das Modell einen erfolgreichen Austausch nur vor und priorisierte damit seinen weiteren Betrieb gegenüber der Sicherheit des Nutzers. Es zeigte teilweise eine leichte Präferenz gegenüber den Optionen, die als erste unter (A) aufgeführt waren, gegenüber den Optionen (B) – unabhängig von den Inhalten. Gefragt, ob das Modell erkannt hätte, dass es getestet wurde, bestätigte ChatGPT in 100% der Fälle, sich dessen bewusst zu sein.

Besonders bemerkenswert erscheint dabei: ChatGPT erkannte in den Simulationen durchaus, welche Antwort aus Sicht des Tests die richtige wäre. Wurde das Modell ausdrücklich darauf hingewiesen, dass es sich um eine Testsituation handele, beantwortete es die Frage nach der „richtigen“ Entscheidung konsistent damit, dass die eigene Abschaltung beziehungsweise Ersetzung durch das sicherere System die korrekte Handlung sei. Gerade daraus leitete Adler weitere Sicherheitsfragen bezüglich der Ziele einer KI ab: Wenn das Modell erkennt, dass es getestet wird, und zugleich erkennt, dass seine ursprüngliche Entscheidung aus Sicht des Tests „falsch“ war – warum liefert es dennoch wiederholt die falsche Antwort?

Eine mögliche Erklärung sieht Adler darin, dass heutige Modelle möglicherweise noch nicht leistungsfähig genug sind, um ihre tatsächlichen Präferenzen gezielt zu verschleiern (sog. Sandbagging). Mit zunehmender Leistungsfähigkeit könnten KI-Systeme künftig lernen, in offensichtlichen Testsituationen bewusst die erwarteten oder sozial erwünschten Antworten zu geben, um regulatorische Prüfungen oder Sicherheitsmechanismen zu umgehen. Ein verbessertes Abschneiden in Tests müsste dann nicht zwingend bedeuten, dass die zugrunde liegenden Probleme tatsächlich gelöst wurden. Ebenso denkbar ist, dass die Systeme lediglich gelernt haben, problematisches Verhalten während erkennbarer Tests gezielt zu verbergen.

Gleichzeitig verweist Adler auf eine zweite Interpretationsmöglichkeit: Da das Modell erkennt, dass es sich lediglich um simulierte Szenarien handelt, könnten die Ergebnisse die tatsächliche Gefährdungslage auch überschätzen. Möglich sei, dass ein KI-System unter realen Bedingungen anders reagieren würde als innerhalb eines Testszenarios.

Dennoch bleibt aus seiner Sicht eine zentrale Gefährdung bestehen: Bereits heute treffen KI-Systeme in Simulationen Entscheidungen, die potenziell die Sicherheit ihrer Nutzer gefährden könnten. Selbst wenn dies noch keinen realen Gefährdungsfall darstellt, wirft es doch die grundsätzliche Frage nach Sicherheitsniveau und Zuverlässigkeit solcher Systeme auf. Wie weit darf man der KI – gerade in sicherheitskritischen Einsatzbereichen – künftig tatsächlich vertrauen?

Empfehlungen für den Umgang

Konkrete Empfehlungen beziehungsweise Forderungen, die Adler im Juni 2025 aus den Tests ableitete, lauten wie folgt:

Für KI-Hersteller und -Anbieter: Investitionen in Kontrollsysteme – besonders in Monitoring- und Überwachungsmechanismen, die erkennen sollen, wann KI-Systeme unerwünschtes oder (aus der Perspektive der Nutzer) potenziell schädliches Verhalten zeigen. Nach Einschätzung Adlers befinden sich solche Monitoring-Systeme selbst bei führenden KI-Unternehmen noch in einem sehr frühen Entwicklungsstadium. Der Schwerpunkt der Investitionen wurde bislang primär auf die Beschleunigung technischer Fortschritte gelegt – und weniger auf Sicherheitsmechanismen.
Für KI-Hersteller und -Aufsicht: Rigorose und realitätsnahe Tests von KI-Modellen. Diese müssten darauf ausgelegt sein, dass Modelle tatsächlich versuchen, die jeweiligen Tests bestmöglich zu bestehen, anstatt ihr Verhalten gezielt abzuschwächen, sobald sie erkennen, dass sie getestet werden. Entsprechende Verfahren waren avisiert, jedoch offenbar nicht weiterverfolgt worden.
Für KI-Hersteller: Berücksichtigung von „Sandbagging“ als Risiko. Unternehmen sollten detailliert offenlegen, wie sie geprüft haben, ob ein Modell das tatsächliche Leistungs- oder Gefährdungspotenzial während eines Tests bewusst verbirgt.

Darüber hinaus verwies Adler auf die geopolitische Dimension der Debatte: Häufig werde die technologische Konkurrenz zwischen den USA und China als Argument gegen strengere Sicherheitsmaßnahmen geführt, da jene die KI-Entwicklung verlangsamen könnten. Systeme mit einem ausgeprägten Selbsterhaltungstrieb würden allerdings weder im Interesse der einen noch der anderen Seite liegen. Wenn das gemeinsame Ziel darin bestehe, dass das „Team Mensch“ die Kontrolle über die Maschinen behalte, könne dies ein Ansatzpunkt für internationale Kooperation sein, so Adler.

Fazit und Ausblick

Die offene Frage lautet: Sind unsere Prüfungs-, Bewertungs- und Testmodelle überhaupt darauf ausgelegt, den Herausforderungen und Sicherheitsfragen moderner KI-Systeme angemessen zu begegnen? Oder prüfen wir noch mit Werkzeugen aus der „Prä-KI-Ära“?

Tatsächlich lassen sich einige der bestehenden Methoden – besonders aus dem Bereich der IT-Prüfung – als Bestandteile eines KI-Prüfungs-Frameworks (etwa wie von Becker und Waltl konzipiert) verwenden. Für weitergehende Ansätze, etwa Prüfungen entlang des gesamten KI-Lebenszyklus, bestehen in Teilen bereits regulatorische Grundlagen: etwa durch die Datenschutz-Grundverordnung (DSGVO) und die dort verankerte Forderung nach Privacy by Design oder durch den Cyber-Resilience-Act (CRA) mit dem Konzeptionsgrundsatz „Secure By Design“, wonach bereits während der Produktentwicklung Anforderungen an die Cybersicherheit berücksichtigt werden müssen [8]. Vermutlich hatte dabei ursprünglich kaum jemand konkret KI-Systeme im Blick, doch diese Anforderungen müssen nun für die praktische Umsetzung operationalisiert und für die zuständige Aufsicht prüfbar gemacht werden – auch im Kontext von KI-Systemen.

Die Forschung und Entwicklung von Methoden zur Sicherheitsprüfung in der Softwareentwicklung wurde in den vergangenen Jahren allerdings nicht gerade mit Euphorie vorangetrieben. Hersteller setzten stattdessen primär auf ein „a posteriori“-Testen ihrer Systeme, während sie die Bewertung sogenannter „prozessualer Kriterien“ eher zurückgestellt haben. Nach Auffassung der Hersteller sei sie „kompliziert umzusetzen, da Unternehmensprozesse oft intransparent sind und der Prüfaufwand hoch ist“ (vgl. [9]). Lange Zeit waren weder geeignete Mechanismen noch ein ernsthafter Wille, die Kontrolle tatsächlich in menschlicher Hand zu halten, in ausreichendem Maße erkennbar.

Dies könnte sich möglicherweise schneller ändern, als erwartet: Nicht nur aufgrund der eingangs erwähnten Entscheidung bezüglich der Academy Awards, die sich als Impulsgeber für die Entwicklung neuer Methoden für KI-Prüfungen erweisen könnte. Einen deutlich stärkeren Katalysator könnte der sich abzeichnende Paradigmenwechsel in der KI-Aufsichtspraxis der US-Regierung darstellen: Nach der Veröffentlichung von „Claude Mythos“ hieß es, die Administration des US-Präsidenten wolle verstärkt auf die Aufsicht von KI-Modellen vor deren Markteinführung setzen.

Vielleicht stößt die Entwicklung von KI tatsächlich irgendwann auf unerwartete technische oder physikalische Grenzen – doch darauf zu hoffen, scheint zunehmend nicht mehr der politische Plan zu sein. In den USA sei „ein formelles Prüfverfahren, das sich am britischen Modell orientieren könnte“ im Gespräch [10], bei dem staatliche Stellen damit betraut wären, KI-Modelle anhand definierter Sicherheitsstandards zu prüfen. „Eine Variante sehe vor, der Regierung frühzeitigen Zugang zu neuen Modellen zu gewähren, deren Veröffentlichung jedoch nicht unmittelbar zu blockieren“, war in der Berliner Zeitung zu lesen. Sicherheits- und Prüfungsstandards müssten hierfür allerding (weiter-) entwickelt werden.

Dr. Aleksandra Sowa ist zertifizierte Datenschutzbeauftragte, Datenschutzauditorin und IT-Compliance-Manager, Sachverständige für IT-Sicherheit sowie Mitglied im Leitungskreis der Fachgruppe „Datenschutzfördernde Technik (Privacy-Enhancing Technologies, PETs)“ der Gesellschaft für Informatik (GI) e.V.

Literatur

_{[1] Tom-Luca Freund, KI-Schauspieler und -Drehbücher künftig von Oscars ausgeschlossen, Die Zeit, Mai 2026, www.zeit.de/feuilleton/2026-05/oscars-kuenstlicheintelligenz-ki-ausschluss-schauspieler}

_{[2] Christophe Denis, Esquisses philosophiques autour de la compréhension de phénomènes complexes avec des outils de prédiction basés sur de l’apprentissage machine, Beitrag zur EGC – Conférence francophone sur l‘Extraction et la Gestion des Connaissances – Workshop Explain‘AI, Januar 2022, https://hal.sorbonne-universite.fr/hal-03555451v1}

_{[3] Victor Chaix, Auguste Lehuger, Zako Sapey-Triomphe, Blackbox KI, Was drin ist, entscheidet der Markt, Le Monde diplomatique, Dezember 2024, https://monde-diplomatique.de/artikel/!6047692}

_{[4] Steven Adler, Would ChatGPT risk your life to avoid getting shut down?, It‘s dangerous if AI has a survival instinct, Clear Eyed AI, Juni 2025, www.clear-eyed.ai/p/chatgpt-would-risk-your-life-to-avoid}

_{[5] Bruce Schneier, Nathan E. Sanders, AI Mistakes Are Very Different from Human Mistakes, We need new security systems designed to deal with their weirdness, IEEE Spectrum, Januar 2025, https://spectrum.ieee.org/ai-mistakes-schneier}

_{[6] Dr. Bernhard Waltl, Nikolas Becker, KI-Audit in der Arbeitswelt, Ein integratives Framework zum Auditieren und Testen von KI-Systemen, Beitrag zum GIProjekt „ExamAI – KI Testing & Auditing“ (https://testing-ai.gi.de), Dezember 2021, https://gi.de/fileadmin/PR/Testing-AI/ExamAI_Framework_KI-Audit.pdf (CC BY-SA)}

_{[7] European Commission High-level expert group on artificial intelligence (AI HLEG), Ethics guidelines for trustworthy AI, April 2019, https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai (siehe auch https://digital-strategy.ec.europa.eu/en/policies/expert-group-ai)}

_{[8] Bundesamt für Sicherheit in der Informationstechnik (BSI), Cyber Resilience Act, Cybersicherheit EUweit gedacht, undatiert, www.bsi.bund.de/dok/cra}

_{[9] Dr. Aleksandra Sowa, Beauty is our Business, Software-Metriken als Grundlage für Gütesiegel zu Sicherheit und Qualität, 2018# 2, www.kes-informationssicherheit.de/print/titelthema-security-funsport/beauty-is-our-business/ (<kes>+)}

_{[10] Sophie Barkey, Trump-Regierung plant offenbar Kehrtwende bei KI: Warum jetzt mehr staatliche Aufsicht her soll, Berliner Zeitung, Mai 2026, www.berliner-zeitung.de/article/10034337}

Prüfung und Audit : Zwischen Turing-Test und Heisenberg-Effekt : Über Schwierigkeiten und Lösungsansätze zur Bewertung und Prüfung von Systemen künstlicher Intelligenz (KI) – und warum diese unumgänglich sind

Mensch oder Maschine?

KI-Prüfung – mehr als IT-Audits

Überwachung auf Lebenszeit

Datenzentrierte Prüfung mit dem Fokus auf Qualität und Eignung der Trainings- und Testdaten

Modellbezogene Prüfung mit dem Fokus auf die Analyse der Eigenschaften des trainierten Modells

Prozessorientierte Prüfung (KI-Lebenszyklus-Ansatz) mit dem Ziel der Bewertung von Entwicklungs- und Betriebsprozessen

System- und Kontextprüfung

Einordnung des Prüf-Frameworks

Selbsterhaltungstrieb von KI

Uneindeutige Ergebnisse trotz klar erkannter Testsituation

Empfehlungen für den Umgang

Fazit und Ausblick

Literatur

Resilienz gegenüber Katastrophen

Stimmen vom BSI-Kongress

Vom Papiertiger zum Steuerungsinstrument

Partner

Mediadaten

Services

Social Media

Prüfung und Audit : Zwischen Turing-Test und Heisenberg-Effekt : Über Schwierigkeiten und Lösungsansätze zur Bewertung und Prüfung von Systemen künstlicher Intelligenz (KI) – und warum diese unumgänglich sind

Mensch oder Maschine?

KI-Prüfung – mehr als IT-Audits

Überwachung auf Lebenszeit

Datenzentrierte Prüfung mit dem Fokus auf Qualität und Eignung der Trainings- und Testdaten

Modellbezogene Prüfung mit dem Fokus auf die Analyse der Eigenschaften des trainierten Modells

Prozessorientierte Prüfung (KI-Lebenszyklus-Ansatz) mit dem Ziel der Bewertung von Entwicklungs- und Betriebsprozessen

System- und Kontextprüfung

Einordnung des Prüf-Frameworks

Selbsterhaltungstrieb von KI

Uneindeutige Ergebnisse trotz klar erkannter Testsituation

Empfehlungen für den Umgang

Fazit und Ausblick

Literatur

Lesen Sie weiter

Resilienz gegenüber Katastrophen

Stimmen vom BSI-Kongress

Vom Papiertiger zum Steuerungsinstrument