Microsoft veröffentlicht Red-Teaming-Tool für generative KI
Microsoft hat ein neues Automatisierungs-Framework namens PyRIT (kurz für Python Risk Identification Tool) veröffentlicht. Dieses Tool ist frei zugänglich und hilft dabei, Risiken in KI-gesteuerten Systemen proaktiv zu erkennen.
Laut Ram Shankar Siva Kumar, Leiter des KI-Red-Teams bei Microsoft, wurde das Red-Team-Tool entwickelt, um „jede Organisation weltweit in die Lage zu versetzen, mit den neuesten Fortschritten der künstlichen Intelligenz verantwortungsvoll zu innovieren“.
Wie Microsoft erklärt, eignet sich PyRIT dazu, um die Stärke von Large-Language-Model-(LLM)-Systemen gegen verschiedene Schadenskategorien wie Fälschung (zum Beispiel Halluzination), Missbrauch (zum Beispiel Voreingenommenheit) und unerwünschte Inhalte (zum Beispiel Belästigung) zu bewerten. Außerdem kann es Sicherheitsrisiken identifizieren, von der Generierung von Malware bis hin zum Jailbreaking, ebenso wie Risiken für die Privatsphäre – etwa Identitätsdiebstahl.
PyRIT bietet fünf Hauptfunktionen: ein Zielsystem, Datensätze, eine Scoring-Engine, die Möglichkeit, verschiedene Angriffsstrategien zu unterstützen, und eine Speicherkomponente. Die Speicherkomponente kann entweder in Form von JSON oder einer Datenbank vorliegen, um die Interaktionen zwischen Eingabe und Ausgabe zu speichern.
Die Scoring-Engine bietet zwei Optionen zur Bewertung der Ausgaben des KI-Zielsystems. Red-Teamer können entweder einen klassischen Machine-Learning-Klassifikator verwenden, oder den LLM-Endpunkt zur Selbstbewertung nutzen.
„Das Ziel von PyRIT ist es, Forschern eine Grundlage dafür zu geben, wie gut ihr Modell und ihre gesamte Inferenzpipeline in Bezug auf verschiedene Schadenskategorien abschneiden. Sie können diese Grundlage nutzen, um die Leistung ihres Modells heute zu bewerten und etwaige zukünftige Verbesserungen zu erkennen“, so Microsoft. Das Unternehmen hebt ausdrücklich hervor, dass PyRIT kein Ersatz für das manuelle Red Teaming von generativen KI-Systemen ist, sondern eher das vorhandene Fachwissen eines Red Teams ergänzt.
Einfach gesagt, soll das Tool die kritischen Risikobereiche hervorheben, indem es Anfragen generiert, um das KI-System zu bewerten, und Bereiche markiert, die weitere Untersuchungen erfordern.
Microsoft erkennt an, dass das Red-Teaming von generativen KI-Systemen nicht nur eine Prüfung auf Sicherheits- , sondern gleichzeitig auch KI-Risiken erfordert. Diese Prüfung ist eher eine Wahrscheinlichkeitssache und berücksichtigt gleichzeitig die großen Unterschiede in den Architekturen dieser generativen KI-Systeme.
Ram Shankar Siva Kumar von Microsoft betonte: „Manuelle Untersuchungen sind zwar zeitaufwändig, aber oft notwendig, um potenzielle blinde Flecken zu identifizieren. Automatisierung wird für die Skalierung benötigt, ist aber kein Ersatz für die manuelle Untersuchung.“
Diese Entwicklung erfolgt, nachdem Protect AI mehrere kritische Schwachstellen in beliebten KI-Lieferkettenplattformen wie ClearML, Hugging Face, MLflow und Triton Inference Server entdeckt hat. Diese Schwachstellen könnten dazu führen, dass beliebiger Code ausgeführt und sensible Informationen preisgegeben werden.