Free

ChatGPT, Codex und Co.: : Wenn das Urheberrecht zum Problem wird

KI-unterstütztes Programmieren wird die Produktivität, Qualität und die Sicherheit in der Softwareentwicklung verbessern. Umso wichtiger ist es, die damit verbundenen Risiken zu verstehen und damit umzugehen. Wem gehört zum Beispiel der Code, den eine KI ausgibt?

Gunnar BraunRecht
Lesezeit 6 Min.

Seit ChatGPT in der Öffentlichkeit bekannt wurde, gibt es vielfach Diskussionen, wer der Urheber der Texte ist, die generative KI-Modelle wie etwa OpenAI GPT 4 erzeugen. Neben Texten lässt sich mithilfe der KI-Modelle auch Programmcode erzeugen. Das können komplette Anwendungen sein, häufiger handelt es sich aber um Code-Snippets, die in verschiedene Programme integriert werden. Die Integration eines Snippets in eine Software, sei es durch einen menschlichen Entwickler oder durch eine künstliche Intelligenz (KI), bringt jedoch die vollen Anforderungen der Lizenz des Projekts mit sich, aus dem das Snippet kopiert wurde.

Ein prominentes Beispiel ist Copilot von Microsoft/OpenAI. Auch hier stellt sich die Frage, wie es um das Urheberrecht bestellt ist und ob es zu Lizenzkonflikten kommen kann. Insbesondere bei der Verwendung von KI-generiertem Code in Open-Source-Software gibt es für Entwickler und Unternehmen einiges zu beachten.

Code-Snippets haben großen Einfluss auf die Lizenzierung

Entwickler verwenden häufig Code-Schnipsel aus anderen Quellen in ihren eigenen Programmen, auch in und aus Open-Source-Software. Dabei ist es in der Vergangenheit immer wieder zu Problemen gekommen, wenn es um die Lizenzierung dieser Codezeilen ging.

Ein vieldiskutiertes Beispiel ist die Plattform Stack Overflow, auf der sich Softwareentwickler austauschen und Implementierungen anhand von Code-Schnipseln diskutieren. Häufig wird der Code einfach in die eigene Software kopiert. Die potenziell damit verbundenen rechtlichen Konsequenzen sind in vielerlei Hinsicht denen von KI-erzeugtem Code sehr ähnlich. Ein großer Unterschied besteht allerdings in der zu erwartenden Verbreitung von Produkten wie GitHub Copilot. Und somit das Ausmaß der möglichen Copyright-Verletzungen.

Rechtlich gelten für das neue Projekt die Lizenzbedingungen des Projekts, aus dem der kopierte Code stammt. Kopiert ein Entwickler also mehrere Snippets aus unterschiedlichen Quellen, kann die Lizenzierung eines Projekts schnell beliebig komplex werden. Dies ist bei der Verwendung von Code aus generativen KI-Modellen nicht anders. Denn die KI nutzt Milliarden von Projekten als Basis für den Code, den sie selbst erstellt. Daraus ergeben sich etliche Fragen rund um das Urheberrecht, und sie sind längst nicht alle beantwortet.

Wie erzeugt KI den Code? Und mit welchen rechtlichen Folgen?

Generative KI-Modelle verwenden bei der Codegenerierung, ähnlich wie bei der Texterstellung, Quelldokumente, die der KI von ihren eigenen Entwicklern zur Verfügung gestellt werden. Die KI lernt anhand dieser Dokumente. Das gilt auch für Quellcode. Hier nutzen GPT4, Lambda, Codex und andere Modelle ebenfalls die zur Verfügung gestellten Quellen, um eigenen Code zu erstellen. Am Beispiel von Microsoft GiHub Copilot sind das sogar Milliarden verschiedener Quell-Projekte.

Bei der Programmierung des Codes kann es dabei durchaus zu Kopien kommen, die dem Lizenzrecht des Quellprojektes unterliegen. Ein Programmierer, der KI einsetzt, ist sich dessen oft nicht bewusst. Das ändert aber nichts daran, dass die verwendeten Code-Schnipsel unter Umständen urheberrechtlich geschützt sind. Die KI benutzt also bereits vorhandenen Code, um das angefragte Snippet zu erstellen. Dieser neue Code muss im Ziel-Projekt dann wieder korrekt lizenziert werden.

Im Beispiel von Microsoft Copilot wird das OpenAI-Modell Codex verwendet. Dieses wiederum wurde mit Milliarden an öffentlich verfügbaren Codebeispielen trainiert, die zum Beispiel auf GitHub gespeichert wurden. Das KI-Modell und damit auch Copilot erstellen ihren Code also vor allem auf Basis von menschlich erzeugtem Code. Wenn Entwickler Code-Schnipsel mit Copilot erstellen lassen, steckt dahinter das Know-how menschlicher Entwickler und wird oft ohne deren Wissen und Erlaubnis verwendet. Hier argumentiert OpenAI in den USA beispielsweise auf Grundlage des Fair-Use-Modells. Dabei geht es um die Verarbeitung von Daten im Interesse der öffentlichen Bildung und dem Schaffen neuer Produkte. OpenAI folgert, dass ML-Modelle einen Mehrwert für die Gesellschaft darstellen. Andere Länder nutzen ähnliche Argumentationsgrundlagen. Allesamt sind aber noch nicht abschließend juristisch geklärt.

Wem gehört der Code, den eine KI ausgibt?

Auf der Grundlage des Fair-Use-Modells können Entwickler nach Ansicht von OpenAI Code von Copilot oder anderen KI-Lösungen erstellen lassen, ohne das Urheberrecht anderer Entwickler zu verletzen. Zwar haben die Entwickler des ursprünglichen Quellcodes ihren eigenen Code zum Trainieren des jeweiligen Modells zur Verfügung gestellt, aber durch den Fair-Use-Ansatz kopiert Codex diesen Code nicht, sondern erstellt neuen Code. Der ehemalige GitHub-Chef Nat Friedman sieht die Vorgehensweise dahinter ähnlich wie bei einem Compiler, der Programmcode in Maschinensprache übersetzt.

Der Ansatz ist allerdings nicht unumstritten. Vor allem bei Programmcode kommt es immer wieder vor, dass Codex ganze Codeabschnitte kopiert und sogar persönliche Daten aus dem Originalcode übernimmt. Dies hat auch GitHub erkannt und arbeitet daran, solche Abschnitte kenntlich zu machen. Dies zeigt das Risiko, dem sich die Nutzer von Copilot/Codex aussetzen. Hier kann es schnell zu teuren Urheberrechtsverletzungen kommen. Ob ein Abschnitt urheberrechtlich relevant ist, hängt in der EU beispielsweise davon ab, ob er die „Schöpfungshöhe“ erreicht. Ob und in welchem Umfang diese vorliegt und als solche zu erkennen ist, das musste schon in der Vergangenheit nicht selten vor Gericht geklärt werden.

Ein weiterer Kritikpunkt besteht darin, dass KI ursprünglich als Open Source erstellten Code als Quelle nutzt und Entwickler dabei unterstützt, diesen in kommerziellen Code umzuwandeln. Das ist natürlich nicht legal und kann in Verbindung mit offensichtlich kopiertem Code zu Problemen führen. Unabhängig davon, ob der Code eigenhändig oder durch eine KI kopiert wurde.

KI-Dienste sind derzeit noch rechtsfreier Raum, aber das wird nicht so bleiben

Die Verwendung von KI-Modellen zum Erstellen von Code-Schnipseln ist noch vergleichsweise neu, und die rechtlichen Implikationen noch nicht umfassend behandelt. Es gibt noch keine allgemein verbindlichen Urteile über die urheberrechtliche Behandlung von KI-generiertem Code oder Text. Klar ist jedoch, dass wir in nicht allzu ferner Zukunft mit solchen Urteilen rechnen können und diese Gültigkeit erlangen. Das wird nicht ohne rechtliche Folgen für Programme bleiben, die Code-Schnipsel von Copilot, ChatGPT oder anderen KI-Lösungen verwenden. Unternehmen und Entwickler sollten sich frühzeitig darauf einstellen, urheberrechtlich kritische Code-Snippets nicht zu verwenden.

Bereits erwähnt wurde der Fair-Use-Ansatz, der es KI erlaubt, öffentlich zugängliche Daten zu nutzen, wenn das Ergebnis der Allgemeinheit dient. Fair Use gilt jedoch nur in den USA. In anderen Ländern gelten abweichende Urheberrechtsgesetze, an die sich Entwickler und Unternehmen halten müssen. Man sollte sich also rechtzeitig vorbereiten und nicht ungeprüft Codezeilen aus KI-Modellen an Unternehmen weitergeben. Ohne Berücksichtigung des Urheberrechts sollten Entwickler Code-Schnipsel, die eine KI erstellt hat, möglichst nicht ohne Prüfung verwenden. Andernfalls drohen in Zukunft empfindliche Strafen.

Lizenzrechtler erwarten denn auch verschiedene Anpassungen des Urheberrechts und Urteile, die speziell KI-Modelle betreffen. Auch völlig neue Rechtsmodelle sind denkbar. OpenAI und andere KI-Unternehmen fordern ebenfalls die Anpassung gängiger Urheberrechtsmodelle und -gesetze. Eine frühzeitige Auseinandersetzung mit dem Thema ist dringend anzuraten, vor allem für Entwickler und Unternehmen, die KI-generierte Code-Snippets nutzen.

GitHub setzt bei Copilot auf Copyleft-Lizenzen wie die GPL. Allerdings bietet GitHub Copilot wiederum nicht als Copyleft-Lösung an, sondern als kostenpflichtige Lösung. Viele Experten sehen deswegen in der Verwendung von Copilot eine Urheberrechtsverletzung, da der Dienst Open-Source-Code kommerzialisiert. Unter Copyleft lizenzierte Werke dürfen kopiert, verändert und verbreitet werden. Allerdings müssen die Kopien unter den gleichen Bedingungen weiterverwendet werden dürfen. Dies ist bei Copilot nicht der Fall. Ein weiterer Diskussionspunkt, der noch nicht abschließend geklärt ist.

Lösungen zur Analyse von KI-Code helfen beim Erkennen von urheberechtlich geschützten Code-Schnipseln

Ohne Frage helfen Lösungen wie GitHub Copilot dabei, schneller zu programmieren. Ähnlich wie es Open-Source-Software gelungen ist, wird KI-unterstütztes Programmieren die Produktivität, Qualität und die Sicherheit in der Softwareentwicklung verbessern. Umso wichtiger ist es, die damit verbundenen Risiken zu verstehen und damit umzugehen. Hier sind Technologien gefragt, die mit der fortschreitenden Automatisierung mithalten und diese nicht etwa ausbremsen.

Wie oben erläutert, ist es unabdingbar, den von der KI erstellten Code auf urheberrechtlich relevante Inhalte zu überprüfen. Manuell ist das kaum möglich und selbst wenn, wäre die Zeitersparnis wieder dahin. Lösungen, die potenzielle Lizenzkonflikte so unkompliziert und simpel wie beispielsweise über den Aufruf eines APIs erkennen, könnten der Schlüssel für eine sichere Verwendung dieser Technologie sein – und somit einen breiten Einsatz von KI-unterstützer Programmierung ermöglichen.

Gunnar Braun ist Technical Account Manager bei Synopsys SIG.