Künstliche Intelligenz wegen Open-Source-Piraterie verklagt



Erstmalig in der Geschichte der künstlichen Intelligenz ist eine solche nun wegen möglicher Urheberrechtsverletzungen angeklagt worden: Im November 2022 verkündete der Entwickler Mathew Butterick, dass er zusammen mit der Anwaltskanzlei Joseph Saveri die Erfinder von „Copilot“ belangen möchte, weil diese aus seiner Sicht Urheberrechte verletzen.

Die Klage richtet sich gegen ein auf künstlicher Intelligenz beruhendem Werkzeug, welches es Entwicklern ermöglicht automatisch Code zu vervollständigen. Copilot wird von Codex unterstützt, einem generativen, vortrainierten KI-Modell, das von OpenAI entwickelt wurde. Das System wurde mit Millionen Zeilen von Open-Source Code angelernt, den tausende von Programmierern auf github eingestellt haben. Github selbst gehört seit 2018 zum Microsoft-Konzern. Die Urheber der Open-Source-Software auf github versehen ihre Beiträge in der Regel mit Urheberrechtsvermerken oder Lizenzen welche Vorgaben für die Nutzung enthalten, welche die KI angeblich jedoch nicht weiter beachtet hat. Und interessanterweise ist die Nutzung von Copilt kostenpflichtig.

„Genau wie der Aufstieg von Compilern und Open-Source glauben wir, dass KI-gestützte Programmierung die Art der Softwareentwicklung grundlegend verändern wird, indem sie Entwicklern ein neues Werkzeug an die Hand gibt, um Code einfacher und schneller zu schreiben“, pries GitHub-CEO Thomas Dohmke damals die neue Erfindung.

Die Befürchtung ist, dass das System angelernte Code-Schnipsel aus Open-Source-Projekten einfügt, ohne deren ursprünglichen Urheber oder die ursprüngliche Lizenzen zu nennen. Dazu sagt Butterick: „KI-Systeme sind nicht vom Gesetz ausgenommen. Diejenigen, die diese Systeme entwickeln und betreiben, müssen zur Rechenschaft gezogen werden. Wenn Unternehmen wie Microsoft, GitHub und OpenAI sich entscheiden, das Gesetz zu missachten, sollten sie nicht erwarten, dass wir, die Öffentlichkeit, stillsitzen. KI muss für alle fair und ethisch sein. Wenn das nicht der Fall ist, kann sie ihre gepriesenen Ziele, die Menschheit zu verbessern, niemals erreichen. Sie wird nur eine weitere Möglichkeit für die wenigen Privilegierten sein, von der Arbeit der Vielen zu profitieren.“

Laut Microsoft werden jedoch keine Codefragmente aus den Open Source Projekten genutzt: „Die Vorschläge von GitHub Copilot werden alle durch KI generiert. GitHub Copilot generiert neuen Code auf probabilistische Weise, und die Wahrscheinlichkeit, dass sie denselben Code wie ein im Training aufgetretenes Snippet produzieren, ist gering.“. Dennoch wurde ein Filter eingebaut, welcher Codeschnipsel von github erkennt und diese automatisch unterdrücken kann, wenn der Entwickler dies so konfiguriert.

Die Kläger sehen dies jedoch ganz anders: „Indem sie ihre KI-Systeme auf öffentlichen GitHub-Repositories trainiert haben, haben die Beklagten die Rechte einer großen Anzahl von Urhebern verletzt, die Code oder andere Arbeiten unter bestimmten Open-Source-Lizenzen auf GitHub veröffentlicht haben“, heißt es in der Beschwerde. Insbesondere enthält der von Copilot generierte Code keine Nennung des ursprünglichen Autors, keine Urheberrechtsvermerke und keine Kopie der Lizenz, wie es die meisten Open-Source-Lizenzen verlangen. Die Beschwerde listet auch gängige Open-Source-Lizenzen auf, gegen die Copilot möglicherweise verstößt, die alle die Nennung des Namens des Autors und des Urheberrechts erfordern, beispielsweise die MIT-Lizenz, die GPL oder die Apache-Lizenz.

Der generierte Code wirft auch gleich folgende Frage auf: Wenn Copilot auf Software-Code trainiert wurde, der einer Open-Source-Lizenz unterliegt, welche Lizenz gilt dann für den von Copilot produzierten Code? BSD? MIT? Eine andere? Keine Lizenz? Keine Lizenz in dem Sinne, dass die zugrunde liegenden Teile unter inkompatiblen Lizenzen stehen und es keine Möglichkeit gibt, sie zu kombinieren? Dazu macht Microsoft keine Angaben. Vielmehr wälzt es das Risiko ausdrücklich auf die Benutzer ab, die die gesamte Last der Lizenzeinhaltung tragen müssen.

Die Anwälte der Anwaltskanzlei Joseph Saveri wiesen in einer Pressemitteilung darauf hin, dass es sich um einen potenziell geschichtsträchtigen Rechtsstreit handelt: „Diese Klage ist ein entscheidendes Kapitel in einer branchenweiten Debatte über die Ethik des Trainings von KI-Werkzeugen mit Daten, die ohne Erlaubnis der Urheber stammen, und darüber, was eine faire Nutzung von geistigem Eigentum ist. Trotz gegenteiliger Beteuerungen von Microsoft hat das Unternehmen nicht das Recht, Quellcode, der unter einer Open-Source-Lizenz angeboten wird, so zu behandeln, als wäre er gemeinfrei.“

Verbotschild auf die Buchstaben AI


Comments are closed.