Wer heute noch KI generierten Code in Umlauf bringt, hat bedingten Vorsatz für Rechtsverletzungen.

Von Effizienz zum Risiko: Der Aufstieg des Vibe Coding

Entwickler schreiben nicht jede Zeile Code von Grund auf neu. Die meisten Softwareprogramme nutzen bestehende Bibliotheken. Traditionell bedeutete dies die Wiederverwendung von geprüften, und lizenzierten freien und quelloffenen Codes. Nun kommt „Vibe Coding“ ins Spiel – die Praxis, generative KI-Tools zu verwenden, um schnell Gerüste, Hilfsfunktionen oder sogar zentrale Geschäftslogik zu generieren. Laut Umfragen wird in einigen Unternehmen mittlerweile mehr als 60% des Codes von KI generiert. Aber nur ein Bruchteil der Unternehmen verfügt über Prozesse zur Bewertung dieser Tools oder zur Überprüfung ihrer Ausgaben.

Das Ergebnis: undurchsichtiger, nicht nachvollziehbarer Code mit unbekannten Lizenzen, Ursprüngen oder Schwachstellen. Schlimmer noch: Viele Entwickler können nicht erkennen, ob eine Funktion von KI generiert, aus Stack Overflow kopiert oder komplett aus einem GPL-Repository übernommen wurde.

Wenn GitHub Copilot aufgefordert wird, einen Sortieralgorithmus oder eine mathematische Funktion zu vervollständigen, generiert es oft Code, der mit bestehenden Beispielen in öffentlichen Repositorys nahezu identisch ist. In eigenen Demonstrationen haben wir die Generierung exakter Übereinstimmungen gezeigt – allerdings ohne Lizenz und Autor. Das ist kein Zufall, sondern liegt in der Architektur der KI begründet:

KI-Code-Generierungssysteme werden anhand riesiger Datensätze bestehendes Codes trainiert, oft ohne die Nutzungsbedingungen oder Lizenzverpflichtungen zu „lernen“. Und die Modelle sind nicht darauf ausgelegt, die Herkunft der Quellen zu bewahren.

„Copilot ist kein Mitautor. Es ist ein Sammler – oft von den Werken anderer Leute.“

Der rechtliche Wandel: Von der Theorie der Rechtsverletzung zur Praxis der Rechtsverletzung

Bis vor kurzem waren die rechtlichen Risiken im Zusammenhang mit KI-generiertem Code weitgehend hypothetisch. Das änderte sich im September 2025, als ein deutsches Gericht (Landgericht München I) OpenAI für wahrscheinlich haftbar für Urheberrechtsverletzungen aufgrund der Verwendung von Songtexten beim Training seiner Modelle befand.

Das Gericht monierte:

Die Behauptung von OpenAI, dass die Nutzer selbst verantwortlich seien.
Argumente, die sich auf Ausnahmen für Text- und Data-Mining in der EU beriefen.
Vergleiche mit dem US-amerikanischen „fair use”.

Stattdessen stellte das Gericht klar: Das Training mit urheberrechtlich geschützten Daten ohne Genehmigung oder Lizenz ist eine Rechtsverletzung. Und die Generierung von Inhalten auf der Grundlage dieses Trainings ist eine unbefugte Vervielfältigung.

Dieser Fall könnte bald zu einer formellen einstweiligen Verfügung führen. Das Gericht signalisierte auch, dass es zu einem Zentrum für ähnliche Klagen werden könnte. Wenn diese Logik auf Quellcode ausgedehnt wird, könnten Copilot-ähnliche Modelle, die mit GPL-Code trainiert wurden, in einen rechtlich freien Fall geraten.

Unterschiedliche Rechtslage beim KI-generierten Code in Europa und den USA

Während europäische Gerichte beginnen, strenge Urheberrechtsauflagen für das Training und die Ergebnisse von Modellen zu erlassen, bleibt die Situation in den Vereinigten Staaten weiterhin unklar. Nach US-amerikanischem Urheberrecht argumentieren KI-Unternehmen häufig, dass das Training großer Sprachmodelle auf der Grundlage öffentlichen Codes unter die Doktrin der „fairen Nutzung” fällt. Faire Nutzung ist in den USA keine gesetzliche Erlaubnis, sondern eine Verteidigungsstrategie, die sich auf konkrete Fakten stützt, unvorhersehbar ist und von den Gerichten uneinheitlich angewendet wird. Einige KI-Entwickler nutzen sie als Schutzschild für das Training mit urheberrechtlich geschützten Daten, aber es gibt keine Garantie, dass die Gerichte dem zustimmen werden.

In den USA sind derzeit mehrere Gerichtsverfahren im Zusammenhang mit KI und möglichen Verletzungen von Rechten des geistigen Eigentums anhängig. Die US-Gerichte haben noch keine einheitliche Auffassung darüber gebildet, ob das Training von KI eine „faire Nutzung“ darstellt. Bis ein klarer Präzedenzfall geschaffen ist, sehen sich Unternehmen, die KI-generierten Code verwenden oder vertreiben, insbesondere Code, der bestehenden Werken ähnelt, mit erheblicher Rechtsunsicherheit konfrontiert.

Um dieses Problem anzugehen, hat Creative Commons eine neue Reihe maschinenlesbarer Opt-out-Signale vorgeschlagen, die es Urheberrechtsinhabern ermöglichen würden, ihre Präferenz zum Ausdruck zu bringen, nicht für das Training von KI verwendet zu werden. Der Opt-out-Mechanismus gewinnt in Europa an rechtlicher Bedeutung. Gemäß dem EU-KI-Gesetz (Artikel 53 (I) (c), Erwägungsgrund 106, Maßnahme I.2.3 des Abschnitts zum Urheberrecht im Entwurf des Verhaltenskodexes) und der CDSM-Richtlinie müssen Modellentwickler solche Opt-outs beim Training mit urheberrechtlich geschützten Werken beachten, selbst wenn das Training außerhalb der EU stattfindet. Sobald die Entwickler eines KI-Modells oder seiner Ergebnisse das Modell auf den EU-Markt bringen, müssen sie die EU-Urheberrechtsvorschriften einhalten – unabhängig davon, wo das Training stattgefunden hat und selbst dann, wenn das Training durch das US-amerikanische Fair-Use-Recht oder andere Rechtsvorschriften geschützt ist.

Das Unsichtbare erkennen: KI-Kopieren kann nachgewiesen werden

Wie in unserem Vortrag auf dem Bitkom Forum Open Source 2025 erläutert, ist es schwierig, KI-generierten Code zu erkennen, da der Quellcode meist keine eindeutigen Hinweise auf seine Herkunft enthält. Einige Codeausschnitte enthalten zwar Kommentare wie „generiert von ChatGPT“, dies ist jedoch selten. Es gibt jedoch einige Anhaltspunkte.

KI-generierter Code hat oft eine sehr einheitliche Struktur mit übermäßigen oder unnötigen Kommentaren, verwendet generische Variablennamen wie „temp“ oder „data“ und ähnelt eher Beispielen aus Lehrbüchern als realem Code. Semantisch kann er redundante oder unlogische Aussagen enthalten, Randfällen nicht behandeln oder wenig Verständnis für domänenspezifische Logik zeigen, sofern dies nicht ausdrücklich verlangt wird.

Tools wie GPTZero und DetectGPT, die ursprünglich für Text entwickelt wurden, können manchmal KI-generierte Kommentare oder Erklärungen kennzeichnen. Plagiatsdetektoren wie PlagScan und Turnitin beginnen ebenfalls, Code zu scannen. Die Suche nach Codeschnipseln auf GitHub oder Google fördert oft nahezu identischen Code aus öffentlichen Quellen wie Stack Overflow zutage.

Weitere Hinweise finden sich möglicherweise in der Commit-Historie. GitHub Copilot-Commits enthalten manchmal Metadaten oder Tags wie „Co-authored-by”. Gelegentlich finden sich sogar Fragmente von Eingabeaufforderungen in Code-Kommentaren oder Variablennamen.

Tools wie Vendetect verwenden semantische Fingerabdrücke, um vendored oder kopierten Code in Repositorys zu erkennen, selbst nachdem er refaktorisiert wurde. In Kombination mit einer Versionskontrollanalyse können solche Tools den Code bis zum genauen Commit im Quell-Repository zurückverfolgen. Aber auch diese Tools haben ihre Grenzen. Verschleierter Code, geringfügige strukturelle Abweichungen oder stark transformierte Snippets können der Erkennung immer noch entgehen.

Trotz dieser Indikatoren bleibt eine zuverlässige Erkennung schwierig und erfordert eine Kombination aus Tools, Kontext und manueller Überprüfung. Eine 100-prozentige Erkennung ist in großem Maßstab schwierig, wenn nicht sogar unmöglich. Deshalb muss die Erkennung mit einer forensischen Überprüfung der Codebasen, der Offenlegung durch die Entwickler und klaren vertraglichen Schutzmaßnahmen kombiniert werden.

Sicherheit und Qualität von KI-generiertem Code

Ironischerweise können dieselben KI-Techniken, die zur Generierung von Code verwendet werden, auch dazu genutzt werden, Fehler darin zu finden. Der Forscher Joshua Rogers nutzte generative KI-Tools für statische Anwendungssicherheitstests (SAST), um 50 neue Fehler in cURL zu entdecken – einem der am häufigsten genutzten und geprüften Open-Source-Projekte weltweit. Selbst der Projektbetreuer Daniel Stenberg, der zuvor KI-generierte Fehlerberichte als „Schrott” abgetan hatte, erkannte die Qualität dieser Ergebnisse an.

Die von Rogers verwendeten Tools gehen über die Syntaxanalyse hinaus. Sie verstehen Absichten, Protokoll-Logik und Semantik – genau wie bei der Codegenerierung.

Diese doppelte Verwendbarkeit der KI zeigt, dass nicht das Tool fehlerhaft ist, sondern die Art und Weise, wie es eingesetzt wird. KI ohne Überprüfung, Audit oder Zuordnung ist ein Risiko. KI mit Validierung kann ein Gewinn sein.

Von blindem Vertrauen zu kontrollierter Nutzung?

KI-generierter Code muss wie Software von Drittanbietern behandelt werden, d. h. er erfordert eine Lizenzüberprüfung, Herkunftsverfolgung und Sicherheitsüberprüfung. SBOMs (Software Bill of Materials) müssen nach Möglichkeit Herkunftsdaten enthalten: Wurde dieser Code generiert? Wenn ja, wie? Welche Eingabeaufforderung wurde verwendet? Welche Trainingsdaten sind bekannt? Entwickler müssen Kunden und Partnern die Nutzung von KI offenlegen. Eine mangelnde Offenlegung schafft ein rechtliches Risiko nach deutschem Vertragsrecht und macht Gewährleistungsausschlüsse unwirksam. Softwarekäufer müssen das Risiko vertraglich verlagern. Definieren Sie KI-generiuerten Code als Mangel. Fordern Sie Überprüfbarkeit. Verlangen Sie von Anbietern, Verantwortung zu übernehmen und nicht die Schuld abzuwälzen.

Haftungsrisiken und Compliance-Pflichten bei KI-generiertem Code

Wenn Copilot oder ein ähnliches Tool Code erzeugt, der stark mit urheberrechtlich geschütztem Material übereinstimmt – wie beispielsweise aus freien und Open-Source-Projekten unter der GPL oder LGPL –, kann dies bereits ausreichen, um eine Urheberrechtsverletzung auszulösen. Das deutsche Urheberrecht gibt Rechteinhabern sogar die Möglichkeit, Zugang zu Ihrem Quellcode zu verlangen, wenn sie eine solche unbefugte Wiederverwendung vermuten.

Dies kann zu Klagen, Unterlassungsforderungen oder sogar finanziellen Schäden führen, insbesondere wenn der wiederverwendete Code aus Projekten stammt, die kommerzielle Lizenzen anbieten, wie Qt, MySQL oder OpenJDK. Käufer oder Kunden können jeden Code, der keine klare Lizenz oder keinen Herkunftsnachweis hat, rechtlich als „fehlerhaft“ behandeln – genauso wie defekte Hardware. Das bedeutet, dass Softwareanbieter haften, wenn sie Produkte ausliefern, die rechtlich nicht einwandfrei sind. Um dies zu vermeiden, sollten Entwickler und Anbieter offenlegen, wenn sie KI-generierten Code verwendet haben. Dieser sollte wie jeder andere Code von Drittanbietern dokumentiert, überprüft und in SBOMs aufgenommen werden.

Beim Kauf von Software müssen Unternehmen sicherstellen, dass Verträge KI-generierten Code eindeutig als potenzielles Risiko definieren und vom Lieferanten verlangen, die Verantwortung dafür zu übernehmen. Dazu gehört auch, dass sichergestellt wird, dass der Codes legal genutzt werden kann und er ordnungsgemäß überprüft wurde. Der wissentliche Versand von KI-generiertem Code ohne Überprüfung seiner Herkunft oder Compliance kann als Akzeptanz des Risikos eines Gesetzesverstoßes angesehen werden.

Unternehmen können Workflows zu Überprüfung implementieren – wie unsere OCCTET-Toolchain –, die eine forensische Audit des Quellcodes ermöglicht, um saubere SBOMs zu generieren, die alle Softwarekomponenten und ihre Herkunft mit den jeweiligen Urheberrechten, Lizenzen und Schwachstellen anzeigen.

Entwickler als Gatekeeper

Entwickler, die Copilot, ChatGPT oder andere KI-Tools verwenden, sind ebenfalls Gatekeeper. Sie entscheiden, was in die Codebasis aufgenommen wird. Das bedeutet, dass sie auch entscheiden, welche Risiken das Unternehmen eingeht. KI ist nicht mehr wegzudenken. Aber das Gleiche gilt auch für das Urheberrecht, Sicherheitsstandards und das Vertragsrecht. Wir können das eine nicht ignorieren, nur weil das andere spannend ist.

Schützen Sie sich. Prüfen Sie Ihren Code. Fordern Sie Transparenz. Bei Bitsea helfen wir Unternehmen, Unsicherheit in Klarheit zu verwandeln. Ob Sie mit KI-Tools wie Copilot entwickeln, Code von Drittanbietern integrieren oder Software von Anbietern beziehen – unsere forensischen Audit-Services stellen sicher, dass Ihre Codebasis rechtlich einwandfrei, nachvollziehbar und auf Dateiebene sicher ist.