Kunst ohne Kreative?
Rechtliche Herausforderungen bei KI-generierten Werken
Stefan Kunitz, Fides Technology
(Titelbild: ©Adobe Firefly)
Kurz und Bündig
Die rasante Entwicklung generativer KI revolutioniert die Kreativwirtschaft, bringt jedoch auch rechtliche Herausforderungen mit sich. Besonders das Urheberrecht steht im Fokus, wenn es um die Nutzung und das Training dieser Technologien geht.
Die rasante Entwicklung generativer Künstlicher Intelligenz (KI) hat das Potenzial, die Kreativwirtschaft tiefgreifend zu transformieren. Diese Technologien, die auf Basis weniger Schlagworte kreative Inhalte wie Texte und Bilder erzeugen können, werfen jedoch komplexe rechtliche Fragen auf, insbesondere im Bereich des Urheberrechts. Die aktuellen Fragestellungen werden von den rechtlichen Implikationen der Nutzung und des Trainings generativer KI bestimmt.
Einer der am stärksten strapazierten Satzanfänge der letzten Jahre lautet wohl: „Die rasanten Entwicklungen im Bereich der künstlichen Intelligenz“ und doch ist er nur zu verständlich, da die Verbreitung dieser Technologie eine außergewöhnliche Dynamik entfaltete. Bereits im Jahr 2020 hatten 95 Prozent der Bevölkerung zumindest von KI gehört [1]. Besonders Werkzeuge aus dem Bereich der generativen KI, wie ChatGPT oder Midjourney, haben zu diesem Bekanntheitsschub beigetragen. Diese Tools können auf Basis weniger Schlagworte Texte oder Bilder erzeugen. Während die Ergebnisse in der Anfangsphase noch als künstlich erkennbar waren, sind sie mittlerweile kaum noch von menschlichen Werken zu unterscheiden. Mit der Verbesserung der Algorithmen haben sowohl die Verbreitung als auch die Anwendungsfelder dieser Technologien zugenommen. In der Kreativwirtschaft ist es inzwischen gängige Praxis, dass beispielsweise die automatische Generierung von Social-Media-Posts in Arbeitsabläufe integriert wird oder der Code von Websites mithilfe generativer KI erstellt wird.
Funktionsweise generativer KI
Um die entsprechend Ergebnisse zu generieren, müssen die jeweiligen künstlichen Intelligenzen zunächst trainiert werden. Ein großes Sprachmodell (Large Language Model, LLM) wird mittels eines Prozesses namens „überwachtes Lernen“ trainiert, bei dem es große Mengen an Textdaten analysiert. Durch diesen Prozess lernt das Modell, Muster und Zusammenhänge in der Sprache zu erkennen. Die Trainingsdaten bestehen aus verschiedenen Textquellen wie Büchern, Artikeln und Webseiten. Während des Trainings werden den Texten mathematische Repräsentationen, sogenannte Vektoren, abgeleitet. Diese Vektoren kodieren die Bedeutung und die Beziehungen zwischen den Wörtern in einem mehrdimensionalen Raum. Wörter mit ähnlichen Bedeutungen weisen ähnliche Vektoren auf und liegen im Vektorraum nahe beieinander [2, 3].
Diese Vektoren sind entscheidend für das Verständnis der semantischen und grammatikalischen Strukturen durch das Modell. Sie ermöglichen es dem LLM, kontextabhängige Bedeutungen zu erfassen und so menschenähnliche Texte zu generieren. Der iterative Anpassungsprozess des Modells während des Trainings zielt darauf ab, die Genauigkeit seiner Vorhersagen zu maximieren und gleichzeitig die Bedeutung und die feinen Nuancen der Sprache zu bewahren. So entsteht ein leistungsfähiges System, das in der Lage ist, auf eine Vielzahl von sprachlichen Eingaben präzise und kontextgerecht zu reagieren.
Dabei erfolgen das Training und die Verwendung von generativer KI jedoch nicht im rechtsfreien Raum. Den Regeln der jeweiligen Rechtsräume sind auch bei dieser recht jungen Technologie Folge zu leisten. Dies gilt sowohl für das Training der KI als auch für die Verwendung der jeweiligen Modelle. Damit stellt sich auch die Frage nach den rechtlichen Implikationen dieser Programme. Hier hat das Urheberrecht – gerade bei generativer, kreativer KI – eine erhebliche Bedeutung.
Urheberrecht – ein Überblick
Das Urheberrecht bezeichnet im deutschen beziehungsweise europäischen Rechtsraum das Recht an einem künstlerischen Werk. Es entsteht mit der Schaffung des Werkes bei der Person, die das Werk geschaffen hat – der Urheberin beziehungsweise dem Urheber.
Gemäß § 2 Urhebergesetz (UrhG) umfasst der Werkbegriff insbesondere Sprachwerke, Musikwerke, bildende Kunst, Lichtbildwerke und Filmwerke. Voraussetzung eines Werkes ist dabei, dass es sich um eine persönliche geistige Schöpfung handelt, die eine gewisse Originalität aufweist und sich vom alltäglichen Schaffen abhebt. Entsprechend ist nicht bereits jeder dahingeschriebene Satz bereits ein urheberrechtlich geschütztes Werk. Das Werk muss eine gewisse „Schöpfungshöhe“ aufweisen [4] Rn. 65.
Das Urheberrecht verleiht dem Urheber das ausschließliche Recht, sein Werk zu vervielfältigen, zu verbreiten, öffentlich wiederzugeben und zu bearbeiten. Diese Rechte sind in den §§ 15 bis 24, Urheberrechtsschutzgesetz (UrhG) detailliert geregelt. Der Urheber kann anderen Personen Nutzungsrechte einräumen, behält aber in der Regel die Kontrolle über die Art und Weise der Nutzung seines Werkes.
Das Urheberrecht im Rahmen des Trainings von KI-Modellen
Für das Training von großen Sprachmodellen (LLMs) und anderen KI-Modellen, die auf ähnlichen Techniken basieren (zum Beispiel Modelle zur Bild- oder Tongenerierung), spielt das Urheberrecht eine entscheidende Rolle, insbesondere bei der Beschaffung der Trainingsdaten. Die Datensätze, die zum Training dieser Modelle benötigt werden, werden häufig durch sogenanntes „Web-Scraping“ zusammengestellt. Dabei handelt es sich um das automatisierte Durchsuchen des Internets nach verwertbaren Daten, die je nach Trainingsziel in verschiedenen Formaten vorliegen können, wie Text, Bild oder anderen.
Die gesammelten Daten werden gespeichert und weiterverarbeitet, um die Modelle zu trainieren. Diese Praxis kann jedoch mit dem Urheberrecht kollidieren, das den Urhebern das ausschließliche Recht zur Vervielfältigung und Bearbeitung ihrer Werke einräumt. Eine automatische Übertragung dieser Rechte erfolgt nicht allein durch die Bereitstellung der Werke im Internet. Ohne eine entsprechende Erlaubnis liegt dem Grunde nach ein Verstoß gegen das Urheberrecht vor. Eine Ausnahme kann jedoch durch § 44b UrhG gegeben sein, der das sogenannte Text- und Data-Mining (TDM) gestattet. TDM umfasst die automatisierte Analyse von digitalen oder digitalisierten Werken zur Gewinnung von Informationen über Muster, Trends und Korrelationen.
Nach § 44b Abs. 2 UrhG ist die Vervielfältigung für TDM zulässig. Ob diese Ausnahme auch die Weiterverarbeitung für das Training von KI-Modellen abdeckt, ist jedoch noch rechtlich ungeklärt [5], [6]. Zudem kann die Erlaubnis zur Nutzung für TDM durch den Rechteinhaber explizit vorbehalten werden. Nach § 44b Abs. 3 UrhG muss dieser Nutzungsvorbehalt bei online zugänglichen Werken in maschinenlesbarer Form, etwa durch Robots.txt-Dateien, kenntlich gemacht werden, welche Webcrawler darüber informieren, dass bestimmte Seiten nicht indexiert werden sollen. Diese Dateien stellen jedoch keine technische Barriere gegen den Zugriff auf die Inhalte dar.
Um sicherzustellen, dass keine Immaterialgüterrechte beim Training von KI-Modellen verletzt werden, sollten daher nur lizenzierte Werke in die Trainingsdatensätze aufgenommen werden. Angesichts der enormen Datenmengen, die für das Training erforderlich sind, stellt dies jedoch eine erhebliche Herausforderung dar.
Das Urheberrecht bei der Verwendung generativer KI
Auf der anderen Seite bestehen Bedenken hinsichtlich des Urheberrechts bei der Verwendung generativer KI. Sind KI-generierte Werke uneingeschränkt verwendbar oder verletzen sie das Urheberrecht anderer? Durch die Struktur der KI-Modelle kann es vorkommen, dass die generierten Ergebnisse den Trainingsdaten stark ähneln, insbesondere, wenn der Trainingsdatensatz sehr klein war oder der Prompt (die Anweisung an das KI-Modell) sehr spezifisch ist. Generell wird jedoch bereits beim Training versucht, ein solches Verhalten des Modells zu verhindern, da eine möglichst hohe Abstraktion der Modelle angestrebt wird und nicht die Wiedergabe eines spezifischen Werkes. Wenn jedoch ein Werk, absichtlich oder unabsichtlich, generiert wird, das einem bereits bestehenden Werk entspricht, kann es bei dessen Verwendung zu Verletzungen des Urheberrechts am ursprünglichen Werk kommen [7].
Eine Ausnahme kann hier die sogenannte „Doppelschöpfung“ darstellen. Eine solche liegt vor, wenn der Inhalt gänzlich ohne die Kenntnis oder den Einfluss des ursprünglichen Werkes entstanden ist. Jedoch ist die Annahme einer Doppelschöpfung an hohe Hürden geknüpft und diese Ausnahme entsprechend restriktiv anzuwenden [5].
Eine weitere Hürde bei der Verwendung von KI-generierten Werken ist deren Schutz. Das europäische Immaterialgüterrecht basiert auf einem anthropozentrischen Bild, welches für das Entstehen eines Urheberrechts regelmäßig menschliches Tätigwerden erfordert. So soll gerade der Ausfluss menschlichen Geistes und menschlicher Kreativität das Werk schützenswert machen. In den stochastischen Vorgängen, durch die Inhalte durch künstliche Intelligenz generiert werden, ist ein solcher menschlicher Einfluss nicht gegeben, weshalb an einem KI-generierten Werk kein Urheberrecht entstehen kann.
Dabei ist es irrelevant, wie viele Versuche, Arbeit oder Kreativität in das Erstellen des Prompts, der den Inhalt hervorgebracht hat, geflossen sind. Das eigentliche Werk wurde rein durch die mathematischen Prozesse des Modells erstellt. Wenn jedoch der Prompt die Anforderungen an ein schützenswertes Werk erfüllt, kann an diesem ein Urheberrecht entstehen. Ähnlich verhält es sich, wenn das erstellte Werk im Anschluss weiterverarbeitet wird. Wenn das neue, durch die Verarbeitung entstandene Werk die Hürden des Urheberrechts nimmt, so kann an diesem ein Urheberrecht entstehen. Beispielsweise könnte eine Collage aus KI-generierten Bildern ein eigenes schutzwürdiges Werk darstellen.
Die Auswirkungen des AI-Acts auf kreative KI
Der kürzlich in Kraft getretene EU AI-Act – Gesetz über künstliche Intelligenz (Verordnung (EU) 2024/1689) – stellt spezifische Anforderungen an Anbieter von KI-Systemen mit allgemeinem Zweck, wie beispielsweise generative Modelle (z. B. Large Language Models). Diese Anforderungen umfassen die verpflichtende Modellevaluierung unter Nutzung standardisierter Protokolle und Instrumente zur Identifizierung und Minderung potenzieller Systemrisiken. Zudem müssen mögliche Risiken, die sich aus der Entwicklung, dem Inverkehrbringen oder der Nutzung dieser Modelle ergeben, auf Unionsebene bewertet und entsprechende Maßnahmen zur Risikoeindämmung implementiert werden.
Anbieter der jeweiligen Modelle sind darüber hinaus verpflichtet, schwerwiegende Vorfälle sowie die getroffenen Abhilfemaßnahmen zu dokumentieren und den zuständigen nationalen Behörden sowie dem Büro für Artificial Intelligence unverzüglich zu melden.
Daneben ist die Gewährleistung eines angemessenen Niveaus an Cybersicherheit für die KI-Modelle sowie deren physische Infrastruktur notwendig. Um die Einhaltung dieser Anforderungen zu dokumentieren, können sich Anbieter auf Verhaltenskodizes oder harmonisierte europäische Normen stützen, bis entsprechende Standards offiziell veröffentlicht werden.
Der AI-Act nimmt damit vor allem die Entwickler von KI-Systemen in Anspruch. Diese müssen für die Sicherheit Ihrer Systeme sogen, sei es auf inhaltlicher wie auf organisatorischer Ebene. Auf die immaterialgüterrechtliche Betrachtung von Training und Verwendung KI generierter Werke nimmt das Gesetz zunächst keinen Einfluss.
Ausblick
Bei der kreativen Arbeit werden sich durch den Einsatz künstlicher Intelligenz zukünftig erhebliche Änderungen ergeben. Wichtig ist jedoch, trotz neuer Möglichkeiten den rechtlichen Rahmen zu beachten. Innerhalb dessen muss vor allem zwischen Rechteinhabern und den Erstellern von KI-Modellen ein Ausgleich gefunden werden, der allen Beteiligten gerecht wird – kreative Arbeit schützt und gleichzeitig neue Technologien ermöglicht.