Urheberrecht und Künstliche Intelligenz: Erste Berufungsentscheidung zum KI-Training mit urheberrechtlich geschützten Inhalten

Künstliche Intelligenz stellt das Urheberrecht vor neuartige Herausforderungen. Insbesondere das massenhafte Einbeziehen urheberrechtlich geschützter Werke in Trainingsdatensätze wirft die Frage auf, ob und unter welchen Bedingungen dies zulässig ist. Mit der Entscheidung des Hanseatischen Oberlandesgerichts vom 10. Dezember 2025 liegt nun erstmals eine obergerichtliche Berufungsentscheidung zur Nutzung geschützter Inhalte beim KI-Training vor. Zuvor hatte das Landgericht Hamburg im September 2024 als erstes Gericht in Deutschland zu dieser Thematik Stellung bezogen. Das nun ergangene Berufungsurteil bestätigt die Linie der Vorinstanz und konkretisiert die Anwendung der Schrankenregelungen des Urheberrechts im Kontext Künstlicher Intelligenz.

Das Verfahren: Urheber gegen KI-Datensatzanbieter

Im Kern des Rechtsstreits stand die Nutzung einer Fotografie durch einen gemeinnützigen Verein, der einen frei zugänglichen Datensatz mit mehreren Milliarden Bild-Text-Paaren zur Verfügung stellt – ein Projekt, das ausdrücklich dem Training generativer KI-Modelle dient. Der Fotograf sah in der automatisierten Vervielfältigung seiner Fotografie – durch Download von der Website einer Bildagentur – eine Verletzung seiner Urheberrechte. Der Verein verwies auf die urheberrechtlichen Schrankenregelungen, insbesondere das Text- und Data-Mining (§ 44b UrhG) und die Nutzung zu wissenschaftlichen Zwecken (§ 60d UrhG).

Die Entscheidung des Landgerichts Hamburg

Das Landgericht Hamburg hatte die Klage mit Urteil vom 27.09.2024 abgewiesen. Das Gericht sah in der konkreten Nutzung eine zulässige Handlung im Rahmen des Text- und Data-Minings. Zwar sei das Herunterladen eines Bildes grundsätzlich eine urheberrechtlich relevante Vervielfältigung, doch greife hier die Schrankenregelung ein, da die Nutzung auf eine automatisierte Analyse zum Zweck der Informationsgewinnung gerichtet gewesen sei. Der vom Kläger geltend gemachte Nutzungsvorbehalt sei nicht maschinenlesbar gewesen und daher nicht wirksam. Die spätere Nutzung des Datensatzes durch Dritte – etwa KI-Modelle – sei für die urheberrechtliche Bewertung der konkreten Vervielfältigungshandlung nicht entscheidend.

Die Berufungsentscheidung des Hanseatischen Oberlandesgerichts

Mit Urteil vom 10.12.2025 hat das Hanseatische Oberlandesgericht die Entscheidung der Vorinstanz bestätigt und die Berufung zurückgewiesen. Das Gericht stellte klar, dass bereits der Abgleich zwischen Bild und Bildbeschreibung eine automatisierte Analyse im Sinne des § 44b UrhG darstellt. Dabei sei nicht erforderlich, dass ein unmittelbarer Erkenntnisgewinn im wissenschaftlichen Sinne erzielt werde. Auch vorbereitende Maßnahmen für KI-Training, wie der Aufbau eines Datensatzes, fallen unter die Schranke, wenn sie der späteren Analyse dienen. Zudem sei der geltend gemachte Nutzungsvorbehalt nicht in maschinenlesbarer Form erfolgt, was gesetzlich aber zwingend gefordert sei. Die Richter ließen ausdrücklich die Revision zum Bundesgerichtshof zu.

Bedeutung für Urheber und KI-Entwicklung

Diese Entscheidung hat grundsätzliche Bedeutung sowohl für Urheber als auch für Entwickler und Betreiber von KI-Systemen. Sie zeigt, dass urheberrechtlich geschützte Inhalte unter bestimmten Bedingungen – vor allem im Rahmen der Schrankenregelungen – ohne Zustimmung der Rechteinhaber für KI-bezogene Analyseprozesse genutzt werden dürfen. Urheber, die dem widersprechen wollen, müssen ihre Nutzungsvorbehalte künftig in technisch eindeutiger und maschinenlesbarer Weise erklären. Zugleich macht das Urteil deutlich, dass auch nicht-kommerzielle Akteure wie Vereine urheberrechtliche Schranken nutzen können, sofern ihr Zweck mit Forschung oder Analyseprozessen vereinbar ist.

Einordnung im Kontext weiterer Rechtsprechung

Die Entscheidung ist auch deshalb bemerkenswert, weil sie das erste erstinstanzliche Urteil zu diesem Thema – ebenfalls vom LG Hamburg – bestätigt und damit für größere Rechtssicherheit sorgt. Küerzlich hat das Landgericht München I im Verfahren GEMA gegen OpenAI über die urheberrechtliche Zulässigkeit von KI-Training mit Musikwerken entschieden. Über dieses zweite wichtige Urteil zum Thema „KI und Urheberrecht“ haben wir bereits in unserem Blogbeitrag vom 14.11.2025 berichtet. Beide Verfahren markieren den Beginn einer neuen urheberrechtlichen Auslegungspraxis in Zeiten generativer Künstlicher Intelligenz.

Ausblick

Das Thema bleibt dynamisch: Die Revision zum Bundesgerichtshof ist zugelassen, womit eine höchstrichterliche Klärung in greifbare Nähe rückt. Die Entscheidungen aus Hamburg und München zeigen jedoch bereits, dass deutsche Gerichte bereit sind, die geltenden urheberrechtlichen Schranken auch auf neuartige technische Konstellationen wie KI-Training anzuwenden. Dabei liegt der Fokus zunehmend auf der Frage, ob ein Nutzungsvorbehalt maschinenlesbar und rechtlich wirksam erklärt wurde – ein Aspekt, der künftig sowohl Urheber als auch Plattformbetreiber vor technische und juristische Herausforderungen stellt.


Gericht: Hanseatisches Oberlandesgericht
Datum: 10.12.2025
Aktenzeichen: 5 U 104/24 (Vorinstanz: LG Hamburg, 310 O 227/23)

GEMA vs OpenAI: Volltextveröffentlichung des Urteils und meine Bewertung

Am 11.11.2025 hat das LG München I der Klage der GEMA gegen OpenAI im Wesentlichen stattgegeben. An diesem Tag lag lediglich eine Pressemitteilung des Gerichts vor, die bereits an diesem Tag „heiß diskutiert“ worden ist. Nun wurde das Urteil im Volltext veröffentlicht, so dass man jetzt auch die Gründe, die zur Verurteilung führten, nachlesen kann. Da es hier auf auch juristische Feinheiten ankommt, heute mal ein Blogbeitrag, der etwas mehr an „Juristendeutsch“ enthält als üblich.

Das Gericht bejaht in dem Streitfall zwischen der GEMA und OpenAI weitreichende Unterlassungs- und Schadensersatzansprüche wegen Urheberrechtsverletzungen an Liedtexten. Die Entscheidung ist wegweisend, da sie erstmals die technische Realität einer vom Gericht angeführten Memorisierung urheberrechtlich geschützter Werke im Modell juristisch einordnet.

I. Die Memorisierung als Vervielfältigung im Modell

Das LG München I unterscheidet mehrere Phasen beim Einsatz generativer Sprachmodelle:

Pre-Training

In dieser Phase wird das Modell mit großen Mengen an Texten trainiert. Die Texte werden in Token umgewandelt und in numerische Vektoren transformiert. Das neuronale Netz passt seine Gewichte an, um semantische und syntaktische Zusammenhänge zu lernen. Die Inhalte aus den Trainingsdaten – darunter auch Liedtexte – fließen dabei direkt in die Modellstruktur ein.

Memorisierung

Das Gericht sieht die Memorisierung als Ergebnis der Pre-Training-Phase: Inhalte, die häufig oder stabil in den Trainingsdaten vorkamen, werden so verinnerlicht, dass sie mit hoher Wahrscheinlichkeit bei passenden Prompts reproduziert werden können. Die Inhalte sind somit „im Modell gespeichert“. Das Modell funktioniert in diesen Fällen wie eine Datenbank – Inhalte sind fixiert und jederzeit abrufbar.

Decoding und Ausgabe (Output)

In dieser Phase wird der deterministische Softmax-Output des Modells durch sogenannte Decoding-Strategien (z. B. Sampling, Temperature-Parameter) in menschlich lesbare Texte überführt. Zwar können hier Varianzen auftreten, doch bei memorisierten Inhalten ist der Output laut Gericht meist stabil und konsistent. Die Zufälligkeit betreffe in der Regel nur Einleitung oder Kontext, nicht den memorisierten Kerninhalt.

Das Gericht macht also klar: Bereits in der Pre-Training-Phase erfolgt die urheberrechtlich relevante Nutzung in Form einer Vervielfältigung. Die spätere Ausgabe belege nur, was im Modell zuvor gespeichert wurde.

Das Gericht qualifiziert sodann die Memorisierung urheberrechtlich geschützter Liedtexte in den Parametern der Large Language Models (LLMs) als eine (dann wohl weitere) urheberrechtlich relevante Vervielfältigung im Sinne von § 16 Abs. 1 UrhG:

„Memorisierung liegt vor, wenn sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.“

Die Memorisierung stelle eine körperliche Festlegung des Werks dar, auch wenn die Daten in Form von Wahrscheinlichkeitswerten und Vektoren zerlegt sind. Eine Vervielfältigung gemäß § 16 UrhG erfasse jede körperliche Festlegung eines Werks, die geeignet ist, das Werk den menschlichen Sinnen auf irgendeine Art mittelbar oder unmittelbar wahrnehmbar zu machen.

Die Reproduzierbarkeit der Texte durch einfache Prompts (sog. Regurgitation) beweise, dass die Texte im Modell fixiert und mittelbar wahrnehmbar seien. Der technische Vorgang sei dabei aufgrund der technologieneutralen Auslegung des Vervielfältigungsrechts unerheblich.

II. Abgrenzung zur Text- und Data-Mining-Schranke

Das Gericht verneint eine Rechtfertigung dieser Memorisierung durch die Schrankenbestimmung des § 44b UrhG (Text- und Data-Mining, sog. TDM-Schranke). Hierzu nimmt das Gericht eine strikte Unterscheidung zwischen den verschiedenen Phasen des Trainingsprozesses vor.

1. Reichweite der TDM-Schranke

Die TDM-Schranke deckt nach Auffassung des Gerichts lediglich solche Vervielfältigungen ab, die zur Vorbereitung und Durchführung der Datenanalyse selbst erforderlich sind. Diese erste Phase, das Extrahieren und die Überführung des Materials in einen Trainingskorpus, ist vom Zweck des TDM gedeckt, da hier lediglich nicht-schöpferische Informationen (Muster, Trends, Korrelationen) gewonnen werden.

Die Vorschriften decken erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus in Phase 1 (s.o.), nicht aber weitergehende Vervielfältigungen im Modell in Phase 2. Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar.

2. Memorisierung als Zwecküberschreitung

Die Memorisierung in der zweiten Phase (dem Training) überschreitet den von § 44b Abs. 2 UrhG geforderten Zweck:

„Die Memorisierung der streitgegenständlichen Liedtexte überschreitet hingegen eine solche Auswertung und ist daher kein bloßes Text- und Data-Mining.“

Die Vervielfältigungen im Modell, die zur Memorisierung führen, dienen nicht der weiteren Datenanalyse, sondern manifestieren sich als eine Verwertungshandlung des Werkes selbst, da das Werk in den Modellparametern vollständig übernommen wird. Damit entfällt die Prämisse der TDM-Schranke, dass die Verwertungsinteressen des Urhebers nicht berührt werden. Eine analoge Anwendung der Schranke verbietet sich, da hierdurch die berechtigten Interessen der Rechteinhaber verletzt und der durch die europarechtliche InfoSoc-Richtlinie geforderte hohe Schutzstandard unterlaufen würde.

III. Meine Kritik vor allem an der Auslegung der TDM-Schranke

Meiner Meinung nach legt das Gericht § 44b UrhG in einer Weise zu eng aus, die den technischen Realitäten des KI-Trainings nicht gerecht wird.

Das Gericht nimmt eine künstliche Trennung zwischen der zulässigen Vervielfältigung zur Datenanalyse und der unzulässigen Memorisierung im trainierten Modell vor. Für mich stellt der Vorgang des Trainings eines LLM einen untrennbaren, komplexen Akt des Text- und Data-Mining dar, der in seiner Gesamtheit auf die Extraktion von Mustern und Korrelationen gerichtet ist. Die Memorisierung ist keine eigenständige, beabsichtigte Verwertungshandlung, sondern ein unvermeidlicher oder zumindest schwer vermeidbarer technischer Nebeneffekt des an sich gestatteten TDM-Prozesses.

Die restriktive Qualifizierung der Memorisierung als vom TDM-Zweck nicht gedeckte Vervielfältigung macht die Schrankenbestimmung für die Anwendung auf moderne, generative KI-Modelle praktisch wertlos. Dies konterkariert den eigentlich gewünschten europarechtlichen Zweck, die Entwicklung von KI in der EU zu fördern. Ich halte es für wenig überzeugend, dass der Betreiber die Texte im Modell vervielfältigt habe, um sie später wieder wahrnehmbar zu machen. Der primäre Zweck ist die Generierung neuer Inhalte, nicht die Reproduktion der Inputs. Diese Auslegung droht, die Wirtschaftlichkeit des gesamten LLM-Trainings unter Verwendung urheberrechtlich geschützter Daten zu stark zu beschränken.

Zudem stellt sich die Frage, was mit der Verurteilung überhaupt erreicht wurde:

Das Landgericht München I hat die Beklagten bezüglich der Memorisierung unter anderem zu folgender Unterlassung verurteilt:

Die Beklagten werden verurteilt, es zu unterlassen, die im Tenor näher bezeichneten Werke (die neun Liedtexte) in ihren Large Language Model-Modellen zu vervielfältigen und/oder diese der Öffentlichkeit zugänglich zu machen und/oder auf sonstigem Wege zu verwerten, soweit keine Lizenzierung vorliegt.

Was hat die Klägerseite durch diesen Unterlassungstenor gewonnen?

Der Klägerseite ist durch die Feststellung der Täterhaftung und des grundsätzlichen Schadensersatzanspruchs sicherlich ein wichtiger Erfolg gelungen.

Allerdings wirft die Formulierung des Unterlassungstenors die Frage nach ihrer Reichweite auf.

Die Verurteilung zur Unterlassung der Vervielfältigung zielt auf die Zukunft und soll die Wiederholungsgefahr (die Vervielfältigung von Neuem) verhindern. Die Memorisierung (die Vervielfältigung in das Modell) hat aber bereits stattgefunden.

Verpflichtet dieser Unterlassungstenor die Beklagte überhaupt dazu, ein „Machine Unlearning“ durchzuführen?

Diese Frage ist juristisch strittig. Ein Unterlassungsanspruch richtet sich primär auf die Beendigung der Wiederholungsgefahr. Die Entfernung der memorisierten Werke aus den Modellparametern – das sogenannte „Machine Unlearning“ – ist jedoch eine aktive, technisch aufwendige Handlung. Sie würde dem Beseitigungsanspruch zuzuordnen sein, der von der Klägerseite nach dem Tenor nicht ausdrücklich zugesprochen wurde.

Zwar könnte man argumentieren, dass die Beibehaltung der rechtswidrigen Vervielfältigung (Memorisierung) eine fortdauernde Begehung darstellt, deren Beendigung die Beseitigung implizieren könnte. Die herrschende Meinung neigt jedoch dazu, eine so weitreichende, aktive Eingriffspflicht in das Produkt des Verletzers nur bei einem explizit titulierten Beseitigungsanspruch anzunehmen. Die Beklagten könnten argumentieren, lediglich die erneute Vervielfältigung und die Regurgitation unterbinden zu müssen, nicht jedoch die aufwendige Korrektur des bereits existierenden, trainierten Modells. Ohne einen expliziten Beseitigungstenor bleibt die Verpflichtung zum „Machine Unlearning“ fraglich.


Gericht: LG München I (42. Zivilkammer)

Datum: 11.11.2025

Aktenzeichen: 42 O 14139/24

Fundstelle: GRUR-RS 2025, 30204