GEMA vs OpenAI: Volltextveröffentlichung des Urteils und meine Bewertung

Am 11.11.2025 hat das LG München I der Klage der GEMA gegen OpenAI im Wesentlichen stattgegeben. An diesem Tag lag lediglich eine Pressemitteilung des Gerichts vor, die bereits an diesem Tag „heiß diskutiert“ worden ist. Nun wurde das Urteil im Volltext veröffentlicht, so dass man jetzt auch die Gründe, die zur Verurteilung führten, nachlesen kann. Da es hier auf auch juristische Feinheiten ankommt, heute mal ein Blogbeitrag, der etwas mehr an „Juristendeutsch“ enthält als üblich.

Das Gericht bejaht in dem Streitfall zwischen der GEMA und OpenAI weitreichende Unterlassungs- und Schadensersatzansprüche wegen Urheberrechtsverletzungen an Liedtexten. Die Entscheidung ist wegweisend, da sie erstmals die technische Realität einer vom Gericht angeführten Memorisierung urheberrechtlich geschützter Werke im Modell juristisch einordnet.

I. Die Memorisierung als Vervielfältigung im Modell

Das LG München I unterscheidet mehrere Phasen beim Einsatz generativer Sprachmodelle:

Pre-Training

In dieser Phase wird das Modell mit großen Mengen an Texten trainiert. Die Texte werden in Token umgewandelt und in numerische Vektoren transformiert. Das neuronale Netz passt seine Gewichte an, um semantische und syntaktische Zusammenhänge zu lernen. Die Inhalte aus den Trainingsdaten – darunter auch Liedtexte – fließen dabei direkt in die Modellstruktur ein.

Memorisierung

Das Gericht sieht die Memorisierung als Ergebnis der Pre-Training-Phase: Inhalte, die häufig oder stabil in den Trainingsdaten vorkamen, werden so verinnerlicht, dass sie mit hoher Wahrscheinlichkeit bei passenden Prompts reproduziert werden können. Die Inhalte sind somit „im Modell gespeichert“. Das Modell funktioniert in diesen Fällen wie eine Datenbank – Inhalte sind fixiert und jederzeit abrufbar.

Decoding und Ausgabe (Output)

In dieser Phase wird der deterministische Softmax-Output des Modells durch sogenannte Decoding-Strategien (z. B. Sampling, Temperature-Parameter) in menschlich lesbare Texte überführt. Zwar können hier Varianzen auftreten, doch bei memorisierten Inhalten ist der Output laut Gericht meist stabil und konsistent. Die Zufälligkeit betreffe in der Regel nur Einleitung oder Kontext, nicht den memorisierten Kerninhalt.

Das Gericht macht also klar: Bereits in der Pre-Training-Phase erfolgt die urheberrechtlich relevante Nutzung in Form einer Vervielfältigung. Die spätere Ausgabe belege nur, was im Modell zuvor gespeichert wurde.

Das Gericht qualifiziert sodann die Memorisierung urheberrechtlich geschützter Liedtexte in den Parametern der Large Language Models (LLMs) als eine (dann wohl weitere) urheberrechtlich relevante Vervielfältigung im Sinne von § 16 Abs. 1 UrhG:

„Memorisierung liegt vor, wenn sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.“

Die Memorisierung stelle eine körperliche Festlegung des Werks dar, auch wenn die Daten in Form von Wahrscheinlichkeitswerten und Vektoren zerlegt sind. Eine Vervielfältigung gemäß § 16 UrhG erfasse jede körperliche Festlegung eines Werks, die geeignet ist, das Werk den menschlichen Sinnen auf irgendeine Art mittelbar oder unmittelbar wahrnehmbar zu machen.

Die Reproduzierbarkeit der Texte durch einfache Prompts (sog. Regurgitation) beweise, dass die Texte im Modell fixiert und mittelbar wahrnehmbar seien. Der technische Vorgang sei dabei aufgrund der technologieneutralen Auslegung des Vervielfältigungsrechts unerheblich.

II. Abgrenzung zur Text- und Data-Mining-Schranke

Das Gericht verneint eine Rechtfertigung dieser Memorisierung durch die Schrankenbestimmung des § 44b UrhG (Text- und Data-Mining, sog. TDM-Schranke). Hierzu nimmt das Gericht eine strikte Unterscheidung zwischen den verschiedenen Phasen des Trainingsprozesses vor.

1. Reichweite der TDM-Schranke

Die TDM-Schranke deckt nach Auffassung des Gerichts lediglich solche Vervielfältigungen ab, die zur Vorbereitung und Durchführung der Datenanalyse selbst erforderlich sind. Diese erste Phase, das Extrahieren und die Überführung des Materials in einen Trainingskorpus, ist vom Zweck des TDM gedeckt, da hier lediglich nicht-schöpferische Informationen (Muster, Trends, Korrelationen) gewonnen werden.

Die Vorschriften decken erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus in Phase 1 (s.o.), nicht aber weitergehende Vervielfältigungen im Modell in Phase 2. Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar.

2. Memorisierung als Zwecküberschreitung

Die Memorisierung in der zweiten Phase (dem Training) überschreitet den von § 44b Abs. 2 UrhG geforderten Zweck:

„Die Memorisierung der streitgegenständlichen Liedtexte überschreitet hingegen eine solche Auswertung und ist daher kein bloßes Text- und Data-Mining.“

Die Vervielfältigungen im Modell, die zur Memorisierung führen, dienen nicht der weiteren Datenanalyse, sondern manifestieren sich als eine Verwertungshandlung des Werkes selbst, da das Werk in den Modellparametern vollständig übernommen wird. Damit entfällt die Prämisse der TDM-Schranke, dass die Verwertungsinteressen des Urhebers nicht berührt werden. Eine analoge Anwendung der Schranke verbietet sich, da hierdurch die berechtigten Interessen der Rechteinhaber verletzt und der durch die europarechtliche InfoSoc-Richtlinie geforderte hohe Schutzstandard unterlaufen würde.

III. Meine Kritik vor allem an der Auslegung der TDM-Schranke

Meiner Meinung nach legt das Gericht § 44b UrhG in einer Weise zu eng aus, die den technischen Realitäten des KI-Trainings nicht gerecht wird.

Das Gericht nimmt eine künstliche Trennung zwischen der zulässigen Vervielfältigung zur Datenanalyse und der unzulässigen Memorisierung im trainierten Modell vor. Für mich stellt der Vorgang des Trainings eines LLM einen untrennbaren, komplexen Akt des Text- und Data-Mining dar, der in seiner Gesamtheit auf die Extraktion von Mustern und Korrelationen gerichtet ist. Die Memorisierung ist keine eigenständige, beabsichtigte Verwertungshandlung, sondern ein unvermeidlicher oder zumindest schwer vermeidbarer technischer Nebeneffekt des an sich gestatteten TDM-Prozesses.

Die restriktive Qualifizierung der Memorisierung als vom TDM-Zweck nicht gedeckte Vervielfältigung macht die Schrankenbestimmung für die Anwendung auf moderne, generative KI-Modelle praktisch wertlos. Dies konterkariert den eigentlich gewünschten europarechtlichen Zweck, die Entwicklung von KI in der EU zu fördern. Ich halte es für wenig überzeugend, dass der Betreiber die Texte im Modell vervielfältigt habe, um sie später wieder wahrnehmbar zu machen. Der primäre Zweck ist die Generierung neuer Inhalte, nicht die Reproduktion der Inputs. Diese Auslegung droht, die Wirtschaftlichkeit des gesamten LLM-Trainings unter Verwendung urheberrechtlich geschützter Daten zu stark zu beschränken.

Zudem stellt sich die Frage, was mit der Verurteilung überhaupt erreicht wurde:

Das Landgericht München I hat die Beklagten bezüglich der Memorisierung unter anderem zu folgender Unterlassung verurteilt:

Die Beklagten werden verurteilt, es zu unterlassen, die im Tenor näher bezeichneten Werke (die neun Liedtexte) in ihren Large Language Model-Modellen zu vervielfältigen und/oder diese der Öffentlichkeit zugänglich zu machen und/oder auf sonstigem Wege zu verwerten, soweit keine Lizenzierung vorliegt.

Was hat die Klägerseite durch diesen Unterlassungstenor gewonnen?

Der Klägerseite ist durch die Feststellung der Täterhaftung und des grundsätzlichen Schadensersatzanspruchs sicherlich ein wichtiger Erfolg gelungen.

Allerdings wirft die Formulierung des Unterlassungstenors die Frage nach ihrer Reichweite auf.

Die Verurteilung zur Unterlassung der Vervielfältigung zielt auf die Zukunft und soll die Wiederholungsgefahr (die Vervielfältigung von Neuem) verhindern. Die Memorisierung (die Vervielfältigung in das Modell) hat aber bereits stattgefunden.

Verpflichtet dieser Unterlassungstenor die Beklagte überhaupt dazu, ein „Machine Unlearning“ durchzuführen?

Diese Frage ist juristisch strittig. Ein Unterlassungsanspruch richtet sich primär auf die Beendigung der Wiederholungsgefahr. Die Entfernung der memorisierten Werke aus den Modellparametern – das sogenannte „Machine Unlearning“ – ist jedoch eine aktive, technisch aufwendige Handlung. Sie würde dem Beseitigungsanspruch zuzuordnen sein, der von der Klägerseite nach dem Tenor nicht ausdrücklich zugesprochen wurde.

Zwar könnte man argumentieren, dass die Beibehaltung der rechtswidrigen Vervielfältigung (Memorisierung) eine fortdauernde Begehung darstellt, deren Beendigung die Beseitigung implizieren könnte. Die herrschende Meinung neigt jedoch dazu, eine so weitreichende, aktive Eingriffspflicht in das Produkt des Verletzers nur bei einem explizit titulierten Beseitigungsanspruch anzunehmen. Die Beklagten könnten argumentieren, lediglich die erneute Vervielfältigung und die Regurgitation unterbinden zu müssen, nicht jedoch die aufwendige Korrektur des bereits existierenden, trainierten Modells. Ohne einen expliziten Beseitigungstenor bleibt die Verpflichtung zum „Machine Unlearning“ fraglich.


Gericht: LG München I (42. Zivilkammer)

Datum: 11.11.2025

Aktenzeichen: 42 O 14139/24

Fundstelle: GRUR-RS 2025, 30204