GEMA vs OpenAI: Volltextveröffentlichung des Urteils und meine Bewertung

Am 11.11.2025 hat das LG München I der Klage der GEMA gegen OpenAI im Wesentlichen stattgegeben. An diesem Tag lag lediglich eine Pressemitteilung des Gerichts vor, die bereits an diesem Tag „heiß diskutiert“ worden ist. Nun wurde das Urteil im Volltext veröffentlicht, so dass man jetzt auch die Gründe, die zur Verurteilung führten, nachlesen kann. Da es hier auf auch juristische Feinheiten ankommt, heute mal ein Blogbeitrag, der etwas mehr an „Juristendeutsch“ enthält als üblich.

Das Gericht bejaht in dem Streitfall zwischen der GEMA und OpenAI weitreichende Unterlassungs- und Schadensersatzansprüche wegen Urheberrechtsverletzungen an Liedtexten. Die Entscheidung ist wegweisend, da sie erstmals die technische Realität einer vom Gericht angeführten Memorisierung urheberrechtlich geschützter Werke im Modell juristisch einordnet.

I. Die Memorisierung als Vervielfältigung im Modell

Das LG München I unterscheidet mehrere Phasen beim Einsatz generativer Sprachmodelle:

Pre-Training

In dieser Phase wird das Modell mit großen Mengen an Texten trainiert. Die Texte werden in Token umgewandelt und in numerische Vektoren transformiert. Das neuronale Netz passt seine Gewichte an, um semantische und syntaktische Zusammenhänge zu lernen. Die Inhalte aus den Trainingsdaten – darunter auch Liedtexte – fließen dabei direkt in die Modellstruktur ein.

Memorisierung

Das Gericht sieht die Memorisierung als Ergebnis der Pre-Training-Phase: Inhalte, die häufig oder stabil in den Trainingsdaten vorkamen, werden so verinnerlicht, dass sie mit hoher Wahrscheinlichkeit bei passenden Prompts reproduziert werden können. Die Inhalte sind somit „im Modell gespeichert“. Das Modell funktioniert in diesen Fällen wie eine Datenbank – Inhalte sind fixiert und jederzeit abrufbar.

Decoding und Ausgabe (Output)

In dieser Phase wird der deterministische Softmax-Output des Modells durch sogenannte Decoding-Strategien (z. B. Sampling, Temperature-Parameter) in menschlich lesbare Texte überführt. Zwar können hier Varianzen auftreten, doch bei memorisierten Inhalten ist der Output laut Gericht meist stabil und konsistent. Die Zufälligkeit betreffe in der Regel nur Einleitung oder Kontext, nicht den memorisierten Kerninhalt.

Das Gericht macht also klar: Bereits in der Pre-Training-Phase erfolgt die urheberrechtlich relevante Nutzung in Form einer Vervielfältigung. Die spätere Ausgabe belege nur, was im Modell zuvor gespeichert wurde.

Das Gericht qualifiziert sodann die Memorisierung urheberrechtlich geschützter Liedtexte in den Parametern der Large Language Models (LLMs) als eine (dann wohl weitere) urheberrechtlich relevante Vervielfältigung im Sinne von § 16 Abs. 1 UrhG:

„Memorisierung liegt vor, wenn sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten findet.“

Die Memorisierung stelle eine körperliche Festlegung des Werks dar, auch wenn die Daten in Form von Wahrscheinlichkeitswerten und Vektoren zerlegt sind. Eine Vervielfältigung gemäß § 16 UrhG erfasse jede körperliche Festlegung eines Werks, die geeignet ist, das Werk den menschlichen Sinnen auf irgendeine Art mittelbar oder unmittelbar wahrnehmbar zu machen.

Die Reproduzierbarkeit der Texte durch einfache Prompts (sog. Regurgitation) beweise, dass die Texte im Modell fixiert und mittelbar wahrnehmbar seien. Der technische Vorgang sei dabei aufgrund der technologieneutralen Auslegung des Vervielfältigungsrechts unerheblich.

II. Abgrenzung zur Text- und Data-Mining-Schranke

Das Gericht verneint eine Rechtfertigung dieser Memorisierung durch die Schrankenbestimmung des § 44b UrhG (Text- und Data-Mining, sog. TDM-Schranke). Hierzu nimmt das Gericht eine strikte Unterscheidung zwischen den verschiedenen Phasen des Trainingsprozesses vor.

1. Reichweite der TDM-Schranke

Die TDM-Schranke deckt nach Auffassung des Gerichts lediglich solche Vervielfältigungen ab, die zur Vorbereitung und Durchführung der Datenanalyse selbst erforderlich sind. Diese erste Phase, das Extrahieren und die Überführung des Materials in einen Trainingskorpus, ist vom Zweck des TDM gedeckt, da hier lediglich nicht-schöpferische Informationen (Muster, Trends, Korrelationen) gewonnen werden.

Die Vorschriften decken erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus in Phase 1 (s.o.), nicht aber weitergehende Vervielfältigungen im Modell in Phase 2. Werden wie vorliegend beim Training in Phase 2 nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stellt dies kein Text und Data Mining dar.

2. Memorisierung als Zwecküberschreitung

Die Memorisierung in der zweiten Phase (dem Training) überschreitet den von § 44b Abs. 2 UrhG geforderten Zweck:

„Die Memorisierung der streitgegenständlichen Liedtexte überschreitet hingegen eine solche Auswertung und ist daher kein bloßes Text- und Data-Mining.“

Die Vervielfältigungen im Modell, die zur Memorisierung führen, dienen nicht der weiteren Datenanalyse, sondern manifestieren sich als eine Verwertungshandlung des Werkes selbst, da das Werk in den Modellparametern vollständig übernommen wird. Damit entfällt die Prämisse der TDM-Schranke, dass die Verwertungsinteressen des Urhebers nicht berührt werden. Eine analoge Anwendung der Schranke verbietet sich, da hierdurch die berechtigten Interessen der Rechteinhaber verletzt und der durch die europarechtliche InfoSoc-Richtlinie geforderte hohe Schutzstandard unterlaufen würde.

III. Meine Kritik vor allem an der Auslegung der TDM-Schranke

Meiner Meinung nach legt das Gericht § 44b UrhG in einer Weise zu eng aus, die den technischen Realitäten des KI-Trainings nicht gerecht wird.

Das Gericht nimmt eine künstliche Trennung zwischen der zulässigen Vervielfältigung zur Datenanalyse und der unzulässigen Memorisierung im trainierten Modell vor. Für mich stellt der Vorgang des Trainings eines LLM einen untrennbaren, komplexen Akt des Text- und Data-Mining dar, der in seiner Gesamtheit auf die Extraktion von Mustern und Korrelationen gerichtet ist. Die Memorisierung ist keine eigenständige, beabsichtigte Verwertungshandlung, sondern ein unvermeidlicher oder zumindest schwer vermeidbarer technischer Nebeneffekt des an sich gestatteten TDM-Prozesses.

Die restriktive Qualifizierung der Memorisierung als vom TDM-Zweck nicht gedeckte Vervielfältigung macht die Schrankenbestimmung für die Anwendung auf moderne, generative KI-Modelle praktisch wertlos. Dies konterkariert den eigentlich gewünschten europarechtlichen Zweck, die Entwicklung von KI in der EU zu fördern. Ich halte es für wenig überzeugend, dass der Betreiber die Texte im Modell vervielfältigt habe, um sie später wieder wahrnehmbar zu machen. Der primäre Zweck ist die Generierung neuer Inhalte, nicht die Reproduktion der Inputs. Diese Auslegung droht, die Wirtschaftlichkeit des gesamten LLM-Trainings unter Verwendung urheberrechtlich geschützter Daten zu stark zu beschränken.

Zudem stellt sich die Frage, was mit der Verurteilung überhaupt erreicht wurde:

Das Landgericht München I hat die Beklagten bezüglich der Memorisierung unter anderem zu folgender Unterlassung verurteilt:

Die Beklagten werden verurteilt, es zu unterlassen, die im Tenor näher bezeichneten Werke (die neun Liedtexte) in ihren Large Language Model-Modellen zu vervielfältigen und/oder diese der Öffentlichkeit zugänglich zu machen und/oder auf sonstigem Wege zu verwerten, soweit keine Lizenzierung vorliegt.

Was hat die Klägerseite durch diesen Unterlassungstenor gewonnen?

Der Klägerseite ist durch die Feststellung der Täterhaftung und des grundsätzlichen Schadensersatzanspruchs sicherlich ein wichtiger Erfolg gelungen.

Allerdings wirft die Formulierung des Unterlassungstenors die Frage nach ihrer Reichweite auf.

Die Verurteilung zur Unterlassung der Vervielfältigung zielt auf die Zukunft und soll die Wiederholungsgefahr (die Vervielfältigung von Neuem) verhindern. Die Memorisierung (die Vervielfältigung in das Modell) hat aber bereits stattgefunden.

Verpflichtet dieser Unterlassungstenor die Beklagte überhaupt dazu, ein „Machine Unlearning“ durchzuführen?

Diese Frage ist juristisch strittig. Ein Unterlassungsanspruch richtet sich primär auf die Beendigung der Wiederholungsgefahr. Die Entfernung der memorisierten Werke aus den Modellparametern – das sogenannte „Machine Unlearning“ – ist jedoch eine aktive, technisch aufwendige Handlung. Sie würde dem Beseitigungsanspruch zuzuordnen sein, der von der Klägerseite nach dem Tenor nicht ausdrücklich zugesprochen wurde.

Zwar könnte man argumentieren, dass die Beibehaltung der rechtswidrigen Vervielfältigung (Memorisierung) eine fortdauernde Begehung darstellt, deren Beendigung die Beseitigung implizieren könnte. Die herrschende Meinung neigt jedoch dazu, eine so weitreichende, aktive Eingriffspflicht in das Produkt des Verletzers nur bei einem explizit titulierten Beseitigungsanspruch anzunehmen. Die Beklagten könnten argumentieren, lediglich die erneute Vervielfältigung und die Regurgitation unterbinden zu müssen, nicht jedoch die aufwendige Korrektur des bereits existierenden, trainierten Modells. Ohne einen expliziten Beseitigungstenor bleibt die Verpflichtung zum „Machine Unlearning“ fraglich.


Gericht: LG München I (42. Zivilkammer)

Datum: 11.11.2025

Aktenzeichen: 42 O 14139/24

Fundstelle: GRUR-RS 2025, 30204

Urteil GEMA gegen Open AI

Die auf das Urheberrecht spezialisierte 42. Zivilkammer des Landgerichts München I hat mit Urteil vom heutigen Tag den von der GEMA gegen zwei Unternehmen der Unternehmensgruppe Open AI geltend gemachten Ansprüchen auf Unterlassungs-, Auskunfts- und Schadensersatz im Wesentlichen stattgegeben (Az. 42 O 14139/24).

Soweit die Klägerin darüber hinaus Ansprüche auf Grund einer Verletzung des allgemeinen Persönlichkeitsrechts wegen fehlerhafter Zuschreibung veränderter Liedtexte geltend gemacht hat, hat die Kammer die Klage abgewiesen.

Das Urteil betrifft die Liedtexte neun bekannter deutscher Urheberinnen und Urheber (darunter „Atemlos“ von Kristina Bach oder „Wie schön, dass du geboren bist“ von Rolf Zuckowski).

Die Klägerin ist eine Verwertungsgesellschaft und hat die Ansprüche als solche geltend gemacht. Zur Begründung hatte sie vorgetragen, die Liedtexte seien in den Sprachmodellen der Beklagten memorisiert und würden bei Nutzung des Chatbots auf einfache Anfragen der Nutzer als Antworten (Outputs) in weiten Teilen originalgetreu ausgegeben.

Die Beklagten sind Betreiber von Sprachmodellen und darauf basierender Chatbots. Sie hatten gegen die erhobenen Ansprüche eingewandt, ihre Sprachmodelle speicherten oder kopierten keine spezifischen Trainingsdaten, sondern reflektierten in ihren Parametern, was sie basierend auf dem gesamten Trainingsdatensatz erlernt hätten. Da die Outputs nur als Folge von Eingaben von Nutzern (Prompts) generiert werden würden, seien nicht die Beklagten, sondern der jeweilige Nutzer als Hersteller des Outputs für diese verantwortlich. Ohnehin seien eventuelle Rechtseingriffe von den Schranken des Urheberrechts, insbesondere der Schranke für das sogenannten Text- und Data-Mining gedeckt.

Nach der Entscheidung der erkennenden Kammer stehen der Klägerin die geltend gemachten Ansprüche sowohl aufgrund der gegebenen Vervielfältigung der Texte in den Sprachmodellen als auch durch ihre Wiedergabe in den Outputs zu.

Sowohl durch die Memorisierung in den Sprachmodellen als auch durch die Wiedergabe der Liedtexte in den Outputs des Chatbot lägen Eingriffe in die urheberrechtlichen Verwertungsrechte vor. Diese seien nicht durch Schrankenbestimmungen, insbesondere die Schranke für das Text und Data Mining gedeckt.

Im Einzelnen:

Nach Überzeugung der Kammer seien die streitgegenständlichen Liedtexte reproduzierbar in den Sprachmodellen 4 und 4o der Beklagten enthalten. Aus der informationstechnischen Forschung sei bekannt, dass Trainingsdaten in Sprachmodellen enthalten sein können und sich als Outputs extrahieren lassen. Dies werde als Memorisierung bezeichnet. Eine solche liege vor, wenn die Sprachmodelle beim Training dem Trainingsdatensatz nicht nur Informationen entnähmen, sondern sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten finde. Eine solche Memorisierung sei durch einen Abgleich der Liedtexte, die in den Trainingsdaten enthalten waren, mit den Wiedergaben in den Outputs festgestellt. Angesichts der Komplexität und Länge der Liedtexte sei der Zufall als Ursache für die Wiedergabe der Liedtexte ausgeschlossen.

Durch die Memorisierung sei eine Verkörperung als Voraussetzung der urheberrechtlichen Vervielfältigung der streitgegenständlichen Liedtexte durch Daten in den spezifizierten Parametern des Modells gegeben. Die streitgegenständlichen Liedtexte seien reproduzierbar in den Modellen festgelegt. Gemäß Art. 2 InfoSoc-RL liege eine Vervielfältigung „auf jede Art und Weise und in jeder Form“ vor. Die Festlegung in bloßen Wahrscheinlichkeitswerten sei hierbei unerheblich. Neue Technologien wie Sprachmodelle wären vom Vervielfältigungsrecht nach Art. 2 InfoSoc-RL und § 16 UrhG erfasst. Nach der Rechtsprechung des Unionsgerichtshofes sei für die Vervielfältigung ausreichend eine mittelbare Wahrnehmbarkeit, die gegeben sei, wenn das Werk unter Einsatz technischer Hilfsmittel wahrgenommen werden könne.

Diese Vervielfältigung in den Modellen sei weder durch die Schrankenbestimmungen des Text und Data Mining des § 44b UrhG noch durch § 57 UrhG als unwesentliches Beiwerk gedeckt.

Zwar unterfielen Sprachmodelle grundsätzlich dem Anwendungsbereich der Text und Data Mining Schranken. Die Vorschriften deckten erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus für das Training, wie etwa die Vervielfältigung eines Werks durch seine Überführung in ein anderes (digitales) Format oder Speicherungen im Arbeitsspeicher. Hintergrund hierfür sei der Gedanke, dass diese Vervielfältigungen lediglich zu nachfolgenden Analysezwecken erstellt würden und damit die Verwertungsinteressen des Urhebers am Werk nicht beeinträchtigten. Da diese für das Text und Data Mining rein vorbereitenden Handlungen kein Verwertungsinteresse berührten, sehe das Gesetz keine Vergütungspflicht gegenüber dem Urheber vor.

Würden beim Training – wie hier – nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stelle dies nach Auffassung der Kammer kein Text und Data Mining dar. Die Prämisse des Text und Data Mining und der diesbezüglichen Schrankenbestimmungen, dass durch die automatisierte Auswertung von bloßen Informationen selbst keine Verwertungsinteressen berührt sind, greife in dieser Konstellation nicht. Im Gegenteil, durch die gegebenen Vervielfältigungen im Modell werde in das Verwertungsrecht der Rechteinhaber eingegriffen.

Eine andere, mutmaßlich technik- und innovationsfreundliche Auslegung, die ebenfalls Vervielfältigungen im Modell von der Schranke als gedeckt ansehen wollte, verbiete sich angesichts des klaren Wortlauts der Bestimmung. Auch eine analoge Anwendung komme nicht in Betracht. Selbst wenn man eine planwidrige Regelungslücke annehmen wollte, weil dem Gesetzgeber die Memorisierung und eine damit einhergehende dauerhafte urheberrechtlich relevante Vervielfältigung in den Modellen nicht bewusst gewesen sein sollte, mangele es an einer vergleichbaren Interessenlage. Die Schrankenregelung normiere mit der Zulässigkeit vorbereitender Vervielfältigungshandlungen beim Text und Data Mining einen Sachverhalt, bei dem die Verwertungsinteressen der Urheber nicht gefährdet seien, weil bloße Informationen extrahiert und das Werk als solches gerade nicht vervielfältigt werde. Bei Vervielfältigungen im Modell werde die Werkverwertung hingegen nachhaltig beeinträchtigt und die berechtigten Interessen der Rechteinhaber hierdurch verletzt. Die Urheber und Rechteinhaber würden durch eine analoge Anwendung der Schrankenbestimmung, die keine Vergütung für die Verwertung vorsieht, somit schutzlos gestellt. Das Risiko der Memorisierung stamme allein aus der Sphäre der Beklagten. Bei einer Analogie der Schranke würde ausschließlich der verletzte Rechteinhaber dieses Risiko tragen.

Mangels Vorliegens eines Hauptwerks stellten die Vervielfältigungen der streitgegenständlichen Liedtexte kein unzulässiges Beiwerk nach § 57 UrhG dar. Entgegen der Ansicht der Beklagten seien die Liedtexte nicht neben dem gesamten Trainingsdatensatz als nebensächlich und verzichtbar anzusehen. Hierfür wäre erforderlich, dass es sich bei dem gesamten Trainigsdatensatz ebenfalls um ein urheberrechtlich geschütztes Werk handele.

Der Eingriff der Beklagten in die Verwertungsrechte der Klägerin sei auch nicht durch eine Einwilligung der Rechteinhaber gerechtfertigt, da das Training von Modellen nicht als eine übliche und erwartbare Nutzungsart zu werten sei, mit der der Rechteinhaber rechnen müsse.

Auch durch Wiedergabe der Liedtexte in den Outputs des Chatbots hätten die Beklagten nach der Entscheidung der Kammer unberechtigt die streitgegenständlichen Liedtexte vervielfältigt und öffentlich zugänglich gemacht. In den Outputs wären die originellen Elemente der Liedtexte stets wiedererkennbar.

Hierfür seien die Beklagten und nicht die Nutzer verantwortlich. Die Outputs seien durch einfach gehaltene Prompts generiert worden. Die Beklagten betrieben die Sprachmodelle, für die die Liedtexte als Trainingsdaten ausgewählt und mit denen sie trainiert worden sind. Sie seien für die Architektur der Modelle und die Memorisierung der Trainingsdaten verantwortlich. Damit hätten die von den Beklagten betriebenen Sprachmodelle die ausgegebenen Outputs maßgeblich beeinflusst, der konkrete Inhalt der Outputs werde von den Sprachmodellen generiert.

Der Eingriff in die Verwertungsrechte durch die Outputs sei ebenfalls nicht durch eine Schrankenbestimmung gedeckt.

Das Urteil ist nicht rechtskräftig.

Zum Hintergrund:

Normen:

Art. 2, 3 InfoSoc-RL, Art. 4 DSM-RL

Pressemitteilung des LG München I vom 11.11.25

US-Urteil zu Anthropic und urheberrechtlich geschützten Büchern – Was bedeutet das für Deutschland?

Die Entwicklung Künstlicher Intelligenz (KI) erfordert enorme Datenmengen – oft in Form urheberrechtlich geschützter Texte. Doch was darf verwendet werden? Wann ist eine Nutzung rechtlich zulässig? Ein aktuelles Urteil aus den USA gibt darauf teils überraschende Antworten – mit wichtigen Implikationen für den deutschen Rechtsraum.

Der Fall: Anthropic und das KI-Training mit Millionen Büchern

Das US-Unternehmen Anthropic, Betreiber des LLM-Systems „Claude“, hatte Millionen Bücher zum Training seines Sprachmodells genutzt – teils aus legalen, teils aus illegalen Quellen. Drei Autoren klagten wegen Urheberrechtsverletzung. Das zuständige Bundesgericht (Northern District of California, Urteil vom 23.06.2025 – Az. C 24-05417 WHA) entschied differenziert:

  • Erlaubt: Training mit rechtmäßig gekauften und digitalisierten Büchern – die Nutzung sei „transformativ“ und falle unter „Fair Use“.
  • Erlaubt: Digitalisierung von Printbüchern zur internen Nutzung – als zulässiger Formatwechsel.
  • Nicht erlaubt: Aufbau einer digitalen Bibliothek mit Pirateriekopien – hierfür gebe es keine rechtliche Grundlage.

Fair Use – die US-Schranke im Überblick

Das US-Recht kennt eine offene Schranke namens „Fair Use“. Ob eine Nutzung erlaubt ist, wird anhand dieser vier Kriterien bewertet:

  1. Zweck der Nutzung (kommerziell oder gemeinnützig; transformativ?)
  2. Art des Werkes (Sachbuch oder Fiktion?)
  3. Umfang der Nutzung
  4. Auswirkungen auf den Marktwert des Originals

Diese Bewertung erfolgt stets im Einzelfall und lässt dem Gerichtsspielraum – das unterscheidet das US-System deutlich vom deutschen.

Und wie ist die Rechtslage in Deutschland?

Das deutsche Urheberrecht enthält keine offene Fair-Use-Klausel, sondern streng definierte gesetzliche Ausnahmen:

§ 44a UrhG – Technisch bedingte Vervielfältigungen

Erlaubt sind nur flüchtige Kopien, etwa beim Streaming oder Caching. Gezielte Speicherung zur Analyse (z. B. für KI) ist davon nicht erfasst – das hat zuletzt auch das LG Hamburg (Urt. v. 27.09.2024 – 310 O 227/23) bestätigt.

§ 60d UrhG – Data Mining für wissenschaftliche Zwecke

Diese Vorschrift erlaubt Text- und Data-Mining – jedoch ausschließlich für nicht-kommerzielle Forschungseinrichtungen. Unternehmen können sich hierauf nicht berufen.

§ 44b UrhG – Kommerzielles Data Mining mit Opt-Out-Möglichkeit

Erlaubt automatisiertes Auslesen (TDM) durch Unternehmen – sofern der Rechteinhaber dem nicht widersprochen hat (z. B. durch maschinenlesbaren Hinweis). Wichtig: Die verwendeten Daten dürfen nicht dauerhaft gespeichert werden.

Was bedeutet das für Unternehmen, die LLMs trainieren möchten?

  • Der Einsatz von urheberrechtlich geschützten Texten bedarf einer sorgfältigen Prüfung.
  • Pirateriequellen sind rechtlich ausgeschlossen – unabhängig vom Verwendungszweck.
  • Für kommerzielle TDM-Prozesse kann § 44b UrhG einen rechtlichen Rahmen bieten – vorausgesetzt, die rechtlichen Voraussetzungen (kein Widerspruch, spätere Löschung) werden eingehalten.
  • Eine pauschale Ausnahme wie im US-amerikanischen „Fair Use“ existiert nicht.

Fazit

Die Entscheidung aus den USA zeigt: KI-Training mit urheberrechtlich geschützten Inhalten kann zulässig sein – aber es kommt auf den Zweck, die Herkunft der Daten und die Nutzungsart an. In Deutschland gelten klare Regeln: Wer mit urheberrechtlich geschützten Werken arbeitet, braucht entweder eine Lizenz oder muss sich genau innerhalb der gesetzlichen Schranken bewegen.