Urheberrecht und Künstliche Intelligenz: Erste Berufungsentscheidung zum KI-Training mit urheberrechtlich geschützten Inhalten

Künstliche Intelligenz stellt das Urheberrecht vor neuartige Herausforderungen. Insbesondere das massenhafte Einbeziehen urheberrechtlich geschützter Werke in Trainingsdatensätze wirft die Frage auf, ob und unter welchen Bedingungen dies zulässig ist. Mit der Entscheidung des Hanseatischen Oberlandesgerichts vom 10. Dezember 2025 liegt nun erstmals eine obergerichtliche Berufungsentscheidung zur Nutzung geschützter Inhalte beim KI-Training vor. Zuvor hatte das Landgericht Hamburg im September 2024 als erstes Gericht in Deutschland zu dieser Thematik Stellung bezogen. Das nun ergangene Berufungsurteil bestätigt die Linie der Vorinstanz und konkretisiert die Anwendung der Schrankenregelungen des Urheberrechts im Kontext Künstlicher Intelligenz.

Das Verfahren: Urheber gegen KI-Datensatzanbieter

Im Kern des Rechtsstreits stand die Nutzung einer Fotografie durch einen gemeinnützigen Verein, der einen frei zugänglichen Datensatz mit mehreren Milliarden Bild-Text-Paaren zur Verfügung stellt – ein Projekt, das ausdrücklich dem Training generativer KI-Modelle dient. Der Fotograf sah in der automatisierten Vervielfältigung seiner Fotografie – durch Download von der Website einer Bildagentur – eine Verletzung seiner Urheberrechte. Der Verein verwies auf die urheberrechtlichen Schrankenregelungen, insbesondere das Text- und Data-Mining (§ 44b UrhG) und die Nutzung zu wissenschaftlichen Zwecken (§ 60d UrhG).

Die Entscheidung des Landgerichts Hamburg

Das Landgericht Hamburg hatte die Klage mit Urteil vom 27.09.2024 abgewiesen. Das Gericht sah in der konkreten Nutzung eine zulässige Handlung im Rahmen des Text- und Data-Minings. Zwar sei das Herunterladen eines Bildes grundsätzlich eine urheberrechtlich relevante Vervielfältigung, doch greife hier die Schrankenregelung ein, da die Nutzung auf eine automatisierte Analyse zum Zweck der Informationsgewinnung gerichtet gewesen sei. Der vom Kläger geltend gemachte Nutzungsvorbehalt sei nicht maschinenlesbar gewesen und daher nicht wirksam. Die spätere Nutzung des Datensatzes durch Dritte – etwa KI-Modelle – sei für die urheberrechtliche Bewertung der konkreten Vervielfältigungshandlung nicht entscheidend.

Die Berufungsentscheidung des Hanseatischen Oberlandesgerichts

Mit Urteil vom 10.12.2025 hat das Hanseatische Oberlandesgericht die Entscheidung der Vorinstanz bestätigt und die Berufung zurückgewiesen. Das Gericht stellte klar, dass bereits der Abgleich zwischen Bild und Bildbeschreibung eine automatisierte Analyse im Sinne des § 44b UrhG darstellt. Dabei sei nicht erforderlich, dass ein unmittelbarer Erkenntnisgewinn im wissenschaftlichen Sinne erzielt werde. Auch vorbereitende Maßnahmen für KI-Training, wie der Aufbau eines Datensatzes, fallen unter die Schranke, wenn sie der späteren Analyse dienen. Zudem sei der geltend gemachte Nutzungsvorbehalt nicht in maschinenlesbarer Form erfolgt, was gesetzlich aber zwingend gefordert sei. Die Richter ließen ausdrücklich die Revision zum Bundesgerichtshof zu.

Bedeutung für Urheber und KI-Entwicklung

Diese Entscheidung hat grundsätzliche Bedeutung sowohl für Urheber als auch für Entwickler und Betreiber von KI-Systemen. Sie zeigt, dass urheberrechtlich geschützte Inhalte unter bestimmten Bedingungen – vor allem im Rahmen der Schrankenregelungen – ohne Zustimmung der Rechteinhaber für KI-bezogene Analyseprozesse genutzt werden dürfen. Urheber, die dem widersprechen wollen, müssen ihre Nutzungsvorbehalte künftig in technisch eindeutiger und maschinenlesbarer Weise erklären. Zugleich macht das Urteil deutlich, dass auch nicht-kommerzielle Akteure wie Vereine urheberrechtliche Schranken nutzen können, sofern ihr Zweck mit Forschung oder Analyseprozessen vereinbar ist.

Einordnung im Kontext weiterer Rechtsprechung

Die Entscheidung ist auch deshalb bemerkenswert, weil sie das erste erstinstanzliche Urteil zu diesem Thema – ebenfalls vom LG Hamburg – bestätigt und damit für größere Rechtssicherheit sorgt. Küerzlich hat das Landgericht München I im Verfahren GEMA gegen OpenAI über die urheberrechtliche Zulässigkeit von KI-Training mit Musikwerken entschieden. Über dieses zweite wichtige Urteil zum Thema „KI und Urheberrecht“ haben wir bereits in unserem Blogbeitrag vom 14.11.2025 berichtet. Beide Verfahren markieren den Beginn einer neuen urheberrechtlichen Auslegungspraxis in Zeiten generativer Künstlicher Intelligenz.

Ausblick

Das Thema bleibt dynamisch: Die Revision zum Bundesgerichtshof ist zugelassen, womit eine höchstrichterliche Klärung in greifbare Nähe rückt. Die Entscheidungen aus Hamburg und München zeigen jedoch bereits, dass deutsche Gerichte bereit sind, die geltenden urheberrechtlichen Schranken auch auf neuartige technische Konstellationen wie KI-Training anzuwenden. Dabei liegt der Fokus zunehmend auf der Frage, ob ein Nutzungsvorbehalt maschinenlesbar und rechtlich wirksam erklärt wurde – ein Aspekt, der künftig sowohl Urheber als auch Plattformbetreiber vor technische und juristische Herausforderungen stellt.


Gericht: Hanseatisches Oberlandesgericht
Datum: 10.12.2025
Aktenzeichen: 5 U 104/24 (Vorinstanz: LG Hamburg, 310 O 227/23)

Urteil GEMA gegen Open AI

Die auf das Urheberrecht spezialisierte 42. Zivilkammer des Landgerichts München I hat mit Urteil vom heutigen Tag den von der GEMA gegen zwei Unternehmen der Unternehmensgruppe Open AI geltend gemachten Ansprüchen auf Unterlassungs-, Auskunfts- und Schadensersatz im Wesentlichen stattgegeben (Az. 42 O 14139/24).

Soweit die Klägerin darüber hinaus Ansprüche auf Grund einer Verletzung des allgemeinen Persönlichkeitsrechts wegen fehlerhafter Zuschreibung veränderter Liedtexte geltend gemacht hat, hat die Kammer die Klage abgewiesen.

Das Urteil betrifft die Liedtexte neun bekannter deutscher Urheberinnen und Urheber (darunter „Atemlos“ von Kristina Bach oder „Wie schön, dass du geboren bist“ von Rolf Zuckowski).

Die Klägerin ist eine Verwertungsgesellschaft und hat die Ansprüche als solche geltend gemacht. Zur Begründung hatte sie vorgetragen, die Liedtexte seien in den Sprachmodellen der Beklagten memorisiert und würden bei Nutzung des Chatbots auf einfache Anfragen der Nutzer als Antworten (Outputs) in weiten Teilen originalgetreu ausgegeben.

Die Beklagten sind Betreiber von Sprachmodellen und darauf basierender Chatbots. Sie hatten gegen die erhobenen Ansprüche eingewandt, ihre Sprachmodelle speicherten oder kopierten keine spezifischen Trainingsdaten, sondern reflektierten in ihren Parametern, was sie basierend auf dem gesamten Trainingsdatensatz erlernt hätten. Da die Outputs nur als Folge von Eingaben von Nutzern (Prompts) generiert werden würden, seien nicht die Beklagten, sondern der jeweilige Nutzer als Hersteller des Outputs für diese verantwortlich. Ohnehin seien eventuelle Rechtseingriffe von den Schranken des Urheberrechts, insbesondere der Schranke für das sogenannten Text- und Data-Mining gedeckt.

Nach der Entscheidung der erkennenden Kammer stehen der Klägerin die geltend gemachten Ansprüche sowohl aufgrund der gegebenen Vervielfältigung der Texte in den Sprachmodellen als auch durch ihre Wiedergabe in den Outputs zu.

Sowohl durch die Memorisierung in den Sprachmodellen als auch durch die Wiedergabe der Liedtexte in den Outputs des Chatbot lägen Eingriffe in die urheberrechtlichen Verwertungsrechte vor. Diese seien nicht durch Schrankenbestimmungen, insbesondere die Schranke für das Text und Data Mining gedeckt.

Im Einzelnen:

Nach Überzeugung der Kammer seien die streitgegenständlichen Liedtexte reproduzierbar in den Sprachmodellen 4 und 4o der Beklagten enthalten. Aus der informationstechnischen Forschung sei bekannt, dass Trainingsdaten in Sprachmodellen enthalten sein können und sich als Outputs extrahieren lassen. Dies werde als Memorisierung bezeichnet. Eine solche liege vor, wenn die Sprachmodelle beim Training dem Trainingsdatensatz nicht nur Informationen entnähmen, sondern sich in den nach dem Training spezifizierten Parametern eine vollständige Übernahme der Trainingsdaten finde. Eine solche Memorisierung sei durch einen Abgleich der Liedtexte, die in den Trainingsdaten enthalten waren, mit den Wiedergaben in den Outputs festgestellt. Angesichts der Komplexität und Länge der Liedtexte sei der Zufall als Ursache für die Wiedergabe der Liedtexte ausgeschlossen.

Durch die Memorisierung sei eine Verkörperung als Voraussetzung der urheberrechtlichen Vervielfältigung der streitgegenständlichen Liedtexte durch Daten in den spezifizierten Parametern des Modells gegeben. Die streitgegenständlichen Liedtexte seien reproduzierbar in den Modellen festgelegt. Gemäß Art. 2 InfoSoc-RL liege eine Vervielfältigung „auf jede Art und Weise und in jeder Form“ vor. Die Festlegung in bloßen Wahrscheinlichkeitswerten sei hierbei unerheblich. Neue Technologien wie Sprachmodelle wären vom Vervielfältigungsrecht nach Art. 2 InfoSoc-RL und § 16 UrhG erfasst. Nach der Rechtsprechung des Unionsgerichtshofes sei für die Vervielfältigung ausreichend eine mittelbare Wahrnehmbarkeit, die gegeben sei, wenn das Werk unter Einsatz technischer Hilfsmittel wahrgenommen werden könne.

Diese Vervielfältigung in den Modellen sei weder durch die Schrankenbestimmungen des Text und Data Mining des § 44b UrhG noch durch § 57 UrhG als unwesentliches Beiwerk gedeckt.

Zwar unterfielen Sprachmodelle grundsätzlich dem Anwendungsbereich der Text und Data Mining Schranken. Die Vorschriften deckten erforderliche Vervielfältigungen beim Zusammenstellen des Datenkorpus für das Training, wie etwa die Vervielfältigung eines Werks durch seine Überführung in ein anderes (digitales) Format oder Speicherungen im Arbeitsspeicher. Hintergrund hierfür sei der Gedanke, dass diese Vervielfältigungen lediglich zu nachfolgenden Analysezwecken erstellt würden und damit die Verwertungsinteressen des Urhebers am Werk nicht beeinträchtigten. Da diese für das Text und Data Mining rein vorbereitenden Handlungen kein Verwertungsinteresse berührten, sehe das Gesetz keine Vergütungspflicht gegenüber dem Urheber vor.

Würden beim Training – wie hier – nicht nur Informationen aus Trainingsdaten extrahiert, sondern Werke vervielfältigt, stelle dies nach Auffassung der Kammer kein Text und Data Mining dar. Die Prämisse des Text und Data Mining und der diesbezüglichen Schrankenbestimmungen, dass durch die automatisierte Auswertung von bloßen Informationen selbst keine Verwertungsinteressen berührt sind, greife in dieser Konstellation nicht. Im Gegenteil, durch die gegebenen Vervielfältigungen im Modell werde in das Verwertungsrecht der Rechteinhaber eingegriffen.

Eine andere, mutmaßlich technik- und innovationsfreundliche Auslegung, die ebenfalls Vervielfältigungen im Modell von der Schranke als gedeckt ansehen wollte, verbiete sich angesichts des klaren Wortlauts der Bestimmung. Auch eine analoge Anwendung komme nicht in Betracht. Selbst wenn man eine planwidrige Regelungslücke annehmen wollte, weil dem Gesetzgeber die Memorisierung und eine damit einhergehende dauerhafte urheberrechtlich relevante Vervielfältigung in den Modellen nicht bewusst gewesen sein sollte, mangele es an einer vergleichbaren Interessenlage. Die Schrankenregelung normiere mit der Zulässigkeit vorbereitender Vervielfältigungshandlungen beim Text und Data Mining einen Sachverhalt, bei dem die Verwertungsinteressen der Urheber nicht gefährdet seien, weil bloße Informationen extrahiert und das Werk als solches gerade nicht vervielfältigt werde. Bei Vervielfältigungen im Modell werde die Werkverwertung hingegen nachhaltig beeinträchtigt und die berechtigten Interessen der Rechteinhaber hierdurch verletzt. Die Urheber und Rechteinhaber würden durch eine analoge Anwendung der Schrankenbestimmung, die keine Vergütung für die Verwertung vorsieht, somit schutzlos gestellt. Das Risiko der Memorisierung stamme allein aus der Sphäre der Beklagten. Bei einer Analogie der Schranke würde ausschließlich der verletzte Rechteinhaber dieses Risiko tragen.

Mangels Vorliegens eines Hauptwerks stellten die Vervielfältigungen der streitgegenständlichen Liedtexte kein unzulässiges Beiwerk nach § 57 UrhG dar. Entgegen der Ansicht der Beklagten seien die Liedtexte nicht neben dem gesamten Trainingsdatensatz als nebensächlich und verzichtbar anzusehen. Hierfür wäre erforderlich, dass es sich bei dem gesamten Trainigsdatensatz ebenfalls um ein urheberrechtlich geschütztes Werk handele.

Der Eingriff der Beklagten in die Verwertungsrechte der Klägerin sei auch nicht durch eine Einwilligung der Rechteinhaber gerechtfertigt, da das Training von Modellen nicht als eine übliche und erwartbare Nutzungsart zu werten sei, mit der der Rechteinhaber rechnen müsse.

Auch durch Wiedergabe der Liedtexte in den Outputs des Chatbots hätten die Beklagten nach der Entscheidung der Kammer unberechtigt die streitgegenständlichen Liedtexte vervielfältigt und öffentlich zugänglich gemacht. In den Outputs wären die originellen Elemente der Liedtexte stets wiedererkennbar.

Hierfür seien die Beklagten und nicht die Nutzer verantwortlich. Die Outputs seien durch einfach gehaltene Prompts generiert worden. Die Beklagten betrieben die Sprachmodelle, für die die Liedtexte als Trainingsdaten ausgewählt und mit denen sie trainiert worden sind. Sie seien für die Architektur der Modelle und die Memorisierung der Trainingsdaten verantwortlich. Damit hätten die von den Beklagten betriebenen Sprachmodelle die ausgegebenen Outputs maßgeblich beeinflusst, der konkrete Inhalt der Outputs werde von den Sprachmodellen generiert.

Der Eingriff in die Verwertungsrechte durch die Outputs sei ebenfalls nicht durch eine Schrankenbestimmung gedeckt.

Das Urteil ist nicht rechtskräftig.

Zum Hintergrund:

Normen:

Art. 2, 3 InfoSoc-RL, Art. 4 DSM-RL

Pressemitteilung des LG München I vom 11.11.25