Microsoft räumt Fehler beim Einsatz von Harry-Potter-KI ein
Microsoft sorgt für Schlagzeilen, nachdem der Konzern einen Fehler beim KI-Training eingesteht, der die Nutzung von Texten der Harry-Potter-Reihe betrifft.

Ein technischer Blogbeitrag von Microsoft leitete Entwickler an, generative KI-Modelle mit den Texten der Harry-Potter-Bücher zu trainieren. Nach massiver Kritik wurde der Beitrag daraufhin entfernt, wie die «Ars Technica» berichtet.
Microsoft räumte ein, dass die Anleitung einen Fehler enthalte, weil die Harry-Potter-Sammlung nicht gemeinfrei sei. Daraufhin löschte das Unternehmen den Blogpost und distanzierte sich von der falschen Klassifizierung, wie «HyperAI» meldet.
Der betroffene Blogtext wurde im November 2024 von einer Senior Product Managerin veröffentlicht. Er stellte Beispiele für das Einbinden von Azure-Diensten in KI-Entwicklungen vor.
Fehler beim KI-Training: Microsoft nutzte irrtümlich Harry-Potter-Datensatz
Teil dieser Beispiele bezog sich laut Archivversion auf die Nutzung der Harry-Potter-Texte. Damit sollten Q&A-Systeme und KI-generierte Geschichten erstellt werden, wie die «Ars Technica» berichtet.
Laut «Golem» wurde im Beitrag ein verlinkter Datensatz verwendet, der alle sieben Bände der Reihe als Text enthielt. Der Ersteller des Datensatzes habe ihn irrtümlich als Public Domain gekennzeichnet.
Kritiker wiesen darauf hin, dass der Datensatz ausschliesslich online verfügbar war. Seine Nutzung mit urheberrechtlich geschütztem Inhalt könne rechtliche Probleme fördern.
Kritik an Microsoft
Der Kaggle-Datensatz war offenbar falsch markiert und enthielt die gesamten Texte. Eine Erlaubnis der Rechteinhaber lag dafür nicht vor, wie «Ars Technica» ausführt.
Rechts- und Urheberrechtsexperten betonten, dass die Aufforderung, solche Daten zum Training von grossen Sprachmodellen zu nutzen, problematisch sei. Sie argumentierten, dass Entwickler ohne klares Copyright-Verständnis potenziell illegale Quellen verwenden könnten.
Die gelöschte Anleitung hatte ausserdem ein KI-generiertes Bild, das Figuren aus der Harry-Potter-Welt zusammen mit Microsoft-Branding zeigte. Dies sorgte für weitere Diskussionen über Integrität und Urheberrechtstreue von KI-Beispielen, wie ebenfalls die «Ars Technica» hervorhebt.
Microsoft will Fehler bei KI-Datensatzprüfung vermeiden
Microsoft betonte im Zuge der Löschung, dass der Fehler in der Klassifizierung des Datensatzes liege.
Das Unternehmen erklärte, dass es die Inhalte in Zukunft sorgfältiger prüfen werde. Ziel sei es, derartige Vorfälle zu vermeiden, wie «HyperAI» berichtet.

Die Resonanz zeigt die fortlaufenden Herausforderungen, vor denen Technologieunternehmen stehen. Dies gilt insbesondere für den verantwortungsvollen Einsatz und das Training von KI auf urheberrechtlich geschütztem Material, so die «Ars Technica».
















