Die KI plagiiert, was das Zeug hält

 

ChatGPT ist zweifellos ein hilfreiches Tool für Brainstorming. Wird es jedoch verwendet, um Texte zu generieren, ist die Grenze zum Plagiat überschritten. Das Problem dabei ist, dass die Software ihre Quellen nicht angibt. Es ist also nicht zu sehen, wo und wann sie plagiiert.

An der Penn State University wurde inzwischen eine Studie zu diesem Phänomen durchgeführt:

“Es gibt verschiedene Arten von Plagiaten”, so Dongwon Lee, Professor für Informationswissenschaft und -technologie an der Penn State. “Wir wollten sehen, ob Sprachmodelle nicht nur copy and paste, sondern auch anspruchsvollere Formen des Plagiats anwenden.”

 

Was wurde untersucht

 

Die Forscher konzentrierten sich auf drei Arten von Plagiaten: wortwörtliche Übernahme von Inhalten; Umformulieren und Umstrukturieren von Inhalten ohne Angabe der Originalquelle; Übernahme der Kernidee eines Textes ohne Angabe der Quelle. Sie testeten mit GPT-2 von OpenAI, da die Trainingsdaten des Sprachmodells online verfügbar sind. Die Forscher konnten also die generierten Texte mit den 8 Millionen Dokumenten vergleichen, die zum Training der KI verwendet wurden.

 

Wie wurde untersucht

 

Die Wissenschaftler untersuchten trainierte und auf bestimmte Themenbereiche abgestimmte Sprachmodelle anhand von 210.000 generierten Texten. Dazu wurden drei Sprachmodelle so angepasst, dass sie sich auf wissenschaftliche Dokumente, Fachartikel über COVID-19 und Patentansprüche konzentrieren. Das Team ermittelte mithilfe einer Open-Source-Suchmaschine die zehn Trainingsdokumente, die jedem generierten Text am ähnlichsten waren, und modifizierte einen bestehenden Textvergleichsalgorithmus zur Erkennung von Plagiaten.

 

Ergebnisse

 

Das Team konnte nachweisen, dass die Sprachmodelle alle drei Arten von Plagiaten (Copy & paste, Paraphrasieren und Ideenraub) enthielten. Die Plagiate traten umso häufiger auf, je größer der Datensatz war und je mehr Parameter für das Training des Modells verwendet wurden. Bei den fein abgestimmten Sprachmodelle kam wortwörtliches Abschreiben seltener vor, aber dafür stieg die Anzahl der Paraphrasen und Ideenplagiate.

Darüber hinaus stellten sie fest, dass das Sprachmodell bei allen drei Plagiatsformen private Informationen preisgibt. Die Forscher stellen ihre Ergebnisse auf der ACM Web Conference 2023 vor, die vom 30. April bis 4. Mai in Austin, Texas, stattfindet.

 

Schlussfolgerungen

 

“Auch wenn das Ergebnis ansprechend sein mag und Sprachmodelle Spaß machen und für bestimmte Aufgaben produktiv erscheinen, heißt das nicht, dass sie praktikabel sind”, sagte Thai Le, Assistenzprofessor für Computer- und Informationswissenschaften an der Universität von Mississippi, der als Doktorand an der Penn State mit dem Projekt begann. “In der Praxis müssen wir uns um die ethischen und urheberrechtlichen Fragen kümmern, die Textgeneratoren aufwerfen.”

Obwohl die Ergebnisse der Studie nur für GPT-2 gelten, kann das von den Forschern entwickelte Verfahren zur automatischen Erkennung von Plagiaten auch auf neuere Sprachmodelle wie ChatGPT angewendet werden, um festzustellen, ob und wie oft diese Modelle Trainingsinhalte plagiieren. Das Testen auf Plagiate hängt jedoch davon ab, dass die Entwickler die Trainingsdaten öffentlich zugänglich machen, so die Forscher.

Die aktuelle Studie kann dazu beitragen, in Zukunft robustere, zuverlässigere und verantwortungsvollere Sprachmodelle zu entwickeln, so die Wissenschaftler. Für den Moment mahnen sie zur Vorsicht bei der Verwendung von Textgeneratoren.

 

Quelle:

www.psu.edu/news/text-generators-may-plagiarize-beyond-copy-and-paste

Bildquelle:

https://pixabay.com/illustrations/robot-artificial-intelligence-7785877

 

Hier geht es zur Studie:

https://pike.psu.edu/publications/www23.pdf

 

Hast du Fragen zum Recherchieren oder möchtest wissen, wie du richtig zitierst? Dann sprich mich gerne an.

 

Als Ingenieurin und Wissenschaftslektorin mit Schwerpunkt Ingenieur-, Natur- und Wirtschaftswissenschaften unterstütze ich dich gerne bei deiner Bachelorthesis, Masterthesis oder Dissertation.

Ich freue mich auf deine Anfrage:

Tel. ‭+49 30 22044864‬, birgit@ingenieur-wissenschaftslektorat.de