Da generative KI wie ChatGPT in der Lage ist, wissenschaftliche Artikel zu erstellen, die legitim erscheinen – insbesondere für Außenstehende –, stellt sich die Frage, wie wir Fälschungen identifizieren können.
Ahmed Abdeen Hamed, Gastwissenschaftler am Thomas J. Watson College of Engineering and Applied Science der Binghamton University, hat einen maschinellen Lernalgorithmus namens xFakeSci entwickelt, der bis zu 94 % der gefälschten wissenschaftlichen Arbeiten erkennen kann. Damit ist die Erfolgsquote fast doppelt so hoch wie bei herkömmlichen Data-Mining-Methoden.
„Meine Hauptforschung konzentriert sich auf die biomedizinische Informatik, aber da ich mich mit medizinischen Veröffentlichungen, klinischen Studien, Online-Ressourcen und Social Media Mining beschäftige, bin ich ständig besorgt über die Authentizität des verbreiteten Wissens“, sagte Hamed, Mitglied des Complex Adaptive Systems and Computational Intelligence Lab von Luis M. Rocha, Professor für Systemwissenschaften am George J. Klir.
„Die biomedizinische Literatur war insbesondere während der globalen Pandemie erheblich von der Verbreitung falscher Forschungsergebnisse betroffen.“
In einer kürzlich in Scientific Reports veröffentlichten Studie erstellten Hamed und sein Kollege Xindong Wu, Professor an der Hefei University of Technology in China, 50 gefälschte Artikel zu drei gängigen medizinischen Themen – Alzheimer, Krebs und Depression – und verglichen sie mit einer gleichen Anzahl echter Artikel zu denselben Themen.
Hamed erklärte, dass er, als er KI-generierte Artikel bei ChatGPT anforderte, „dieselben Schlüsselwörter verwendete, die ich auch zum Abrufen von Literatur aus der PubMed-Datenbank der National Institutes of Health verwendete, um eine konsistente Vergleichsbasis zu gewährleisten. Ich vermutete, dass es erkennbare Muster geben muss, die gefälschte Inhalte von echter Forschung unterscheiden, aber ich war mir nicht sicher, welche Muster das sein würden.“
Nach der Durchführung von Experimenten programmierte Hamed xFakeSci, um zwei Hauptmerkmale beim Schreiben dieser Artikel zu analysieren. Das erste Merkmal war die Häufigkeit und Verwendung von Bigrams – zwei Wörter, die oft zusammen vorkommen, wie „Klimawandel“, „klinische Studien“ oder „biomedizinische Literatur“. Das zweite Feature untersuchte, wie diese Bigrams mit anderen Wörtern und Konzepten im Text verbunden waren.
„Die auffälligste Beobachtung war, dass die Anzahl der Bigrams in gefälschten Arbeiten deutlich geringer war als in echten, wo Bigrams häufiger und vielfältiger waren“, bemerkte Hamed. „Außerdem waren sie trotz der geringeren Häufigkeit von Bigrams in gefälschten Arbeiten stark mit anderen Teilen des Textes verbunden.“
Hamed und Wu vermuten, dass die Unterschiede im Schreibstil dadurch entstehen, dass menschliche Forscher und von KI generierte Inhalte unterschiedliche Ziele verfolgen. Menschliche Forscher zielen darauf ab, Ergebnisse ehrlich und transparent zu berichten, während KI-Systeme wie ChatGPT darauf ausgelegt sind, Leser durch die Betonung bestimmter Begriffe zu überzeugen, wobei ihnen oft die breite kontextuelle Tiefe fehlt, die echte wissenschaftliche Forschung auszeichnet.
„ChatGPT versucht, Leser zu überzeugen, indem es sich auf die wirkungsvollsten Wörter konzentriert, eingeschränkt durch sein aktuelles Wissen“, sagte Hamed. „Die Rolle eines Wissenschaftlers besteht nicht darin, zu überzeugen, sondern experimentelle Ergebnisse und Methoden genau zu berichten. Während sich ChatGPT auf die Tiefe in einem einzigen Bereich konzentriert, umfasst echte wissenschaftliche Forschung einen breiten Bereich.“
Mohammad T. Khasawneh, angesehener Professor und Vorsitzender der Abteilung für Systemwissenschaften und Wirtschaftsingenieurwesen, lobte Hameds Arbeit: „Wir freuen uns sehr, Dr. Ahmed Abdeen Hamed in unserem Team zu haben, das an solch bahnbrechenden Ideen arbeitet. In einer Zeit, in der „Deepfakes“ immer häufiger vorkommen, ist seine Forschung unglaublich aktuell und relevant. Wir erwarten mit Spannung weitere Kooperationen und Fortschritte in seiner Arbeit.“
Um xFakeSci zu verfeinern, plant Hamed, die Anwendbarkeit des Algorithmus auf ein breiteres Themenspektrum jenseits der Medizin auszuweiten, darunter Ingenieurwissenschaften, andere wissenschaftliche Disziplinen und Geisteswissenschaften. Er geht auch davon aus, dass sich die KI weiterentwickeln wird, wodurch es zunehmend schwieriger wird, zwischen authentischen und KI-generierten Inhalten zu unterscheiden.
„Wir werden immer hinterherhinken, wenn wir keine umfassende Lösung entwickeln“, sagte er. „Wir haben noch viel Arbeit vor uns, um ein allgemeines Muster zu erkennen oder einen universellen Algorithmus zu erstellen, der nicht an eine bestimmte Version der generativen KI gebunden ist.“
Obwohl ihr Algorithmus 94 % der von KI generierten Artikel erkennt, betont Hamed, dass Vorsicht geboten sei: „Das bedeutet, dass immer noch 6 von 100 gefälschten Artikeln durchkommen. Wir müssen bescheiden bleiben, was unsere Erfolge angeht. Obwohl wir bei der Sensibilisierung große Fortschritte gemacht haben, bleibt noch viel zu tun.“