Nu generatieve AI, zoals ChatGPT, in staat is om wetenschappelijke artikelen te produceren die legitiem lijken, vooral voor mensen buiten het vakgebied, hoe kunnen we dan identificeren welke nep zijn?
Ahmed Abdeen Hamed, gastonderzoeker aan het Thomas J. Watson College of Engineering and Applied Science van de Binghamton University, heeft een machine-learningalgoritme ontwikkeld genaamd xFakeSci, dat tot 94% van de vervalste wetenschappelijke artikelen kan detecteren, een succespercentage dat bijna het dubbele is van dat van conventionele dataminingmethoden.
"Mijn primaire onderzoek richt zich op biomedische informatica, maar omdat ik me bezighoud met medische publicaties, klinische onderzoeken, online bronnen en social media mining, maak ik me voortdurend zorgen over de authenticiteit van de kennis die wordt verspreid", aldus Hamed, lid van het Complex Adaptive Systems and Computational Intelligence Lab van George J. Klir Professor of Systems Science Luis M. Rocha.
"De biomedische literatuur, met name tijdens de wereldwijde pandemie, werd aanzienlijk beïnvloed door de verspreiding van vals onderzoek."
In een recent onderzoek gepubliceerd in Scientific Reports genereerden Hamed en zijn collega Xindong Wu, een professor aan de Hefei University of Technology in China, 50 nepartikelen over drie veelvoorkomende medische onderwerpen: Alzheimer, kanker en depressie. Ze vergeleken deze met een gelijk aantal echte artikelen over dezelfde onderwerpen.
Hamed legde uit dat toen hij AI-gegenereerde artikelen opvroeg bij ChatGPT, "ik dezelfde trefwoorden gebruikte als die ik gebruikte om literatuur op te halen uit de PubMed-database van het National Institutes of Health om een consistente basis voor vergelijking te garanderen. Ik vermoedde dat er herkenbare patronen moesten zijn die nepcontent onderscheiden van echt onderzoek, maar ik wist niet zeker wat die patronen zouden zijn."
Na het uitvoeren van experimenten programmeerde Hamed xFakeSci om twee hoofdkenmerken te analyseren bij het schrijven van deze artikelen. Het eerste kenmerk was de frequentie en het gebruik van bigrammen: twee woorden die vaak samen voorkomen, zoals "klimaatverandering", "klinische proeven" of "biomedische literatuur". Het tweede kenmerk onderzocht hoe deze bigrammen verbonden waren met andere woorden en concepten in de tekst.
"De meest opvallende observatie was dat het aantal bigrammen in nepartikelen aanzienlijk lager was dan in echte artikelen, waar bigrammen overvloediger en gevarieerder waren," merkte Hamed op. "Bovendien waren ze, ondanks de lagere frequentie van bigrammen in nepartikelen, sterk verbonden met andere delen van de tekst."
Hamed en Wu veronderstellen dat de verschillen in schrijfstijl ontstaan doordat menselijke onderzoekers en door AI gegenereerde content verschillende doelstellingen hebben. Menselijke onderzoekers streven ernaar om bevindingen eerlijk en transparant te rapporteren, terwijl AI-systemen, zoals ChatGPT, zijn ontworpen om lezers te overtuigen door specifieke termen te benadrukken, wat vaak de brede contextuele diepgang mist die kenmerkend is voor echt wetenschappelijk onderzoek.
"ChatGPT, beperkt door de huidige kennis, probeert lezers te overtuigen door zich te richten op de meest impactvolle woorden," zei Hamed. "De rol van een wetenschapper is niet om te overtuigen, maar om experimentele resultaten en methodologieën nauwkeurig te rapporteren. Terwijl ChatGPT zich richt op de diepte in één gebied, omvat echt wetenschappelijk onderzoek een breed scala."
Mohammad T. Khasawneh, Distinguished Professor en voorzitter van de afdeling Systems Science and Industrial Engineering, prees Hameds werk: "We zijn verheugd om Dr. Ahmed Abdeen Hamed als onderdeel van ons team te hebben, die aan zulke baanbrekende ideeën werkt. In een tijdperk waarin 'deepfakes' steeds gangbaarder worden, is zijn onderzoek ongelooflijk actueel en relevant. We kijken reikhalzend uit naar verdere samenwerkingen en ontwikkelingen in zijn werk."
Om xFakeSci te verfijnen, is Hamed van plan om de toepasbaarheid van het algoritme uit te breiden naar een breder scala aan onderwerpen buiten de geneeskunde, waaronder engineering, andere wetenschappelijke disciplines en de geesteswetenschappen. Hij verwacht ook dat AI zich zal blijven ontwikkelen, waardoor het steeds moeilijker wordt om onderscheid te maken tussen authentieke en door AI gegenereerde content.
"We zullen altijd achter de feiten aanlopen, tenzij we een uitgebreide oplossing ontwikkelen", zei hij. "We hebben nog veel werk voor de boeg om een algemeen patroon te identificeren of een universeel algoritme te creëren dat niet is gekoppeld aan een specifieke versie van generatieve AI."
Hoewel hun algoritme 94% van de door AI gegenereerde papers detecteert, benadrukte Hamed de noodzaak van voorzichtigheid: "Dit betekent dat 6 van de 100 neppapers er nog steeds doorheen glippen. We moeten nederig blijven over onze prestaties. Hoewel we aanzienlijke stappen hebben gezet in het vergroten van het bewustzijn, moet er nog veel meer gebeuren."