Nuovo strumento rileva articoli scientifici falsi prodotti dall'intelligenza artificiale

Poiché l'intelligenza artificiale generativa, come ChatGPT, è in grado di produrre articoli scientifici che sembrano legittimi, in particolare per chi non è del settore, come possiamo identificare quelli falsi?

Nuovo strumento rileva articoli scientifici falsi prodotti dall'intelligenza artificiale - image 1

 

Ahmed Abdeen Hamed, ricercatore ospite presso il Thomas J. Watson College of Engineering and Applied Science della Binghamton University, ha sviluppato un algoritmo di apprendimento automatico chiamato xFakeSci, in grado di rilevare fino al 94% di articoli scientifici contraffatti, un tasso di successo quasi doppio rispetto ai metodi di data mining convenzionali.

"La mia ricerca principale si concentra sull'informatica biomedica, ma poiché mi occupo di pubblicazioni mediche, sperimentazioni cliniche, risorse online e social media mining, sono costantemente preoccupato per l'autenticità della conoscenza diffusa", ha affermato Hamed, membro del George J. Klir Professor of Systems Science Luis M. Rocha's Complex Adaptive Systems and Computational Intelligence Lab.

"La letteratura biomedica, in particolare durante la pandemia globale, è stata significativamente influenzata dalla diffusione di ricerche false". In uno studio recente pubblicato su Scientific Reports, Hamed e il suo collaboratore Xindong Wu, professore alla Hefei University of Technology in Cina, hanno generato 50 articoli falsi su tre argomenti medici prevalenti (Alzheimer, cancro e depressione) e li hanno confrontati con un numero uguale di articoli autentici sugli stessi argomenti. 

Hamed ha spiegato che quando ha richiesto articoli generati dall'intelligenza artificiale da ChatGPT, "ho usato le stesse parole chiave che ho impiegato per recuperare la letteratura dal database PubMed del National Institutes of Health per garantire una base coerente per il confronto. Sospettavo che ci dovessero essere modelli discernibili che distinguessero i contenuti falsi dalla ricerca autentica, ma non ero sicuro di quali sarebbero stati". 

Dopo aver condotto degli esperimenti, Hamed ha programmato xFakeSci per analizzare due caratteristiche principali nella stesura di questi articoli. 

La prima caratteristica era la frequenza e l'uso di bigrammi, due parole che spesso compaiono insieme, come "cambiamento climatico", "sperimentazioni cliniche" o "letteratura biomedica". La seconda caratteristica ha esaminato il modo in cui questi bigrammi erano collegati ad altre parole e concetti all'interno del testo. 

"L'osservazione più sorprendente è stata che il numero di bigrammi nei documenti falsi era significativamente inferiore rispetto a quelli autentici, dove i bigrammi erano più abbondanti e vari", ha osservato Hamed. "Inoltre, nonostante la minore frequenza di bigrammi nei documenti falsi, erano fortemente collegati ad altre parti del testo". 

Hamed e Wu ipotizzano che le differenze nello stile di scrittura derivino dal fatto che i ricercatori umani e i contenuti generati dall'intelligenza artificiale hanno obiettivi distinti. I ricercatori umani mirano a riportare i risultati in modo onesto e trasparente, mentre i sistemi di intelligenza artificiale, come ChatGPT, sono progettati per persuadere i lettori enfatizzando termini specifici, spesso privi dell'ampia profondità contestuale che caratterizza la vera ricerca scientifica. 

"ChatGPT, vincolato dalle sue attuali conoscenze, tenta di convincere i lettori concentrandosi sulle parole più impattanti", ha affermato Hamed. 

"Il ruolo di uno scienziato non è convincere, ma riportare accuratamente i risultati e le metodologie sperimentali. Mentre ChatGPT si concentra sulla profondità in un'unica area, la vera ricerca scientifica comprende un ampio ambito". 

Mohammad T. Khasawneh, professore emerito e presidente del Dipartimento di scienza dei sistemi e ingegneria industriale, ha elogiato il lavoro di Hamed: "Siamo entusiasti di avere il dott. Ahmed Abdeen Hamed come parte del nostro team, che lavora su idee così rivoluzionarie. In un'epoca in cui i "deepfake" sono sempre più diffusi, la sua ricerca è incredibilmente attuale e pertinente. 

Attendiamo con ansia ulteriori collaborazioni e progressi nel suo lavoro". Per perfezionare xFakeSci, Hamed prevede di ampliare l'applicabilità dell'algoritmo a una gamma più ampia di argomenti oltre alla medicina, tra cui ingegneria, altre discipline scientifiche e discipline umanistiche. Prevede inoltre che l'intelligenza artificiale continuerà a evolversi, rendendo sempre più difficile distinguere tra contenuti autentici e generati dall'intelligenza artificiale. 

"Dovremo sempre recuperare terreno a meno che non sviluppiamo una soluzione completa", ha affermato. "Abbiamo molto lavoro da fare per identificare uno schema generale o creare un algoritmo universale che non sia legato a una versione specifica dell'intelligenza artificiale generativa". 

Sebbene il loro algoritmo rilevi il 94% dei documenti generati dall'intelligenza artificiale, Hamed ha sottolineato la necessità di cautela: "Ciò significa che 6 documenti falsi su 100 riescono comunque a passare. Dobbiamo restare umili riguardo ai nostri risultati. Sebbene abbiamo fatto passi da gigante nella sensibilizzazione, c'è ancora molto da fare".