Alors que l’IA générative, comme ChatGPT, devient capable de produire des articles scientifiques qui semblent légitimes, en particulier pour les personnes extérieures au domaine, comment pouvons-nous identifier ceux qui sont faux ?
Ahmed Abdeen Hamed, chercheur invité au Thomas J. Watson College of Engineering and Applied Science de l’université de Binghamton, a développé un algorithme d’apprentissage automatique appelé xFakeSci, qui peut détecter jusqu’à 94 % des articles scientifiques contrefaits, un taux de réussite presque deux fois supérieur à celui des méthodes d’exploration de données conventionnelles.
« Mes principales recherches portent sur l’informatique biomédicale, mais comme je travaille sur des publications médicales, des essais cliniques, des ressources en ligne et l’exploration des médias sociaux, je suis constamment préoccupé par l’authenticité des connaissances diffusées », a déclaré Hamed, membre du laboratoire de systèmes adaptatifs complexes et d’intelligence computationnelle du professeur de science des systèmes George J. Klir Luis M. Rocha.
« La littérature biomédicale, en particulier pendant la pandémie mondiale, a été considérablement affectée par la diffusion de fausses recherches. »
Dans une étude récente publiée dans Scientific Reports, Hamed et son collaborateur Xindong Wu, professeur à l’université de technologie de Hefei en Chine, ont généré 50 faux articles sur trois sujets médicaux courants (Alzheimer, cancer et dépression) et les ont comparés à un nombre égal d’articles authentiques sur les mêmes sujets.
Hamed a expliqué que lorsqu’il a demandé des articles générés par l’IA à ChatGPT, « j’ai utilisé les mêmes mots-clés que ceux que j’ai utilisés pour récupérer la littérature de la base de données PubMed des National Institutes of Health afin de garantir une base de comparaison cohérente. Je soupçonnais qu’il devait y avoir des modèles discernables distinguant le contenu factice de la recherche authentique, mais je n’étais pas sûr de ce que seraient ces modèles. »
Après avoir mené des expériences, Hamed a programmé xFakeSci pour analyser deux caractéristiques principales dans la rédaction de ces articles. La première caractéristique était la fréquence et l’utilisation des bigrammes, deux mots qui apparaissent souvent ensemble, comme « changement climatique », « essais cliniques » ou « littérature biomédicale ». La deuxième caractéristique examinait la manière dont ces bigrammes étaient connectés à d’autres mots et concepts dans le texte.
« L’observation la plus frappante a été que le nombre de bigrammes dans les faux articles était significativement plus faible que dans les articles authentiques, où les bigrammes étaient plus abondants et variés », a noté Hamed. « De plus, malgré la fréquence plus faible des bigrammes dans les faux articles, ils étaient fortement liés à d’autres parties du texte. »
Hamed et Wu émettent l’hypothèse que les différences de style d’écriture proviennent du fait que les chercheurs humains et le contenu généré par l’IA ont des objectifs distincts. Les chercheurs humains visent à rendre compte des résultats de manière honnête et transparente, tandis que les systèmes d’IA, comme ChatGPT, sont conçus pour persuader les lecteurs en mettant l’accent sur des termes spécifiques, manquant souvent de la profondeur contextuelle large qui caractérise la véritable recherche scientifique.
« ChatGPT, limité par ses connaissances actuelles, tente de convaincre les lecteurs en se concentrant sur les mots les plus percutants », a déclaré Hamed. « Le rôle d’un scientifique n’est pas de convaincre mais de rapporter avec précision les résultats et les méthodologies expérimentales. Alors que ChatGPT se concentre sur la profondeur dans un seul domaine, la véritable recherche scientifique englobe un large champ d’application. »
Mohammad T. Khasawneh, professeur émérite et président du département des sciences des systèmes et de l’ingénierie industrielle, a salué le travail de Hamed : « Nous sommes ravis d’avoir le Dr Ahmed Abdeen Hamed au sein de notre équipe, travaillant sur des idées aussi révolutionnaires. À une époque où les « deepfakes » sont de plus en plus répandus, ses recherches sont incroyablement actuelles et pertinentes. Nous attendons avec impatience de nouvelles collaborations et avancées dans son travail. »
Pour affiner xFakeSci, Hamed prévoit d’élargir l’applicabilité de l’algorithme à un plus large éventail de sujets au-delà de la médecine, y compris l’ingénierie, d’autres disciplines scientifiques et les sciences humaines. Il prévoit également que l’IA continuera d’évoluer, ce qui rendra de plus en plus difficile la distinction entre le contenu authentique et le contenu généré par l’IA.
« Nous serons toujours en retard à moins de développer une solution complète », a-t-il déclaré. « Nous avons un travail important à accomplir pour identifier un modèle général ou créer un algorithme universel qui ne soit pas lié à une version spécifique de l’IA générative. »
Bien que leur algorithme détecte 94 % des articles générés par l’IA, Hamed a souligné la nécessité de faire preuve de prudence : « Cela signifie que 6 articles falsifiés sur 100 passent encore entre les mailles du filet. Nous devons rester humbles quant à nos réalisations. Bien que nous ayons fait des progrès significatifs en matière de sensibilisation, il reste encore beaucoup à faire. »