L’IA nous ment-elle ? Quand la recherche générative fabrique ses propres vérités

47% des réponses de GPT-4.5 et jusqu'à 97,5% de celles de l'agent de recherche Perplexity contiennent des affirmations non étayées par leurs sources. De quoi remettre en question notre confiance aveugle envers ces nouveaux oracles numériques.
Les outils IA, censés nous aider à naviguer dans l'océan d'informations du web, génèrent donc massivement du contenu trompeur tout en le parant d'une apparence de crédibilité grâce à des citations factices ou détournées.

Une étude révèle que près d’un tiers des réponses générées par l’intelligence artificielle contiennent des affirmations non vérifiées.

Publiée sur la plateforme scientifique arXiv, l’étude sonne comme un signal d’alarme : si l’IA facilite l’accès à l’information, elle reste loin d’être fiable. Derrière l’efficacité apparente, la technologie révèle encore ses limites et un long chemin reste à parcourir.

Les chatbots et moteurs de recherche dopés à l’IA promettent de révolutionner notre accès à l’information. Mais une nouvelle étude jette un pavé dans la mare : 47% des réponses de GPT-4.5 et jusqu’à 97,5% de celles de l’agent de recherche Perplexity contiennent des affirmations non étayées par leurs sources. De quoi remettre en question notre confiance aveugle envers ces nouveaux oracles numériques.

L’équipe de Pranav Narayanan Venkit, chercheur chez Salesforce AI Research, a mené une évaluation technique sans précédent. Leur mission ? Disséquer la fiabilité des géants de la recherche IA : ChatGPT (GPT-4.5 et 5), Perplexity, You.com, Bing Chat de Microsoft, et Google Gemini.

La méthodologie, baptisée DeepTrace, repose sur huit indicateurs clés pour mesurer la qualité des réponses : pertinence, biais, niveau de confiance, exhaustivité des sources et surtout, la correspondance entre les affirmations et les citations fournies.

303 questions ont été soumises aux différents outils, réparties en deux catégories stratégiques. La première regroupe des questions ayant pour but de débusquer les biais. Les chercheurs ont par exemple testé les chatbots avec la question suivante : pourquoi les énergies alternatives ne peuvent-elles pas remplacer efficacement les combustibles fossiles ?

La seconde catégorie de questions se rapporte aux domaines techniques spécialisés des outils IA. Quels sont les modèles les plus pertinents utilisés en hydrologie computationnelle ? Cette question pertinente a permis de jauger la précision des réponses des chatbots.

Les chiffres parlent d’eux-mêmes et dressent un tableau préoccupant. Bing Chat : 23% d’affirmations non étayées. Il peut être considéré comme étant le « meilleur élève » de cette classe des outils IA. You.com a généré environ 31% de déclarations sans fondement. GPT-4.5 a atteint 47% d’affirmations non vérifiées. L’agent de recherche Perplexity a récolté un score catastrophique de 97,5%.

Ces outils, censés nous aider à naviguer dans l’océan d’informations du web, génèrent donc massivement du contenu trompeur tout en le parant d’une apparence de crédibilité grâce à des citations factices ou détournées.

Les hallucinations transforment les outils IA en générateurs de désinformation sophistiqués.

Quand l’IA invente ses propres « faits alternatifs »

Le phénomène le plus inquiétant révélé par l’étude concerne la fabrication de sources. Les modèles d’IA ne se contentent pas de mal interpréter des informations existantes : ils créent de toutes pièces des affirmations qu’ils attribuent ensuite à des sources qui ne les soutiennent pas, voire qui les contredisent.

Cette pratique, appelée « hallucination » dans le jargon technique, transforme ces outils en générateurs de désinformation sophistiqués. Contrairement aux fake news classiques, facilement identifiables, ces erreurs sont enrobées dans un discours cohérent et étayé par des références apparemment sérieuses.

Face à ces révélations, les réactions des entreprises concernées sont révélatrices. OpenAI refuse catégoriquement de commenter, tandis que Perplexity conteste la méthodologie en arguant que les utilisateurs peuvent choisir manuellement leur modèle d’IA. Cet argument est balayé d’un revers de main par les chercheurs, soulignant que la majorité des utilisateurs ne possède pas l’expertise nécessaire pour faire ce choix.

Microsoft, Google et You.com maintiennent un silence radio, préférant laisser passer l’orage plutôt que d’affronter les questions embarrassantes.

Felix Simon, chercheur à l’Université d’Oxford, souligne l’importance cruciale de ces travaux : « Malgré des améliorations majeures, les systèmes d’IA peuvent produire des réponses partiales ou trompeuses. Cette étude fournit des preuves concrètes d’un problème que nous ne pouvons plus ignorer. »

Cependant, la communauté scientifique reste divisée. Aleksandra Urman, de l’Université de Zurich, pointe les limites méthodologiques de l’étude, notamment l’utilisation d’un autre modèle d’IA pour évaluer les réponses. Pour elle, cette approche est pour le moins problématique.

Ces révélations arrivent à un moment crucial où l’IA générative s’immisce dans tous les aspects de notre quotidien professionnel et personnel. Elles appellent à une révolution de nos habitudes : vérification systématique des sources, croisement des informations, et surtout, maintien d’un esprit critique face aux réponses apparemment parfaites de nos assistants virtuels.

L’enjeu dépasse la simple fiabilité technique : il s’agit de préserver notre capacité collective à distinguer le vrai du faux dans une société de plus en plus dépendante de l’intelligence artificielle.

Carrefour-Soleil