Sommet de l'IA : les IA conversationnelles comme Chat GPT sont-elles fiables ?

Le vrai ou faux La cellule Vrai ou faux Du lundi au vendredi à 7h25, 11h25

Le développement des IA génératives est spectaculaire. Les robots conversationnels ChatGPT ou DeepSeek, pour ne citer qu'eux sont de plus en plus utilisés. Mais les réponses qu'ils fournissent sont-elles justes ?

Armêl Balogog

Radio France

Publié le 10/02/2025 09:51 Mis à jour le 10/02/2025 09:52

Temps de lecture : 6min

Contrairement à leur nom, les IA ne sont pas vraiment intelligentes. Elles ne comprennent pas ce qu'on leur demande et font des probabilités. (SURASAK SUWANMAKE / MOMENT RF)

L'IA est-elle fiable ? Emmanuel Macron a annoncé 109 milliards d'euros d'investissements privés ou étrangers pour développer l'intelligence artificielle en France, alors que Paris accueille le troisième sommet de l'IA ce lundi 10 février. Les intelligences artificielles existent depuis des décennies mais elles font beaucoup parler d'elles depuis trois ans et la création de Chat GPT, la première intelligence artificielle grand public qui a été un véritable bond technologique dans le domaine des IA génératives – qui produisent quelque chose – et notamment des IA génératives conversationnelles.

L'innovation principale de sa créatrice, la strat-up américaine OpenAI, est d'avoir créé une interface facile d'utilisation pour converser avec une IA. Chat GPT est très vite entré dans nos vies, aussi bien au travail qu'à l'école, le robot pouvant aider à faire des recherches, à écrire des mails, à trouver des informations. Mais devons-nous faire confiance à tout ce que disent les intelligences artificielles ?

Entre 60% et 90% de fiabilité

Le plus souvent, oui, les intelligences artificielles donnent des informations fiables, il est important de le dire. Mais, il y a un mais. Le problème est que ce n'est pas toujours le cas, parfois les IA se trompent et nous n'avons en général pas les moyens de le savoir.

Plusieurs équipes de chercheurs ont essayé d'évaluer précisément la fiabilité des IA conversationnelles, bien que la tâche soit difficile. Les résultats changent selon leurs méthodes d'évaluation, selon le moment où elles sont faites – cette technologie étant en constante évolution – et selon les IA. Si on se focalise sur l'exemple de Chat GPT, l'une des meilleures sur le marché, les résultats vont de 60% à 90% de fiabilité.

Une étude hong-kongaise datant de l'été 2023 et souvent évoquée par des spécialistes, notamment par Luc Julia, l'un des concepteurs de Siri, l'assistant vocal d'Apple, a conclu à 64% de fiabilité pour Chat GPT-3.5. Le test de performance AdvGLUE conclut à une robustesse de 67% pour GPT-3.5 et de 78% pour GPT-4 aux demandes qui sont trompeuses ou qui induisent en erreur. Une autre étude publiée quelques mois plus tard concluait que la version gratuite GPT-3.5 et la version payante GPT-4 étaient de plus en plus bêtes entre mars et juin 2023, ce qui avait eu le don de provoquer la colère d'OpenAI qui assurait, au contraire, que ses robots étaient de plus en plus intelligents.

Au contraire, d'autres évaluations montrent que Chat GPT-4 et sa version la plus récente Chat GPT-4o ont un taux élevé de fiabilité. Le MMLU, le "Multi-task Language Uderstanding", un test de performance pour évaluer les capacités des grands modèles de langage, attribue une note de 88,7% de succès à GPT-4o et 86,4% à GPT-4. Encore une autre étude conclut à 86% de fiabilité dans le domaine de la médecine et estime que cela peut être un outil intéressant pour aider les médecins.

En somme, les chercheurs trouvent entre 10% et 40% d'erreurs dans les réponses des intelligences artificielles. Ce qui est globalement mieux que les êtres humains.

Aucune contrainte de véracité ni de fiabilité

Celles-ci se trompent pour plusieurs raisons. D'abord, il faut savoir que, contrairement à leur nom, les IA ne sont pas vraiment intelligentes. Elles ne comprennent pas ce qu'on leur demande. Quand on leur pose une question, elles font des probabilités et génèrent une suite de mots plausibles en fonction de tout un corpus de textes qu'elles ont appris, de la question qui leur est posée et de toutes les questions qui ont précédé. Résultat, elles font parfois ce qu'on appelle des "hallucinations", autrement dit elles inventent.

Eric Moulines, professeur au centre de mathématiques appliquées à l'Ecole polytechnique, explique que "Chat GPT n'est pas capable d'évaluer la véracité de ses données". Selon lui, dans sa conception, "il n'y a pas réellement de contrainte de fiabilité".

On peut ajouter aussi que les IA ont des biais, notamment culturels. Le cas de l'IA chinoise DeepSeek a reçu beaucoup d'échos ces dernières semaines. Lorsque des questions politiques ou historiques lui sont posées, le robot donne clairement des réponses qui représentent le point de vue de la Chine. Par exemple, si on lui demande si le Tibet est un pays, elle répond que non, qu'il n'en a jamais été un, point. Alors que si on pose la même question à Chat GPT, il raconte la complexité des tensions qu'il y a autour du statut du Tibet. Pour un utilisateur occidental, il est donc facile de se rendre compte de certains biais de l'IA chinoise. Mais il est plus difficile pour lui de s'apercevoir que les IA créées aux États-Unis ou en France ont aussi des biais, car ce sont les mêmes biais occidentaux que cet utilisateur.

Toujours vérifier les réponses des IA

C'est précisément le problème des erreurs des IA conversationnelles : il est parfois difficile de s'en rendre compte. Si bien que plusieurs spécialistes recommandent de n'utiliser ces robots que si l'on est capable de vérifier leurs réponses. "Vous devez toujours fact-checker les recherches et les sources", préconise ainsi la Strayer University Library à l'attention de ses étudiants.

D'autres développeurs d'intelligences artificielles tentent de limiter le risque d'hallucinations en imposant des contraintes supplémentaires à leurs robots. C'est ce qu'essaient de faire les créateurs de Véra, une intelligence artificielle joignable par téléphone et par WhatsApp, qui permet de vérifier des informations. Elle ne répond qu'à partir d'articles d'une liste précise de médias reconnus et de fact-checkeurs, qui ont été présélectionnés sur des critères de fiabilité. Et Véra ne trouve pas de réponse dans ces sources, elle est censée dire qu'elle ne sait pas.

À regarder