Une intelligence artificielle a-t-elle réussi le test de Turing ?

Publiée par :

Le 19/01/2025 à 16h01 1516 vues

Question d'origine :

Bonjour !

Je souhaiterais savoir si une intelligence artificielle a été capable de réussir le test de Turing en 2024. Les infos fiables sont difficilement accessibles..

Des liens vers des sites anglophones m'intéressent.

Merci !

Réponse du Guichet

gds_eg - Département : Equipe du Guichet du Savoir

Le 22/01/2025 à 10h27

L'étude 2024 "A Turing test of whether AI chatbots are behaviorally similar to humans" dirigée par Matthew Jackson et publiée sur le site de PNAS donne accès à de nombreuses références bibliographiques anglophones fiables.

Dans cette étude, l'équipe de recherche considère que les deux modèles GPT-3.5 et GPT-4 ont réussi le test de Turing et présentent des signes de comportement complexe de type humain.

Cependant, des inquiétudes existent quant au manque de diversité des personnalités et des stratégies que mettent en place les chatbots quand elles sont placées dans de nouveaux environnements et qu’elles doivent prendre de nouvelles décisions importantes.

Bonjour,

L'Intelligence Artificielle (IA) a t-elle réussi le test de Turing en 2024 ?

Quid du test de Turing

Le test de Turing, initialement appelé "jeu d’imitation" par Alan Turing en 1950, permet de déterminer si la capacité d’une machine à converser est équivalente et indiscernable de celle d’un humain. Pour qu’une machine réussisse le test, elle doit être en mesure d’engager une conversation avec une personne tout en lui donnant l’illusion qu’elle est humaine. Alan Turing avançait que les systèmes d’IA seraient un jour si performants au jeu de l’imitation humaine qu’un interrogateur humain n’aurait pas plus de 70 % de chances de faire la différence entre la machine et l’humain en 5 minutes d’interaction. Ainsi, le taux de réussite pour qu’une machine passe le test de Turing a été établi à 30 %.

À cette question [une IA peut-elle se faire passer pour un humain ?], formulée dès 1950 dans l’article "Computing Machinery and Intelligence", Alan Turing répondait déjà qu’elle était mal posée, car la nature même de ce qu’est la pensée nous échappe. En revanche, en pensant aux récents premiers "ordinateurs", Turing imagine "que les machines pourront égaler les hommes dans tous les domaines purement intellectuels". À ses yeux, la question est moins de savoir si les machines pensent, mais si elles sont capables d’émuler les comportements humains. Un programme peut-il tromper l’homme dans un "jeu d’imitation" ?

Source : Turing / Searle : une IA peut-elle se faire passer pour un humain ? (Philosophie Magazine, 2023)

Les IA GPT-3.5 et GPT-4 d’OpenAI réussissent le test de Turing en 2024

En 2024, GPT-4 d’OpenAI a largement dépassé le test de Turing, selon une expérience récente du département des sciences cognitives de l’Université de Californie à San Diego (UCSD), décrite dans l'article du site Trust my science GPT-4 a réussi le test de Turing. Une première mondiale.

Dans cette étude publiée sur PNAS (Proceedings of the National Academy of Sciences), l’équipe de recherche de l’UCSD dirigée par Matthew Jackson donne accès à de nombreuses références bibliographiques. Elle considère que les deux modèles GPT-3.5 et GPT-4 ont réussi le test de Turing. D’après eux, c’est surtout le taux de 54 % obtenu par GPT-4 qui est intéressant, car il se situe au-delà d’un taux pouvant être attribué au hasard pur (la fameuse référence du jeu pile ou face, dans lequel face et pile ont exactement 50 % de chance chacun d’apparaître).

Des chercheurs de l’UCSD ont effectué un test de Turing randomisé, contrôlé et préenregistré. Au cours de cette expérience, ils ont évalué trois systèmes : le chatbot ELIZA (le tout premier chatbot, créé dans les années 1960 pour simuler un psychothérapeute), GPT-3.5 et GPT-4.

L’équipe a rassemblé 500 participants et les a divisés en 4 groupes : l’un des groupes devait discuter avec un humain, tandis que les trois autres devaient interagir avec l’un des trois modèles d’IA. Les conversations ont duré cinq minutes. Les participants devaient ensuite faire part de leur avis global et annoncer si leur interlocuteur était selon eux humain ou non.

Les taux de réussite (c’est-à-dire le taux de conversations identifiées comme "humaines") pour chaque groupe étaient les suivants : ELIZA, qui est un système préprogrammé dépourvu de grand modèle de langage (LLM), a été jugé humain dans seulement 22 % des cas ; GPT-3.5 a obtenu un score de 50 %, tandis que GPT-4 a été considéré comme humain dans 54 % des cas ; le participant humain quant à lui a obtenu un score de seulement 67 % !

Source : GPT-4 a réussi le test de Turing. Une première mondiale (Trust my science, 2024)

"Les machines peuvent confabuler, en rassemblant des justifications plausibles a posteriori, comme le font les humains", a déclaré Nell Watson, chercheuse en IA à l’Institute of Electrical and Electronics Engineers (IEEE). "Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d’IA expriment des émotions semblables à celles de l’homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies", poursuit Watson.

Source : GPT-4 a réussi le test de Turing. Une première mondiale(Trust my science, 2024)

Un test réussi ... mais il existe des inquiétudes quant au manque de personnalité et de stratégie par rapport à la population humaine, notamment quand les chatbots sont placés dans de nouveaux environnements et qu'ils doivent prendre de nouvelles décisions.

L'étude 2024 A Turing test of whether AI chatbots are behaviorally similar to humans Contributed by Matthew Jackson donne des conclusions nuancées sur les résultats du test de Turing.

Les conclusions de l'étude se résument ainsi : l'IA présente des signes de comportement complexe de type humain, tels que l’apprentissage et les changements de comportement par rapport au jeu de rôle. Lorsque l’IA s’écarte du comportement humain, les écarts vont dans une direction positive : elle agit comme si elle était plus altruiste et coopérative. Cela pourrait rendre l’IA bien adaptée aux rôles nécessitant la négociation, la résolution de conflits ou la prestation de soins, et pourrait réaliser le rêve de produire une IA "plus humaine qu’humaine". Sa rationalité et sa constance rendent l’IA très attrayante pour divers contextes de prise de décision et la rendent plus stable et prévisible. Cependant, des inquiétudes existent quant au manque de diversité des personnalités et des stratégies (par rapport à la population humaine), en particulier lorsqu’elles sont placées dans de nouveaux environnements et qu’elles doivent prendre de nouvelles décisions importantes.

The observation that ChatGPT’s, especially ChatGPT-4’s, behavior is more concentrated and consistent evokes both optimism and apprehension. This is similar to what might happen if a single human were compared to the population. However, the chatbots are used in technologies that interact with huge numbers of others and so this narrowness has consequences. Positively, its rationality and constancy make AI highly attractive for various decision-making contexts and make it more stable and predictable. However, this also raises concerns regarding the potential loss of diversity in personalities and strategies (compared to the human population), especially when put into new settings and making important new decisions.

Source : A Turing test of whether AI chatbots are behaviorally similar to humans Contributed by Matthew Jackson (PNAS, 2024)

L'article de Stanford Université, The most recent version of ChatGPT passes a rigorous Turing test, diverging from average human behavior chiefly to be more cooperative publié en 2024, évoque également le manque de personnalité des chatbots.

The researchers evaluated the bots’ personality traits using a common personality test, called the OCEAN Big-5, that scores respondents on five basic traits that shape behavior. In the study, ChatGPT’s version 4 tested within normal ranges for the five traits but showed itself only as agreeable as the bottom third of human respondents. The bot passed the Turing test, but it would not have won itself many friends.

It’s nice to know that our new chatbot colleagues are fair and seemingly empathetic, for example, but Jackson and his co-authors note in the paper that their tendency to replicate middle-of-the-road human behaviors could lead to “loss of diversity in personalities and strategies—especially when being put into new settings and making important new decisions.”

Source : The most recent version of ChatGPT passes a rigorous Turing test, diverging from average human behavior chiefly to be more cooperative (Stanford University, 2024)

Frédéric Manzini dans son article, GPT-4 a réussi le test de Turing… mais il manque encore de personnalité, publié le 25 juin 2024 sur philomag.com, montre que la question de la personnalité est un problème sur lequel viennent buter les progrès de l'IA.

En ce qui concerne GPT-3.5 et GPT-4 qui ont réussi le test, des propos venant de ces chatbots ont parus en effet comme "excessivement informels" ou "manquant de personnalité" aux interlocuteurs humains.

De plus en plus interactives et donc "sociables", les intelligences artificielles souffriraient donc encore d’un léger mais tenace manque de personnalité pour paraître pleinement humaines : ce serait en elle que résiderait le véritable noyau dur du propre de l’homme…

Il n’est pas anodin que ce soit sur la question de la personnalité que viennent buter les progrès l’IA, tant celle-ci est difficile à appréhender. "On peut considérer la personnalité comme le problème central de la philosophie", considérait Bergson dans ses Conférences d’Edimbourg prononcées en 1914.

Problème primordial pour les philosophes, la personnalité est, à n’en pas douter, une question tout aussi centrale pour les ingénieurs qui, à partir de données élémentaires, essaient de reconstituer quelque chose comme le tout d’une conscience humaine. Qu’à cela ne tienne : ceux qui planchent actuellement sur la version 5 du modèle GPT seraient bien inspirés de se plonger dans l’étude de Bergson, s’ils veulent améliorer encore davantage les scores de leurs programmes informatiques dans l’avenir.

Source : GPT-4 a réussi le test de Turing… mais il manque encore de personnalité (Philosophie Magazine, 2024)

Il existe aussi des critiques émises par la communauté scientifique sur la pertinence du test de Turing, jugé trop simpliste dans son approche, comme l'évoque l'article GPT-4 has passed the Turing test, researchers claim sur Livescience.

Les scientifiques ont fait valoir que les critiques sur le test de Turing, jugé trop simpliste dans son approche, étaient fondées, affirmant que "les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence" : ce qui compte vraiment, c’est d’être suffisamment intelligent pour comprendre une situation, les compétences des autres et d’avoir l’empathie nécessaire pour relier ces éléments entre eux.

The scientists also argued there are valid criticisms of the Turing test being too simplistic in its approach, saying "stylistic and socio-emotional factors play a larger role in passing the Turing test than traditional notions of intelligence." This suggests that we have been looking in the wrong place for machine intelligence.

Source : GPT-4 has passed the Turing test, researchers claim (Livescience, 2024)

Un Hors-série de philosophie magazine de mai 2023 Turing / Searle : une IA peut-elle se faire passer pour un humain ? se penche également sur le débat qui opposa le mathématicien Alan Turing et le philosophe John Searle, à trois décennies d'écart. La critique la plus célèbre sur la pertinence du test de Turing est en effet celle élaborée par John Searle dans son article "Minds, Brains and Programs » (Behavioral and Brain Sciences n° 3, 1980) qui stipule que l’émulation du comportement linguistique n’est pas suffisante pour indiquer l’existence d’une conscience intentionnelle chez la machine.

Dans son article Suffit-il à un ordinateur de parler pour penser ? publié le 03 juillet 2014, Samuel Webb interroge la pertinence du Turing Test 2014 au cours de laquelle Eugène, a réussi à faire croire à dix juges sur trente qu’il était un adolescent ukrainien durant cinq minutes.

À la question épineuse "Les machines peuvent-elles penser ?", Turing a proposé une réponse habile et indirecte, en fixant les règles de ce qu’il appelle le " jeu de l’imitation". En résumé, une personne communique à l’aveugle par messages écrits interposés avec deux partenaires, dont l’un est un humain et l’autre un ordinateur qui essaie de se faire passer pour un humain. Le test est considéré réussi si le juge n’arrive pas à déterminer qui est l’humain et qui est la machine.

Ceci n’élude pourtant pas la question centrale : si un chatbot peut discuter avec vous en se faisant passer pour un humain, cela signifie-t-il que le programme pense ? Le philosophe John R. Searle ne le croit pas, lui qui a opposé au test de Turing le célèbre exemple de la "chambre chinoise" (1980). Supposons qu’un homme soit enfermé dans une pièce et qu’on lui transmette des messages en caractères chinois. Cet homme ne lit pas cette langue, mais il dispose d’un manuel, qui lui permet de trouver, pour chaque question posée, une petite plaquette sur laquelle une réponse appropriée est calligraphiée. Le questionneur, à l’extérieur de la chambre, aura l’illusion de converser avec quelqu’un qui connaît le chinois. Or, il n’en est rien. L’ordinateur ne comprend pas ce qu’il dit. Il exécute des règles syntaxiques, mais sans contenu sémantique – les mots n’ont pas de sens pour lui.

Aller plus loin sur les plateformes scientifiques

Turing Undecidability and Incompleteness (Presses universitaires de Cambridge, 2024)

Aux sources du numérique, le modèle Turing par Catherine Bernstein (Hypothèses, magazine académique de sciences humaines et sociales, 2017)

L’IA Bard de Google a réussi (subjectivement, à mes yeux) le test de Turing et cela pose à mon avis de grandes questions éthiques et anthropologiques, Anthropologie des interfaces Homme/Machine ((Hypothèses, magazine académique de sciences humaines et sociales, 2023)

Turing et la dimension ontologique du jeu, Philosophia Scientiæ [Online] (Open Edition journals, 2012)

Captcha: Completely annoying public Turing test to tell computers and humans apart (Hypothèses, magazine académique de sciences humaines et sociales, 2022)

Aller plus loin avec les livres de la BML

L'essentiel de l'intelligence artificielle / Samuel Nowakowski

L'IA consciente n'est plus une utopie ! : il est encore temps de s'y préparer / Jérôme Béranger

La guerre des intelligences : à l'heure de ChatGPT / Dr Laurent Alexandre

Tout sur ChatGPT : le comprendre et l'utiliser / Thomas Bomboh

ChatGPT décodé : comment fonctionne l'IA qui révolutionne notre monde ? / Stephen Wolfram