Que comprend-on de ce que « comprend » ChatGPT ?

Les grands modèles de langue de l’IA générative d’aujourd’hui signent-ils « l’émergence » de « facultés de raisonnement » ?

^{GPT‑3 : une « émergence » qui ne serait qu’une question d’échelle ?}

En 2020, dans l’article qui annonce et décrit GPT‑3, les ingénieurs d’OpenAI remarquent que le modèle est capable de réaliser des tâches pour lesquelles il n’a pas été spécifiquement entraîné, pour peu qu’on lui en montre seulement un ou quelques exemples (one shot ou few shot learning), voire qu’on lui en donne directement l’instruction, sans lui montrer d’exemple (zero shot)¹. Parmi ces tâches, écrivent les auteurs, certaines « requièrent un raisonnement à la volée ou de s’adapter à un domaine, comme remettre des mots dans l’ordre, utiliser un mot nouveau dans une phrase, ou faire des opérations arithmétiques à trois chiffres² ».

Jusqu’alors, on considérait que l’entraînement du modèle ne lui conférait qu’une capacité à produire du texte (d’où le nom de pretraining). Pour que cette capacité soit mise au service de tâches spécifiques, il fallait ensuite l’entraîner pour, c’est-à-dire lui en soumettre de nombreux exemples afin que le modèle ajuste ses paramètres et en intègre le champ lexical, ainsi que les procédures (fine-tuning). Avec GPT‑3, les quelques exemples montrés ne donnent pas lieu à un ajustement des paramètres : le modèle aurait déjà intégré des notions et procédures lui permettant de traiter des tâches élaborées et spécialisées (en arithmétique, en médecine…), et ce, dès la phase d’acquisition du langage (ou pretraining).

D’après les auteurs, l’augmentation de la taille des modèles leur aurait permis non seulement cette intégration de compétences mais surtout l’acquisition d’une capacité de généralisation, c’est-à-dire la faculté d’appliquer ces compétences à des tâches nouvelles et dans des domaines inconnus. Entre 2018 et 2020, la taille des modèles est passée d’environ 100 millions de paramètres à 17 milliards. Avec ses 175 milliards de paramètres, GPT‑3 les fait passer à une échelle encore supérieure et semble d’autant plus mériter le qualificatif de « grand » modèle de langue (Large Langage Model ou LLM) que la taille compte : c’est d’elle, d’un effet d’échelle, qu’il tirerait ses surprenantes capacités.

Produire un modèle généraliste sans avoir à l’entraîner sur des tâches spécifiques (« perfoming unsupervised multitask learning ») était déjà l’objectif affiché au moment de la présentation de GPT-2. Mais avec GPT‑3, le but déclaré est de « tester l’hypothèse » qu’il suffirait, pour atteindre cet objectif, d’augmenter la taille du modèle. Le « passage à l’échelle » (scaling up) est devenu la seule méthode, ou absence de méthode, en lieu et place du fine-tuning ou d’autres méthodes comme le meta-learning.

Dans un article publié un peu avant la présentation de GPT‑3 (janvier 2020³), des chercheurs du même groupe d’auteurs avaient mis en évidence l’apparence d’une loi d’échelle entre les performances des modèles et leur taille, et contribué à installer l’idée qu’il suffit d’augmenter la taille des modèles (ce qui, en termes d’ingénierie, n’est pas une mince affaire) pour les faire progresser. Après GPT‑3, les modèles franchissent le seuil de 500 milliards, puis du trillion de paramètres. Comme la qualité et la variété des performances mesurées continuent à s’améliorer, cela semble confirmer l’hypothèse selon laquelle la taille suffit. En 2022, Nando de Freitas, de DeepMind, exprime sur Twitter le nouveau paradigme : « It’s all about scale now ⁴ ! ».

En octobre 2022, Wei et al. qualifient de « capacités émergentes » (emergent abilities) ces facultés constatées chez les grands modèles de langage pour lesquelles ils n’ont pas été spécifiquement entraînés⁵. À partir d’une certaine taille de réseau et de corpus d’entraînement, les LLM deviendraient capables d’inférer des règles de raisonnement généralisables. Pour Webb et al., cela manifeste des capacités d’analogie puisque les LLM seraient capables d’appliquer des règles de raisonnement inférées de la base de données d’entraînement à des problèmes différents⁶. Cela signalerait le triomphe de l’école connexionniste sur l’école symbolique, puisqu’il aurait suffi d’un entraînement sur une vaste base de données d’exemples, sans ajout de règles de logique, ni de notions spécifiques, pour faire « émerger » des capacités de raisonnement et des compétences transférables d’un domaine à l’autre. Ces facultés n’étant observées qu’à partir d’une certaine taille, il y aurait des effets de seuils que Wei et al. comparent aux phénomènes d’émergence étudiés dans des disciplines proches (informatique) ou lointaines (physique, biologie, économie…).

Étant donné la grille de lecture idéologique des ingénieurs du secteur (en particulier chez OpenAI ou DeepMind), on peut imaginer l’excitation intense qui s’empare d’eux : seraient-ils en train d’assister à l’« explosion de l’intelligence » imaginée par le statisticien britannique Irving Good et censée préfigurer la « singularité » ? Auraient-ils, comme le décrivait le mathématicien et par ailleurs écrivain de science-fiction Vernor Vinge, relayé ensuite par l’ingénieur et chantre du transhumanisme Ray Kurzweil, déclenché un phénomène similaire à celui qu’ils imaginent avoir eu lieu au cours de l’évolution − un gigantesque processus d’essais-erreurs dont l’intelligence serait issue, et que leurs tâtonnements algorithmiques auraient reproduit ? Excitation intense qui vient nourrir une sorte de fanatisme : pour Sam Altman, le coût de l’entreprise n’a aucune importance. Peu importent les dizaines de milliards par an, déclare-t-il en avril 2024, puisque « nous bâtissons une intelligence artificielle générale⁷ ».

^{Perroquet idiot et cheval malin : la critique des LLM}

Cette lecture grandiloquente, au sens où elle invoque de « grands mots » (« émergence », « compréhension », « faculté de raisonnement », etc.), trouve vite ses contradicteurs. Des voix s’élèvent pour contester à la fois :

(1) le bien fondé de l’entreprise : est-il désirable de réserver une consommation de ressources aussi phénoménale, avec l’empreinte écologique que cela implique, à un tel projet ?

(2) l’arnaque « morale » d’un projet qui, sous couvert d’œuvrer pour le bien de l’humanité, automatise à grande échelle les travers sexistes et racistes de nos sociétés ;

(3) l’illusion épistémique consistant à attribuer des capacités de « compréhension » aux grands modèles de langue.

En 2020, Emily Bender et al, dans un article qui coûtera leur poste chez Google à deux de ses coautrices, articulent les trois critiques et trouvent, pour la troisième, une punchline qui fera florès : les grands modèles de langue n’étant que des machines à prédire le prochain mot en fonction de sa probabilité, ce ne sont que des « perroquets stochastiques⁸ ». L’expression véhicule l’idée selon laquelle les LLM, comme leur nom l’indique, ne font que modéliser ou modeler la langue, ils en capturent la forme, mais non le sens (meaning), et il est donc abusif de parler de « compréhension » à leur sujet.

Il faut souligner qu’alors que les tenants de l’émergence sont pour leur majorité des hommes, salariés ou actionnaires des grandes entreprises et startups du secteur, à la recherche d’une culbute financière⁹ et/ou du Graal que représente à leurs yeux l’« AGI » (« Artificial General Intelligence »), leurs contradicteurs présentent une plus grande proportion de femmes et sont, pour la plupart, employés d’institutions publiques (universités, centres de recherches), de non-profit organisations − ou bien, comme Timnit Gebru et Margaret Mitchell, ont dû quitter leur poste suite à la formulation de leurs critiques.

En testant astucieusement les modèles de langue, les critiques mettent au jour une variété d’anomalies qui remettent en cause le triomphalisme des équipes d’OpenAI. Berglund et al. montrent que les savoirs encodés par les LLM sont inconsistants : par exemple, alors que GPT-4 peut donner le nom de la mère de Tom Cruise (Mary L. Pfeiffer), il est incapable de répondre à la question inverse (qui est le fils de Mary L. Pfeiffer ?)¹⁰. Si les LLM sont une forme émergente de raisonnement, comment se fait-il qu’ils échouent à appliquer un principe aussi basique que celui d’identité (si A=B alors B=A) ?

En testant GPT-4 sur des problèmes de programmation, Horace He remarque que la qualité des réponses est corrélée à la date de publication des problèmes. Elle passe de 100 % pour les problèmes antérieurs à 2021, à 0 pour les problèmes postérieurs. GPT-4 ne ferait-il que restituer ce qu’il a mémorisé au cours de son entraînement ? McCoy et al. montrent que les performances des LLM s’effondrent dès que les problèmes soumis s’éloignent trop de ceux recensés dans la base de données d’entraînement, ce qui les conduit à affirmer que les capacités des LLM pour une tâche donnée dépendent fortement de leur familiarité avec la tâche¹¹. Comment, dès lors, défendre leur soi-disant aptitude à la généralisation, c’est-à-dire à appliquer une procédure apprise sur un problème jamais vu ? Les LLM ne savent peut-être répondre qu’aux questions qui ressemblent à ce qu’ils ont déjà vu, mais cela est difficile à mettre en évidence puisqu’ils ont été entraînés sur l’ensemble des textes numérisés disponibles. « Comment évaluer des modèles entraînés sur l’ensemble d’internet ? Quelle question poser à quelque chose qui a vu la totalité du savoir écrit ? », se demande Saurabh Srivastava¹².

Les LLM sont donc comparés à un étudiant ou à un candidat, en apparence excellent, que l’on soupçonnerait d’avoir pris connaissance des réponses à un examen, et qui, sans les apprendre par cœur, aurait trouvé le moyen de répondre de manière à satisfaire les examinateurs. Les LLM ne vont pas, à proprement parler, « chercher » d’information dans une base de données mais proposent les mots les plus probables pour compléter un texte, ici le prompt. Ce qu’ils ont en mémoire n’est pas une base de données de faits ou de « réponses », mais les probabilités associant tel texte à un autre.
ChatGPT saurait « ce qu’il faut dire » pour satisfaire son interlocuteur sans « savoir » de quoi il parle − ce qui lui a valu le sobriquet de « plus grand bullshitter de tous les temps¹³ » puisque, selon la définition canonique apportée par Harry Frankfurt, le bullshit se définit comme un discours visant à persuader l’interlocuteur indifféremment de sa valeur de vérité.

Pour démasquer un étudiant tricheur, l’examinateur peut changer astucieusement les questions afin que l’étudiant ne puisse pas faire le lien avec les réponses qu’il a indûment consultées, et soit donc contraint de réfléchir pour répondre. Ainsi, à ceux qui font valoir les stupéfiantes performances des LLM à l’examen du barreau, de médecine, d’un MBA, ou sur des tests (appelés benchmarks) spécialisés, il est possible de rétorquer, exemples à l’appui, qu’il suffit de modifier l’intitulé des questions ou de varier les tâches pour que lesdites performances s’effondrent, ou bien de soumettre les LLM à des contre-tests qui les prennent en défaut, non sur des compétences de haut niveau, mais sur les notions de bases que celles-ci présupposent (comme la relation d’identité, déjà mentionnée), ce qui remet en question qu’il y ait effectivement « compréhension ». Des petites mains s’ingénient à reformuler les tests de manière à ce qu’ils ne soient plus « reconnaissables » par les modèles, à produire des questions dont la réponse exige le même raisonnement mais dont les termes soient nouveaux. Ainsi, Saurabh Srivastava et ses collègues constatent que leur effort de reformulation des tests entraîne un effondrement des performances de l’ordre de 50 à 80 %¹⁴.

Aux accusations de mémorisation (lorsqu’on teste leur « capacité de raisonnement », c’est en réalité leur capacité de « mémorisation » qui permet aux LLM de répondre) et de data contamination (les données de tests étaient présentes telles quelles dans les données d’entraînement), s’ajoute une critique plus générale : si les modèles de langue peuvent donner de bonnes réponses, cela semble être pour de mauvaises raisons, la mémorisation n’étant qu’une des mauvaises raisons parmi d’autres. Les « règles » (ici, les critères ou caractéristiques qui déclenchent telle ou telle « décision » ou prédiction de mot) sur lesquelles s’appuie le système, ayant été identifiées par tâtonnement, par essais-erreurs, pourraient être sans rapport avec le problème − ce qui est l’une des critiques classiques du deep learning.

Les usagers des LLM seraient victimes d’un effet « Hans le Malin », du nom d’un cheval qui, lorsqu’on lui soumettait une opération d’arithmétique élémentaire, tapait du sabot jusqu’à s’arrêter au bon nombre, donnant l’illusion qu’il savait compter, alors qu’il utilisait l’attitude de son maître et du public pour sentir quand s’arrêter. En apprentissage automatique, l’expression a été reprise pour désigner les systèmes qui donnent de bonnes réponses pour de mauvaises raisons. Par exemple, comme la plupart des images figurant des loups contiennent aussi de la neige, un système entraîné à distinguer les images de loup des images de chien pourrait l’utiliser comme critère et donner l’impression qu’il fait la différence entre loups et chiens, alors qu’il ne fait que détecter s’il y a de la neige dans l’image. De la même manière, il a pu être montré que des systèmes de reconnaissance dans le domaine médical s’appuyaient sur des indices présents dans les images : le fait que les mélanomes étaient accompagnés d’une règle pour en mesurer la taille, ou que les images de hanches fracturées portaient la mention « urgent¹⁵ ». De tels « raccourcis » (ou « heuristiques »), sans rapport avec le problème en cause, ont pu être mis en évidence dans le cas des LLM.

En résumé, un LLM peut donner de bonnes réponses pour trois types de mauvaises raisons :

(1) la question à laquelle il répond était présente telle quelle dans la base de données d’entraînement, avec la réponse (data contamination) ;

(2) sans que la question et/ou la réponse aient été vues telles quelles à l’entraînement, le LLM s’appuie sur des questions et réponses similaires pour répondre. Il y a illusion de généralisation (puisque questions et réponses sont différentes) qui peut être dissipée en montrant qu’il y a corrélation entre la capacité à répondre et la ressemblance entre la question et le corpus d’entraînement. Plus la question s’en éloigne, moins les performances sont bonnes : le LLM répond en fonction de la similarité de la question avec son corpus d’entraînement et non en fonction de sa « compréhension » de celle-ci (approximate retrieval) ;

(3) plus généralement, le LLM répond correctement grâce à une association ou une procédure sans rapport avec le problème, mais qui marche dans la plupart des cas (shortcut learning).

Dans les trois cas, qu’il fasse le « perroquet » idiot (data contamination et approximate retrieval) ou le « cheval malin » (shortcut learning), le modèle n’est pas en capacité de généraliser, ce qui n’est pas sans rappeler les critiques déjà formulées à l’encontre du deep learning, plus précisément « l’incapacité constitutive d’un réseau à se saisir de cas qui s’éloignent par trop de sa base d’apprentissage¹⁶ », également décrite comme une incapacité à extrapoler. Dès lors, il n’y aurait pas à proprement parler de « compréhension » de notions permettant une « généralisation », c’est-à-dire l’application de ces notions pour des problèmes différents de ceux rencontrés lors de l’entraînement, ce qui invite à prendre les résultats des tests appliqués aux LLM avec la plus grande prudence, et à élaborer des tests ad hoc plutôt que de se complaire à leur faire passer des examens standards (barreau, MBA, QI, etc.) pour affirmer triomphalement que les LLM ont « atteint un niveau surhumain ». Car, une fois les tests remaniés, devant des questions inédites, les performances s’effondrent. Après avoir soumis GPT-4 à un questionnaire ad hoc (ConceptARC), Mitchell et al concluent qu’il « n’a pas développé de capacités d’abstraction robustes à un niveau humain¹⁷ ».

^{Ne pas sous-estimer les perroquets : une critique de la critique}

Si la critique est justifiée et salutaire sur tous les points (écologique, politique et idéologique, morale ou « éthique », épistémique, etc.), sa virulence (aussi justifiée par la dangerosité de ses thuriféraires comme Elon Musk, Sam Altman, Demis Hassabis, etc.) ne doit pas pour autant brouiller notre appréciation de l’objet critiqué. L’histoire de l’IA est déjà remplie de prévisions négatives (« l’IA n’arrivera pas à faire ceci ou cela ») qui sont le symétrique des prévisions exagérées de ses partisans, et l’occasion d’une autre grandiloquence¹⁸ (sur l’humain, la vie, les émotions, etc.) qui rendent la critique inaudible. À la confusion suscitée par l’enthousiasme des champions de l’IA vient s’ajouter la confusion suscitée par ses détracteurs, ce qui redouble la difficulté, déjà élevée, vu la complexité de l’objet, à l’appréhender. En l’occurrence, les LLM ne sont pas des machines intelligentes, mais ce ne sont pas non plus, ou en tout cas pas seulement, des perroquets stochastiques.

S’il a pu être montré que les LLM sont capables de bonnes réponses pour de mauvaises raisons, cela ne prouve pas pour autant qu’ils répondent systématiquement en s’appuyant sur ces mauvaises raisons. Ce ne sont pas que des « perroquets stochastiques » et des « chevaux malins ». À ce bestiaire, il faudrait ajouter un troisième animal, plus difficile encore à appréhender, qui rende compte qu’en droit, ils peuvent effectivement donner les bonnes réponses pour de bonnes raisons. Si un LLM peut, par tâtonnement, identifier des mauvaises raisons lui permettant de donner de bonnes réponses, il peut tout aussi bien identifier les bonnes raisons, puisque ces dernières marchent également, et même mieux que les mauvaises. Pour un système de reconnaissance d’image, la meilleure manière de classer correctement les images de mélanomes, c’est encore d’identifier les caractéristiques propres aux images de mélanomes. Pour un LLM, la meilleure manière d’imiter le discours mathématique, c’est d’encoder des notions mathématiques.

Les LLM en sont-ils capables ? En théorie, oui. Depuis plusieurs dizaines d’années, les tenants du courant dit neurosymbolique se sont attachés à montrer que les réseaux de neurones peuvent instancier des procédures analogues à celles des systèmes symboliques. Qu’en-est-il, en pratique ? Un dispositif aussi simple que word2vec, le plongement de mot (ou embedding) par entraînement de Mikolov et al.¹⁹, qui encode les relations de distances et proximités entre mots (la « proximité » étant définie par leur degré de substituabilité dans un même contexte, conformément à l’hypothèse distributionnaliste), encode également des relations plus élaborées, comme les relations de comparaison (antonymie, superlatif…) ou de genre, permettant de passer un mot du masculin au féminin, du passé au présent, mais aussi d’un pays à sa capitale. Le dispositif peut donc « répondre » à certaines questions (par exemple, « Quelle est la capitale de la France ? ») pour de « bonnes raisons », « bonnes raisons » qui peuvent ici être décrites ici comme l’application de vecteurs inférés lors de l’entraînement.

S’il peut y avoir encodage de relations comme l’antonymie ou le genre dans un dispositif aussi simple que word2vec, pourrait-il y avoir encodage de notions et relations bien plus élaborées (d’un texte à son résumé, d’un auteur à sa biographie…) à l’échelle des LLM ? Certains travaux visent à estimer les connaissances et procédures assimilées, domaines par domaines (par exemple, dans la santé), mais l’affaire reste délicate, étant donnée la complexité de l’objet. Établir la proportion de « bonnes raisons » et comment s’articulent bonnes et mauvaises raisons reste une tâche immense, peut-être impossible, même si certains s’y attellent avec beaucoup d’optimisme. Un LLM peut généraliser dans les cas où est identifiable une règle applicable à tous les cas (comme dans l’exemple de l’addition), il ne peut accéder à la « généralité » consistant à pouvoir, pour donner une bonne réponse, en inventer les bonnes raisons, et sera donc mis en défaut pas les situations inédites.

1Une version plus longue de cet article, dotée de très nombreuses de notes de références, est disponible sur le site de la revue Multitudes www.multitudes.net

2Brown et al., « Language Models are Few-Shot Learners », arXiv:2005.14165, 2020.

3Kaplan et al. « Scaling Laws for Neural Language Models », arXiv:2001.08361.

4 https://twitter.com/NandoDF/
status/1525397036325019649

5Wei et al., « Emergent Abilities of Large Language Models », arXiv:2206.07682, 2022.

6Webb et al., « Emergent Analogical Reasoning in Large Language Models », arXiv:2212.09196, 2023.

7Sam Altman en conversation avec Ravi Belani à Stanford : Stanford eCorner, « The Possibilities of AI [Entire Talk]− Sam Altman (OpenAI) », Youtube, 1^er mai 2024.

8Emily Bender & al, « On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? », FAccT ’21, March 3-10, 2021.

9Ainsi, tous les auteurs de l’article « Attention is All You Need », qui présente l’architecture à l’origine des grands modèles de langue, sont partis de Google pour fonder leurs propres startups et ont levé des fonds considérables. Jérôme Marin, « Chez Google, tous les auteurs de l’article scientifique qui a révolutionné l’IA sont partis », L’Usine Digitale, 11 juillet 2023.

10Lukas Berglund et al., « The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” », arXiv:2309.
12288, 2023.

11Thomas McCoy et al., « Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve », arXiv:2309.13638, 2023.

12Saurabh Srivastava, compte Twitter ou X, 1^ermars 2024.

13Arvind Narayanan et Sayash Kapoor, « ChatGPT is a bullshit generator. But it can still be amazingly useful », AI Snake Oil, 6 décembre 2022.

14Saurabh Srivastava et al., « Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap », arXiv:2402.19450, 2024.

15Kelly et al., « Key challenges for delivering clinical impact with artificial intelligence », BMC Medecine, 17, 195, 2019.

16Daniel Andler, Intelligence artificielle, intelligence humaine, la double énigme, Paris, Gallimard, 2023.

17Melanie Mitchell, Alessandro Palmarini, et Arseny Moskvichev, « Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks », arXiv:2311.09247, 2023.

18Voir à ce propos David Bates, An Artificial History of Natural Intelligence, Thinking With Machines from Descartes to the Digital Age, Chicago, The University of Chicago Press, 2024, page 4.

19Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, « Efficient Estimation of Word Representations in Vector Space », arXiv:1301.3781, 2013 et Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean, « Distributed Representations of Words and Phrases and their Compositionality », arXiv:1310.4546, 2013.

Disponible sur le site de notre partenaire CAIRN

Alban Leveau-Vallier

Chercheur postdoctorant associé au laboratoire d’études et de recherches sur les logiques contemporaines de la philosophie (LLCP) de l’Université Paris 8, et chargé de cours à Sciences Po Paris. En 2023, il a publié IA, l’intuition et la création à l’épreuve des algorithmes (Champ Vallon).

96. Multitudes 96. Automne 2024
Mineure 96. Intelligences Artistiques (IA) génératives

Que comprend-on de ce que « comprend » ChatGPT ?

Alban Leveau-Vallier

^{GPT‑3 : une « émergence » qui ne serait qu’une question d’échelle ?}

^{Perroquet idiot et cheval malin : la critique des LLM}

^{Ne pas sous-estimer les perroquets : une critique de la critique}

Alban Leveau-Vallier

Sur le même sujet

Articles les plus consultés