Les tests d’AGI ne constituent peut-être pas la meilleure mesure des capacités et des impacts de l’IA
Lorsque la startup chinoise d’IA DeepSeek a fait irruption sur la scène en janvier, elle a suscité d’intenses discussions sur son approche efficace et rentable de l’IA générative. Mais comme ses concurrents américains, l’objectif principal de DeepSeek est plus obscur que la simple efficacité : l’entreprise vise à créer la première véritable intelligence artificielle générale, ou AGI.
Depuis des années, les développeurs d’IA —des petites startups aux grandes entreprises technologiques— se précipitent vers ce point final insaisissable. L’AGI, disent-ils, marquerait un tournant critique, permettant aux systèmes informatiques de remplacer les travailleurs humains, rendant l’IA plus fiable que l’expertise humaine et positionnant l’intelligence artificielle comme l’outil ultime du progrès sociétal.
Pourtant, des années après le début de la course à l’IA, l’AGI reste un concept mal défini et controversé. Certains informaticiens et entreprises le présentent comme un seuil du potentiel de l’IA à transformer la société. Les défenseurs de la technologie suggèrent qu’une fois que nous disposerons d’ordinateurs superintelligents, la vie quotidienne pourrait fondamentalement changer, affectant le travail, la gouvernance et le rythme des découvertes scientifiques.
Mais de nombreux experts sont sceptiques quant à notre proximité avec une utopie basée sur l’IA et à l’utilité pratique de l’AGI. Il existe un consensus limité sur ce que signifie AGI et aucun moyen clair de le mesurer. Certains soutiennent que l’AGI ne fonctionne que comme un terme marketing, n’offrant aucune orientation concrète sur la meilleure façon d’utiliser les modèles d’IA ou leur impact sociétal.
Dans la quête des entreprises technologiques’ pour l’AGI, le public est chargé de naviguer dans un paysage rempli de battage publicitaire, de science-fiction et de science réelle, explique Ben Recht, informaticien à l’Université de Californie à Berkeley. “Cela devient très délicat. C’est là que nous restons coincés.” Continuer à se concentrer sur les allégations d’une AGI imminente, dit-il, pourrait brouiller notre compréhension de la technologie en question et obscurcir les effets sociétaux actuels de l’IA.
La définition de l’AGI n’est pas claire
Le terme “intelligence artificielle générale” a été inventé au milieu du XXe siècle. Initialement, il désignait un ordinateur autonome capable d’effectuer n’importe quelle tâche qu’un humain pouvait, y compris des activités physiques comme préparer une tasse de café ou réparer une voiture.
Mais à mesure que les progrès de la robotique étaient en retard par rapport aux progrès rapides de l’informatique, la plupart des acteurs du domaine de l’IA se sont tournés vers des définitions plus étroites de l’AGI : au départ, cela incluait des systèmes d’IA capables d’effectuer de manière autonome des tâches qu’un humain pouvait effectuer sur un ordinateur, et plus récemment, des machines capables d’exécuter la plupart des tâches “économiquement précieuses” qu’un humain pouvait gérer sur un ordinateur, comme coder et écrire de la prose précise. D’autres pensent que l’AGI devrait englober une capacité de raisonnement flexible et une autonomie lorsqu’il s’agit d’aborder un certain nombre de tâches non spécifiées.
“Le problème est que nous ne savons pas ce que nous voulons”, explique Arseny Moskvichev, ingénieur en apprentissage automatique chez Advanced Micro Devices et informaticien à l’Institut Santa Fe. “Parce que l’objectif est si mal défini, il n’existe pas non plus de feuille de route pour l’atteindre, ni de moyen fiable de l’identifier.”
Pour remédier à cette incertitude, les chercheurs ont développé des tests de référence, similaires aux examens des étudiants, pour évaluer dans quelle mesure les systèmes sont proches d’atteindre l’AGI.
Par exemple, en 2019, l’informaticien français et ancien ingénieur de Google François Chollet a publié l’Abstract Reasoning Corpus for Artificial General Intelligence, ou ARC-AGI. Dans ce test, un modèle d’IA reçoit à plusieurs reprises quelques exemples de carrés colorés disposés selon différents motifs sur une grille. Pour chaque ensemble d’exemples, il est ensuite demandé au modèle de générer une nouvelle grille pour compléter le modèle visuel, une tâche destinée à évaluer le raisonnement flexible et la capacité du modèle à acquérir de nouvelles compétences en dehors de sa formation. Cette configuration est similaire aux matrices progressives de Raven, un test du raisonnement humain.
Les résultats des tests font partie de ce qu’OpenAI et d’autres entreprises technologiques utilisent pour guider le développement et l’évaluation des modèles. Récemment, le modèle o3 d’OpenAI, qui sera bientôt publié, a permis une amélioration considérable par rapport à ARC-AGI par rapport aux modèles d’IA précédents, ce qui a conduit certains chercheurs à le considérer comme une avancée majeure dans l’AGI. D’autres ne sont pas d’accord.
“Il n’y a rien à propos d’ARC qui soit général. C’est tellement spécifique et bizarre”, dit Recht.
L’informaticien José Hernández-Orallo de l’Universitat Politécnica de València en Espagne affirme qu’il est possible qu’ARC-AGI évalue simplement la capacité d’un modèle à reconnaître des images. Les générations précédentes de modèles linguistiques pouvaient résoudre des problèmes similaires avec une grande précision si les grilles visuelles étaient décrites à l’aide de texte, dit-il. Ce contexte rend les résultats de o3’s moins nouveaux.
De plus, il existe un nombre limité de configurations de grille, et certains modèles d’IA disposant de tonnes de puissance de calcul peuvent “force brute” corriger les réponses simplement en générant toutes les réponses possibles et en sélectionnant celle qui convient le mieux — réduisant ainsi efficacement la tâche à un problème à choix multiples plutôt qu’à un problème de raisonnement nouveau.
Pour s’attaquer à chaque tâche ARC-AGI, o3 utilise une énorme quantité de puissance de calcul (et d’argent) au moment du test. Fonctionnant de manière efficace, cela coûte environ 30 $ par tâche, explique Chollet. Dans un environnement moins efficace, une tâche peut coûter environ 3 000 $. Ce n’est pas parce que le modèle peut résoudre le problème qu’il est pratique ou faisable de l’utiliser régulièrement sur des tâches tout aussi difficiles.
Les tests d’IA ne capturent pas la complexité du monde réel
Ce n’est pas seulement ARC-AGI qui est controversé. Déterminer si un modèle d’IA est considéré comme AGI est compliqué par le fait que tous les tests disponibles sur les capacités de l’IA sont erronés. Tout comme les matrices progressives de Raven et d’autres tests de QI sont des mesures imparfaites de l’intelligence humaine et font l’objet de critiques constantes pour leurs biais, les évaluations AGI le sont également, explique Amelia Hardy, informaticienne à l’Université de Stanford. “C’est vraiment difficile de savoir que nous mesurons [ce qui] nous importe.”
L’o3 d’Open AI, par exemple, a répondu correctement à plus d’un quart des questions d’un ensemble de problèmes exceptionnellement difficiles appelé le benchmark Frontier Math, explique la porte-parole de l’entreprise, Lindsay McCallum. Ces problèmes prennent des heures aux mathématiciens professionnels pour être résolus, selon les créateurs du benchmark. À première vue, o3 semble avoir du succès. Mais ce succès peut être en partie dû au fait qu’OpenAI finance le développement du benchmark et a accès à l’ensemble de données de test lors du développement d’o3. Une telle contamination des données constitue une difficulté continue dans l’évaluation des modèles d’IA, en particulier pour l’AGI, où la capacité de généraliser et d’abstraire au-delà des données de formation est considérée comme cruciale.
Les modèles d’IA peuvent également sembler très performants sur des tâches complexes, comme répondre avec précision à des questions scientifiques de niveau doctorat, tout en échouant sur des tâches plus basiques, comme compter le nombre de r dans “fraise.” Cet écart indique un désalignement fondamental dans la manière dont ces systèmes informatiques traitent les requêtes et comprennent les problèmes.
Pourtant, les développeurs d’IA ne collectent pas et ne partagent pas le type d’informations qui pourraient aider les chercheurs à mieux évaluer pourquoi, explique Hernández-Orallo. De nombreux développeurs ne fournissent qu’une seule valeur de précision pour chaque benchmark, par opposition à une ventilation détaillée des types de questions auxquelles un modèle a répondu correctement et incorrectement. Sans détails supplémentaires, il est impossible de déterminer où un modèle rencontre des difficultés, pourquoi il réussit ou si un seul résultat de test démontre une percée dans l’intelligence artificielle, affirment les experts.
Même si un modèle réussit un test spécifique et quantifiable avec brio, comme l’examen du barreau ou les examens médicaux, il y a peu de garanties que ces résultats se traduiront par des performances humaines de niveau expert dans des conditions réelles et désordonnées, explique David Rein, informaticien à l’association à but non lucratif Model Evaluation and Threat Research basée à Berkeley, en Californie.
Par exemple, lorsqu’on leur demande de rédiger des mémoires juridiques, les modèles d’IA générative fabriquent encore régulièrement des informations. Bien qu’une étude sur GPT-4 ait suggéré que le chatbot pourrait surpasser les médecins humains dans le diagnostic des patients, des recherches plus détaillées ont révélé que des modèles d’IA comparables fonctionnent bien moins bien que les médecins réels lorsqu’ils sont confrontés à des tests imitant des conditions réelles. Et aucune étude ou résultat de référence n’indique que les modèles d’IA actuels devraient prendre des décisions de gouvernance majeures par rapport aux humains experts.
Les benchmarks dont OpenAI, DeepSeek et d’autres entreprises rapportent les résultats “ne nous disent pas grand-chose sur les capacités dans le monde réel”, explique Rein, bien qu’ils puissent fournir des informations raisonnables pour comparer les modèles entre eux.
Jusqu’à présent, les chercheurs ont testé les modèles d’IA en grande partie en leur fournissant des problèmes discrets dont les réponses sont connues. Cependant, les humains n’ont pas toujours le luxe de savoir quel est le problème qui se présente à eux, s’il est résoluble ou dans quel délai. Les gens peuvent identifier les problèmes clés, prioriser les tâches et, surtout, savoir quand abandonner. Il n’est pas encore certain que les machines puissent le faire ou le fassent. Les agents les plus avancés “autonomes” ont du mal à commander des pizzas ou des produits d’épicerie en ligne.
L’intelligence générale ne dicte pas l’impact
Les grands modèles linguistiques et les réseaux neuronaux se sont considérablement améliorés ces derniers mois et ces dernières années. “Ils sont certainement utiles de nombreuses manières différentes”, explique Recht, soulignant la capacité des modèles plus récents à résumer et à digérer des données ou à produire du code informatique utilisable avec peu d’erreurs. Mais des tentatives comme ARC-AGI pour mesurer la capacité générale ne clarifient pas nécessairement à quoi les modèles d’IA peuvent et ne peuvent pas être utilisés. “Je ne pense pas que cela importe qu’ils soient artificiellement intelligents ou non”, dit-il.
Ce qui pourrait avoir bien plus d’importance, d’après les récentes nouvelles de DeepSeek, ce sont les mesures traditionnelles du coût par tâche. L’utilité est déterminée à la fois par la qualité d’un outil et par le fait que cet outil soit suffisamment abordable pour être mis à l’échelle. L’intelligence n’est qu’une partie de l’équation.
L’AGI est censée servir de guide aux développeurs d’IA. Si elle est réalisée, elle est censée annoncer un tournant majeur pour la société, au-delà duquel les machines fonctionneront de manière indépendante sur un pied d’égalité ou plus élevé que les humains. Mais jusqu’à présent, l’IA a eu des impacts sociétaux majeurs, bons et mauvais, sans aucun consensus sur la question de savoir si nous approchons (ou avons déjà dépassé) ce tournant, affirment Recht, Hernández-Orallo et Hardy.