ARC-AGI-3 : Pourquoi les meilleurs modèles d'IA échouent là où n'importe quel humain réussit
Un prix de 2 millions de dollars. Zéro modèle d'IA capable de le remporter. C'est le constat provocateur posé par l'ARC Prize Foundation avec la sortie d'ARC-AGI-3, un nouveau benchmark qui plonge les systèmes d'IA dans des environnements de jeu interactifs que des humains sans formation particulière résolvent sans difficulté.
Alors que GPT-5.4 fait la une pour ses capacités impressionnantes et que Gemini 3.1 Pro rivalise sur de nombreux fronts avec l'expertise humaine, leurs scores respectifs sur ARC-AGI-3 — 0,26 % et 0,37 % — donnent à réfléchir. Qu'est-ce que ce benchmark révèle sur les limites réelles de l'intelligence artificielle actuelle ?
Ce que teste vraiment ARC-AGI-3
Les précédentes versions du benchmark ARC-AGI demandaient aux modèles de déduire des patterns statiques à partir de paires entrée/sortie. Un exercice difficile, mais qui reste dans le registre de la reconnaissance de formes — domaine dans lequel les LLM excellent.
ARC-AGI-3 change radicalement la donne. Les modèles sont désormais placés dans 135 environnements de jeu interactifs en mode tour par tour, sans aucune instruction, sans indice sur l'objectif à atteindre. Pour réussir, un agent doit :
- Explorer l'environnement de manière autonome
- Formuler des hypothèses sur les règles du jeu
- Identifier l'objectif sans qu'il lui soit explicitement fourni
- Planifier et exécuter une séquence d'actions cohérente
Ce qui est notable : tous les 135 environnements ont été résolus par des humains sans connaissance préalable ni formation spécifique. Aucun modèle frontier testé n'a dépassé le seuil de 1 %.
| Modèle | Score ARC-AGI-3 |
|---|---|
| Gemini 3.1 Pro | 0,37 % |
| GPT-5.4 | 0,26 % |
| Opus 4.6 | 0,25 % |
| Grok-4.20 | 0,00 % |
Le piège de la métrique RHAE : l'efficacité compte autant que le résultat
L'une des innovations les plus intéressantes d'ARC-AGI-3 est sa métrique d'évaluation : le RHAE (Relative Human Action Efficiency). Contrairement à un simple score de réussite/échec, le RHAE mesure combien d'actions un agent nécessite pour résoudre une tâche, comparé à un humain.
La pénalité est quadratique : si un modèle utilise deux fois plus d'actions qu'un humain, son score n'est pas divisé par deux, il est divisé par quatre. Cela élimine une stratégie bien connue des LLM : la force brute. Générer des milliers d'actions au hasard jusqu'à tomber sur la bonne solution ne fonctionne pas ici — le score s'effondre mathématiquement.
Cette approche est particulièrement pertinente pour évaluer une intelligence réelle plutôt qu'une capacité de calcul brute. Un humain résout le problème en comprenant la situation ; un modèle qui tâtonne à grande vitesse ne démontre pas la même forme d'intelligence, même s'il arrive au bon résultat.
Il est important de noter que les humains et les machines ne sont pas mesurés sur la même échelle absolue. Ce qui compte, c'est l'efficacité relative de chacun dans son propre contexte d'action.
Pourquoi les LLM échouent-ils sur ce type de tâche ?
La question mérite d'être posée sérieusement, surtout dans un contexte où les modèles de langage atteignent des performances remarquables sur des examens médicaux, des problèmes de mathématiques avancées ou la génération de code complexe.
Plusieurs facteurs structurels expliquent cet échec :
1. L'absence de corpus d'entraînement pertinent Les LLM sont optimisés pour prédire des séquences de tokens à partir d'une distribution de textes existants. Face à un environnement inédit sans instructions, ils n'ont pas de distribution de référence sur laquelle s'appuyer. L'humain, lui, mobilise une capacité de raisonnement causal general qui ne dépend pas d'avoir « vu » ce problème avant.
2. La planification séquentielle sous incertitude Résoudre un jeu inconnu nécessite de maintenir un modèle mental de l'environnement, de le mettre à jour à chaque action et d'arbitrer entre exploration et exploitation. Ce type de raisonnement temporel et adaptatif reste un point faible structurel des architectures transformer actuelles.
3. L'identification implicite des objectifs Sans instructions explicites, il faut inférer ce que l'environnement attend. C'est une forme de théorie de l'esprit appliquée à un système — comprendre l'intention du concepteur du jeu à partir de ses seuls effets. Les humains réalisent cela quasi instinctivement ; les LLM peinent à modéliser ce niveau d'abstraction méta.
4. La tentation de la verbosité Là où un humain agit de manière économique, un LLM a tendance à générer beaucoup d'actions ou de raisonnements intermédiaires. La pénalité quadratique du RHAE sanctionne précisément ce comportement.
Ce que cela signifie pour l'industrie et le développement web
Pour les développeurs et architectes qui intègrent des solutions IA dans leurs applications — que ce soit via des APIs OpenAI, Google Gemini ou des agents LangChain/Symfony — ce benchmark rappelle une réalité importante : les LLM sont des outils puissants dans des contextes balisés, mais ils ne sont pas des agents généraux.
Dans un contexte de développement PHP/Symfony, cela se traduit concrètement :
- Un LLM intégré comme assistant de code sera excellent pour générer des snippets, documenter des fonctions ou suggérer des corrections — des tâches à contexte fixe et bien défini.
- En revanche, lui confier une tâche ouverte de type « explore cette application et identifie les problèmes d'architecture » sans guidage précis donnera des résultats décevants.
- La conception d'agents autonomes capables d'agir dans des environnements dynamiques (comme un agent de débogage ou de refactoring en continu) reste un domaine où les limites actuelles sont réelles et mesurables.
ARC-AGI-3 offre ainsi une grille de lecture utile pour calibrer les attentes lors de l'intégration de l'IA dans des workflows de développement.
Conclusion
ARC-AGI-3 n'est pas un benchmark de plus destiné à faire les gros titres. Il pose une question de fond : qu'est-ce qu'une intelligence capable de s'adapter à l'inconnu ? Les résultats actuels — aucun modèle au-dessus de 1 % — montrent que malgré des progrès spectaculaires sur de nombreux benchmarks, les systèmes d'IA actuels restent loin de la flexibilité cognitive d'un humain non entraîné face à une situation nouvelle.
Pour les 2 millions de dollars de prix, il faudra attendre. Mais pour les équipes qui travaillent sur des intégrations IA concrètes, ce benchmark est une invitation à rester lucides sur ce que ces outils font réellement bien — et sur ce qu'ils ne font pas encore.
Source originale : The Decoder — Maximilian Schreiner, mars 2026.