IA & Ingénierie

IA et code : pourquoi vos agents trouvent le bon fichier... mais ratent la bonne ligne

15 juin 2026

6 min de lecture

109 vues

Sébastien Muler

#agents-ia #llm #refactoring #benchmarks

Introduction

Depuis quelques mois, les agents de codage IA (Devin, Claude Code, Cursor, etc.) sont présentés comme de futurs développeurs autonomes, capables de lire un rapport de bug, d'explorer une base de code et de produire le correctif parfait sans intervention humaine. Une nouvelle étude internationale, impliquant notamment l'Université Jiao Tong de Shanghai, vient nuancer sérieusement ce tableau. Son constat : les agents IA savent globalement où chercher... mais pas toujours quoi regarder précisément une fois sur place.

Un nouveau benchmark qui sépare la recherche du correctif

Jusqu'à présent, la performance des agents de codage IA était évaluée avec un seul indicateur : le bug est-il corrigé, oui ou non ? Ce critère binaire masque une étape essentielle du raisonnement : la phase d'exploration du code. Peut-être l'agent n'a jamais lu le code pertinent. Peut-être l'a-t-il lu et a quand même écrit le mauvais correctif. Dans les deux cas, le résultat final paraît identique.

C'est précisément ce que le benchmark SWE-Explore cherche à mesurer. Le principe est simple : on fournit à l'agent une description de bug et un projet logiciel complet, puis on observe la liste classée de sections de code qu'il identifie comme pertinentes, avant même qu'il ne propose une correction.

Pour construire ce jeu de données de 848 problèmes, les chercheurs se sont appuyés sur une astuce méthodologique intéressante : plutôt que de définir « à la main » les lignes pertinentes (une tâche quasiment impossible à grande échelle), ils ont récupéré, pour chaque problème, au moins deux tentatives de résolution réussies par des modèles de pointe comme GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 ou Kimi K2.6. Les fichiers et lignes effectivement modifiés lors de ces résolutions réussies servent de « vérité de référence ».

Le bon quartier, mais pas la bonne porte

Le résultat le plus marquant de cette étude est aussi le plus intuitif une fois énoncé : les agents IA sont globalement compétents pour identifier le bon fichier, le bon module, la bonne zone de la base de code. Sur ce plan, leur capacité de recherche sémantique et de navigation dans un projet est impressionnante.

Le problème survient à l'étape suivante. Une fois dans le bon fichier, parfois plusieurs centaines de lignes, l'agent a beaucoup plus de difficultés à isoler les quelques lignes réellement responsables du bug. Il peut très bien « voir » la fonction fautive sans pour autant en comprendre l'interaction exacte avec le reste du code, et produire un correctif qui compile, qui semble plausible, mais qui ne traite pas la véritable cause du problème, ou qui en introduit une nouvelle.

C'est une nuance cruciale pour quiconque utilise ces outils en production : un agent qui « se trompe de fichier » est facile à détecter, son échec est visible. Mais un agent qui ouvre le bon fichier et écrit un correctif plausible dans la mauvaise zone produit une erreur silencieuse, beaucoup plus dangereuse, car elle peut passer les tests superficiels et arriver jusqu'en revue de code, voire en production.

L'IA, une excellente documentaliste, pas (encore) une exécutante fiable

Si l'on devait résumer cette étude en une image, on pourrait dire que les agents de codage IA actuels se comportent comme un excellent assistant de recherche documentaire : on leur donne un sujet, et ils vous apportent rapidement le bon dossier, la bonne armoire, le bon classeur. Mais une fois ce dossier ouvert, c'est encore à l'expert humain de trancher quelle page exacte contient l'information décisive, et comment l'interpréter.

Pour les équipes de développement, notamment dans des écosystèmes complexes comme Symfony, où la logique métier peut être répartie entre des services, des écouteurs d'événements, des décorateurs et des configurations YAML, cette distinction est essentielle. Un agent IA peut faire gagner un temps précieux en pointant immédiatement le bon contrôleur, le bon service ou la bonne entité parmi des centaines de fichiers. C'est un gain de productivité réel et déjà exploitable aujourd'hui.

En revanche, faire confiance à l'agent pour le diagnostic fin (quelle ligne exacte, quelle condition, quel effet de bord) reste prématuré sans validation humaine. L'expertise du développeur intervient alors comme un filtre final : c'est lui qui valide que la correction proposée traite réellement la cause racine, et non un symptôme adjacent.

Ce que cela change concrètement pour vos projets

Chez MulerTech, nous intégrons déjà des outils d'assistance IA dans nos workflows PHP/Symfony, mais cette étude confirme une approche que nous défendons depuis le début : l'IA accélère l'exploration, l'humain valide la correction.

Concrètement, cela se traduit par quelques bonnes pratiques :

Utiliser les agents IA pour le triage initial et la localisation rapide du code concerné par un bug ou une fonctionnalité ;
Maintenir une revue de code systématique sur les correctifs générés par IA, même lorsque les tests passent ;
Conserver une couverture de tests solide, qui reste le meilleur garde-fou contre les « correctifs plausibles mais incorrects » ;
Documenter les zones de code critiques pour faciliter la navigation, humaine comme automatisée.

Conclusion

Le mythe du développeur IA totalement autonome continue de reculer face aux études rigoureuses. SWE-Explore apporte une preuve supplémentaire que la promesse « donnez-moi un bug, je vous rends le correctif » cache une réalité plus nuancée : trouver, ce n'est pas comprendre, et comprendre, ce n'est pas corriger correctement.

Pour les entreprises, le message est plutôt encourageant : les agents IA sont aujourd'hui de formidables outils de navigation et de recherche dans le code, à condition de garder l'humain dans la boucle pour la décision finale. C'est exactement la philosophie que MulerTech applique dans ses prestations de développement Symfony : exploiter la vitesse de l'IA, sans jamais sacrifier la rigueur de l'expertise humaine.

Source : article original « AI coding agents find the right file but miss the exact lines that matter, study shows » par Jonathan Kemper, publié sur The Decoder.

Partager cet article

LinkedIn X Facebook Email

Article précédent

Requêtes SQL lentes en production : comment l'automatisation réduit vos coûts de maintenance

Retour à la liste

Article suivant

IA et ROI : pourquoi l'humain reste le principal frein à l'automatisation

IA et code : pourquoi vos agents trouvent le bon fichier... mais ratent la bonne ligne

Introduction

Un nouveau benchmark qui sépare la recherche du correctif

Le bon quartier, mais pas la bonne porte

L'IA, une excellente documentaliste, pas (encore) une exécutante fiable

Ce que cela change concrètement pour vos projets

Conclusion

Partager cet article

Articles similaires

Multi-modèles IA : pourquoi interroger plusieurs LLM améliore la fiabilité de vos décisions

Symfony et le streaming : comment les LLM obligent à repenser l'architecture de vos applications

Kimi K3 en open source : ce que l'infrastructure de Moonshot AI apporte aux équipes qui auto-hébergent des agents IA