Veille & Recherche IA

Claude Sonnet 5 : l'IA agentique qui manipule votre terminal et votre navigateur

2 juillet 2026

5 min de lecture

4 vues

Sébastien Muler

Claude Sonnet 5 : l'IA agentique qui manipule votre terminal et votre navigateur

Anthropic vient de franchir un cap significatif avec la sortie de Claude Sonnet 5, présenté comme le modèle le plus « agentique » de la gamme Sonnet. Ce n'est plus simplement un assistant capable de répondre à des questions : c'est un collaborateur autonome qui peut planifier, utiliser des outils système et exécuter des tâches complexes de développement logiciel en toute indépendance.

Pour les équipes de développement PHP/Symfony comme les nôtres chez MulerTech, cette évolution mérite une attention particulière.

De chatbot à agent : ce que change Sonnet 5

La distinction fondamentale avec les générations précédentes, c'est la capacité d'action autonome. Sonnet 5 ne se contente plus de générer du code à copier-coller : il peut interagir directement avec un terminal, piloter un navigateur, construire un plan d'action et l'exécuter étape par étape.

Concrètement, cela signifie qu'il est capable de :

Lancer des commandes shell : composer install, php bin/console, migrations Doctrine, tests PHPUnit...
Naviguer sur le web pour récupérer de la documentation, tester une URL ou vérifier un comportement en conditions réelles
Enchaîner des tâches sans intervention humaine entre chaque étape

Anthropic le positionne explicitement comme un outil capable de réaliser des missions qui nécessitaient, il y a quelques mois encore, des modèles bien plus coûteux comme Opus.

Les benchmarks qui comptent vraiment pour le développement logiciel

Les chiffres publiés par Anthropic sont parlants, en particulier sur les benchmarks orientés développement logiciel réel.

SWE-bench Pro : la référence pour le coding autonome

SWE-bench Pro est aujourd'hui l'un des benchmarks les plus exigeants pour évaluer la capacité d'un modèle à résoudre de vrais tickets GitHub — corriger des bugs, implémenter des fonctionnalités, naviguer dans des bases de code existantes.

Modèle	SWE-bench Pro
Claude Sonnet 4.6	58,1 %
Claude Sonnet 5	63,2 %
Claude Opus 4.8	69,2 %

Sonnet 5 gagne 5 points sur son prédécesseur et se rapproche sérieusement d'Opus 4.8, un modèle bien plus volumineux et coûteux. C'est précisément ce « closing of the gap » qu'Anthropic met en avant.

Terminal-Bench 2.1 : maîtrise de l'environnement système

Encore plus frappant, le score sur Terminal-Bench 2.1, qui évalue la capacité à travailler dans un environnement terminal :

Modèle	Terminal-Bench 2.1
Claude Sonnet 4.6	67,0 %
Claude Sonnet 5	80,4 %

Un bond de 13 points qui illustre concrètement les progrès sur l'usage agentique. Pour un workflow de développement Symfony — où l'on jongle constamment entre console Symfony, Composer, Git et scripts personnalisés — c'est une amélioration qui a un impact direct.

Ce que cela implique pour un workflow PHP/Symfony

Intégrer un agent comme Sonnet 5 dans un pipeline de développement n'est plus de la science-fiction. Voici quelques cas d'usage concrets que cette évolution rend plus accessibles :

Revue de code automatisée avec contexte complet Plutôt que de coller des extraits de code, l'agent peut analyser l'ensemble d'une Pull Request, comprendre les dépendances Symfony, et proposer des corrections directement testables.

Automatisation des tâches répétitives Génération de fixtures Doctrine, création de services suivant les conventions du projet, mise à jour de configurations YAML : des tâches à faible valeur mais chronophages peuvent être déléguées.

Debugging assisté en conditions réelles Avec l'accès au terminal, un agent peut reproduire une erreur, lire les logs Symfony (var/log/dev.log), identifier la source du problème et proposer un correctif — le tout en une seule session.

Rédaction et exécution de tests Sonnet 5 peut générer des tests PHPUnit, les exécuter, analyser les échecs et itérer jusqu'à obtenir un résultat vert. Le cycle rouge/vert/refactor devient partiellement automatisable.

Évidemment, ces capacités nécessitent une intégration soignée : contrôle des permissions, sandboxing de l'environnement d'exécution, validation humaine sur les actions critiques. L'autonomie ne signifie pas l'absence de supervision.

Disponibilité et tarification

Sonnet 5 est disponible dès maintenant sur l'ensemble des plateformes Anthropic (API, Claude.ai, Claude Code). Anthropic propose un tarif d'introduction réduit jusqu'en août 2026, date à partir de laquelle les prix rejoindront les tarifs standards de la gamme Sonnet.

Pour les équipes qui souhaitent expérimenter, c'est une fenêtre intéressante pour évaluer le modèle sur des cas d'usage réels avant de prendre une décision d'intégration à plus long terme.

Conclusion

Claude Sonnet 5 marque une étape concrète dans la montée en puissance des agents IA pour le développement logiciel. Avec un score SWE-bench Pro à 63,2 % et des capacités terminal/navigateur significativement améliorées, il se positionne comme un outil crédible pour automatiser des tâches de développement réelles — pas seulement générer du boilerplate.

Pour les équipes PHP/Symfony, l'enjeu n'est plus de savoir si ces outils seront utiles, mais comment les intégrer de manière sûre et productive dans les workflows existants. C'est précisément ce que nous explorons chez MulerTech.

Source originale : The Decoder — Anthropic's new Claude Sonnet 5 closes the gap to Opus model series

Partager cet article

LinkedIn X Facebook Email

Article précédent

Retour à la liste

Article suivant

Google démocratise la génération vidéo via API : c...

Claude Sonnet 5 : l'IA agentique qui manipule votre terminal et votre navigateur

Claude Sonnet 5 : l'IA agentique qui manipule votre terminal et votre navigateur

De chatbot à agent : ce que change Sonnet 5

Les benchmarks qui comptent vraiment pour le développement logiciel

SWE-bench Pro : la référence pour le coding autonome

Terminal-Bench 2.1 : maîtrise de l'environnement système

Ce que cela implique pour un workflow PHP/Symfony

Disponibilité et tarification

Conclusion

Partager cet article

Articles similaires

Google démocratise la génération vidéo via API : ce que Nano Banana 2 Lite et Gemini Omni Flash changent pour les développeurs

DSpark : comment DeepSeek accélère ses LLM de 85% grâce au Speculative Decoding

La fin des honoraires à l'heure : ce que l'IA change pour vos prestataires tech