Image de couverture : Count Anything : quand un modèle généraliste surpasse les solutions spécialisées en vision par ordinateur
tech

Count Anything : quand un modèle généraliste surpasse les solutions spécialisées en vision par ordinateur

16 June 2026
5 min de lecture
7 vues
Sébastien Muler

Count Anything : quand un modèle généraliste surpasse les solutions spécialisées en vision par ordinateur

Compter des objets dans une image. En apparence, rien de plus simple. En pratique, c'est l'un des problèmes les plus épineux de la vision par ordinateur. Jusqu'à récemment, chaque cas d'usage — comptage de cellules médicales, détection de véhicules sur des images satellites, estimation de foules — nécessitait son propre modèle entraîné sur ses propres données. Un nouveau modèle baptisé Count Anything, développé par des chercheurs de l'Université Tsinghua, remet en question cette approche en proposant une solution généraliste pilotée par un simple prompt texte.

Le problème sous-estimé du comptage d'objets

Les grands modèles de vision actuels excellent dans de nombreuses tâches : description d'images, extraction de texte, interprétation de graphiques. Mais le comptage fiable d'objets reste un défi structurel. Pourquoi ?

D'abord parce que les objets à compter varient énormément en taille, densité et contexte visuel. Une bactérie sur une lame de microscope, une voiture sur une photo aérienne et un visage dans une foule n'ont rien en commun visuellement. Ensuite, les erreurs ont des conséquences concrètes : un médecin qui sous-estime une densité cellulaire, un agriculteur qui mal-évalue un rendement, un urbaniste qui analyse un flux de trafic — dans chacun de ces cas, la précision n'est pas optionnelle.

Jusqu'ici, la réponse de l'industrie était systématiquement la même : entraîner un modèle spécialisé pour chaque domaine, sur des données annotées spécifiques, avec une architecture adaptée. Coûteux, long, et peu évolutif.

L'approche de Count Anything : généralisme et pragmatisme technique

Count Anything adopte une philosophie radicalement différente. Le modèle accepte une description textuelle de l'objet à compter et s'adapte à la nature de l'image — qu'il s'agisse d'une photo de rue, d'une image médicale ou d'une vue satellite.

Sous le capot, le système s'appuie sur SAM3 (Segment Anything Model 3 de Meta) et combine deux stratégies complémentaires :

  • Détection par boîtes englobantes pour les objets de taille significative et bien délimités
  • Placement de points de référence pour les cibles petites, denses ou difficiles à isoler

Les résultats des deux approches sont ensuite fusionnés avec un mécanisme de déduplication pour éviter le double comptage — l'un des pièges classiques des systèmes hybrides. L'entraînement repose sur CLOC, un dataset construit spécifiquement pour ce projet, couvrant une grande diversité de domaines et de types d'images.

Les benchmarks publiés montrent que Count Anything surpasse de nombreux modèles spécialisés sur leurs propres terrains, ce qui constitue en soi un résultat remarquable. Le modèle présente toutefois des limites identifiées : les termes ambigus dans les prompts et les scènes extrêmement denses restent des cas difficiles.

Ce que cela change pour les développeurs

Du point de vue d'un développeur ou d'une équipe technique, les implications sont importantes.

La question n'est plus « quel modèle spécialisé dois-je entraîner ? » mais « comment formuler mon prompt de façon précise ? » C'est un changement de paradigme. L'effort se déplace de la data engineering et de l'entraînement vers la conception du prompt et la validation des sorties.

Concrètement, cela signifie :

  • Réduction drastique du time-to-market pour les fonctionnalités de vision par ordinateur
  • Suppression du besoin de datasets annotés pour chaque nouveau cas d'usage
  • Mutualisation d'un seul modèle pour des besoins très hétérogènes au sein d'une même application
  • Flexibilité accrue : changer ce qu'on compte revient à changer un paramètre textuel, pas à réentraîner un modèle

Pour des projets web intégrant de l'analyse d'images — qu'il s'agisse d'une plateforme e-commerce, d'un outil SaaS médical ou d'une application d'analyse urbaine — cette évolution ouvre des possibilités qui étaient jusqu'ici réservées à des équipes disposant de ressources ML significatives.

Zero-shot learning : la maturité d'une approche

Count Anything s'inscrit dans la continuité du zero-shot learning : la capacité d'un modèle à traiter des tâches pour lesquelles il n'a pas été explicitement entraîné, grâce à une description en langage naturel. Ce que ce modèle démontre, c'est que cette approche atteint désormais un niveau de maturité suffisant pour concurrencer — et parfois dépasser — des solutions entraînées sur mesure.

C'est une tendance de fond dans l'IA appliquée. Les modèles fondamentaux généralistes, correctement guidés, réduisent l'avantage historique des modèles spécialisés. Cela ne signifie pas que la spécialisation disparaît — pour les cas à très haute précision ou dans des domaines très contraints, elle restera pertinente. Mais le seuil à partir duquel une approche généraliste est suffisante s'élève rapidement.

Conclusion

Count Anything illustre une évolution structurelle de l'IA en production : faire plus avec moins de contraintes d'entraînement. Pour les équipes de développement, c'est une invitation à reconsidérer l'architecture de leurs pipelines de vision par ordinateur avant de s'engager dans des cycles d'entraînement coûteux.

La prochaine fois que vous envisagez de construire ou d'intégrer un modèle de détection spécialisé, la question mérite d'être posée : un modèle généraliste bien prompté ne ferait-il pas déjà le travail ?

📄 Source originale : The Decoder — New AI model called "Count Anything" does exactly what it says

Partager cet article