Quand un géant de la crypto bascule vers les modèles chinois
Brian Armstrong, CEO de Coinbase, vient de faire une annonce qui devrait interpeller toute organisation utilisant l'IA générative en production : son entreprise traite désormais plus de tokens que jamais, tout en payant deux fois moins. La raison ? Un basculement massif vers des modèles open source chinois comme GLM 5.2 et Kimi 2.7, en remplacement partiel des offres OpenAI et Anthropic.
Coinbase n'est pas un cas isolé. Le CEO de la startup Lindy a opéré le même virage vers DeepSeek v4, et Snowflake teste activement ces alternatives chinoises pour réduire ses coûts d'infrastructure IA. Ce mouvement, encore marginal il y a un an, devient une tendance de fond — et il arrive à un moment particulièrement sensible pour les labos occidentaux, plusieurs d'entre eux lorgnant vers une introduction en bourse et devant justifier des valorisations colossales par une croissance soutenue.
L'agnosticisme technologique comme stratégie de survie
Ce qui rend le cas Coinbase intéressant, ce n'est pas seulement le choix d'un modèle moins cher. C'est l'architecture qui rend ce choix possible sans douleur pour les équipes de développement.
Chez Coinbase, les développeurs restent libres de choisir le modèle qu'ils souhaitent. Mais dans les faits, 91 % d'entre eux n'ont jamais atteint leurs anciennes limites d'usage — un signal fort que la qualité perçue ne s'est pas dégradée avec le changement de fournisseur. Cette liberté est rendue possible par un système de routage automatique qui sélectionne le modèle le plus pertinent pour chaque requête, en fonction de trois critères : la nature de la tâche, le coût, et le potentiel de mise en cache.
C'est précisément ce dernier point qui a eu l'impact le plus spectaculaire : en optimisant le caching, Coinbase a fait passer son taux de hit de 5 % à 60 %. Concrètement, cela signifie que six requêtes sur dix n'ont même plus besoin de solliciter un modèle complet, ce qui réduit drastiquement la facture sans toucher à la qualité du service.
Le context engineering, nouveau levier de performance
Au-delà du routage, Coinbase impose à ses développeurs une discipline simple mais efficace : garder le contexte des conversations aussi léger que possible et démarrer une nouvelle session pour chaque nouvelle tâche. Cette pratique relève de ce qu'on appelle désormais le context engineering — une discipline à part entière qui consiste à structurer, limiter et nettoyer le contexte envoyé aux modèles pour optimiser à la fois les coûts et la pertinence des réponses.
Ce n'est pas un détail technique mineur. Avec l'explosion des modèles de raisonnement agentique comme GPT-5.x-Thinking ou Opus 4.5, la consommation de tokens a explosé chez Coinbase — sans pour autant faire grimper la facture, grâce précisément à ces optimisations en amont.
Pourquoi ça change la donne pour les labos occidentaux
La pression tarifaire que font peser GLM, Kimi ou DeepSeek sur OpenAI et Anthropic n'est pas anecdotique. Elle arrive à un moment où ces labos doivent démontrer une rentabilité crédible pour soutenir leurs ambitions boursières. Si des entreprises comme Coinbase, qui ont des besoins de fiabilité et de conformité élevés, peuvent migrer une part significative de leur charge vers des modèles chinois sans dégrader l'expérience développeur, cela constitue un véritable stress test pour le modèle économique des acteurs historiques.
Pour les équipes techniques qui suivent ce genre de mouvement, le message est clair : le verrouillage sur un seul fournisseur de modèle devient un risque stratégique, pas une garantie de stabilité.
Ce que ça implique côté architecture
Chez MulerTech, nous observons cette tendance de près car elle rejoint une conviction que nous défendons depuis plusieurs mois auprès de nos clients : l'intégration de l'IA en production ne doit jamais reposer sur un fournisseur unique. Concrètement, cela se traduit par :
- la mise en place de routeurs de modèles capables de basculer dynamiquement entre plusieurs fournisseurs (OpenAI, Anthropic, modèles open source, modèles chinois) selon le coût et la tâche ;
- une architecture de caching sémantique qui maximise la réutilisation des réponses déjà générées ;
- une discipline de context engineering pour limiter le volume de tokens envoyés à chaque appel ;
- un suivi fin de l'usage par équipe ou par développeur, pour garder la maîtrise des coûts à mesure que l'usage de l'IA se généralise.
Ces patterns, encore considérés comme avancés il y a peu, deviennent rapidement des standards de production pour toute entreprise qui intègre l'IA générative dans ses workflows internes ou ses produits.
Conclusion
Le cas Coinbase illustre une bascule stratégique plus large : 2025-2026 marque la fin progressive du monopole des labos occidentaux sur l'IA générative en production. L'agnosticisme technologique — la capacité à router dynamiquement entre plusieurs modèles selon le coût et le besoin — devient un avantage compétitif réel, et non plus une simple précaution théorique. Pour les entreprises qui veulent maximiser le ROI de leurs investissements IA sans sacrifier la performance, l'architecture compte désormais autant que le choix du modèle lui-même.
Article basé sur une publication originale de The Decoder.