Pour qui

Leads plateforme, créateurs d'agents indépendants, opérateurs Cursor/OpenClaw qui ont besoin d'un pouls hebdomadaire survivant à l'audit CFO — pas d'un billet benchmark trimestriel.

Problème

Les classements cumulatifs all-time traînent derrière la réalité. Les modèles montent et descendent en jours ; votre défaut gateway peut dater de trois cycles de release.

Bénéfice

Traduire la part hebdomadaire de tokens en paliers de routage, plafonds budget et chaînes de repli — puis prouver les choix sur matériel jetable avant les clés production.

Structure

Méthode 7 jours, trois freins, snapshots globaux, paradoxe revenus, inversion benchmark/marché, tiers marché et HowTo Mac loué.

Sommaire

01 · La fenêtre glissante de 7 jours bat le bruit cumulatif

OpenRouter agrège le trafic de milliers d'applications — plugins IDE, gateways agents, pipelines batch, interfaces chat expérimentales — puis classe les modèles par tokens traités sur les sept derniers jours. Cette fenêtre est le proxy public le plus proche d'une bourse d'inférence vivante. Contrairement aux communiqués ou tableaux benchmark statiques, le classement hebdo punit les modèles beaux sur papier mais fragiles sous boucles agent soutenues : timeouts outils, troncature de contexte, tempêtes de rate-limit, chocs de prix qui reroutent les équipes du jour au lendemain.

En 2026, les cycles se sont accélérés. DeepSeek V4 Flash n'a pas gravi la première place sur des années — il a absorbé des parts en semaines. Hy3 Preview et Xiaomi MiMo ont rejoint le top hebdo presque aussi vite. Un graphique cumulatif surpondérerait encore le trafic ère GPT-4 et sous-estimerait la vague MoE actuelle. Pour qui câble des Agent Skills Cursor ou une passerelle OpenClaw sur Mac loué, le tableau hebdo est le signal ; le reste est narration.

OpenRouter segmente aussi par cas d'usage. La catégorie programmation illustre la vitesse du virage : d'environ 11 % du trafic catégorisé début 2025 à plus de 50 % en juin 2026. Ce n'est pas une tendance douce — ce sont les agents qui mangent la plateforme. Quand plus de la moitié des invocations étiquetées visent le code, les modèles doués en Q&A courte perdent du rang même si leur marketing affiche encore des scores de culture générale.

Données dures (citables) : OpenRouter a traité environ 28,9 billions de tokens mondialement sur la fenêtre 7 jours finissant début juin 2026. Les modèles d'origine chinoise (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi et poids ouverts apparentés) représentent plus de 45 % du volume hebdomadaire sur l'agrégateur — bien au-dessus de leur part sur les leaderboards benchmark occidentaux.

02 · Trois freins au routage (numérotés)

1. Myopie benchmark. SWE-bench Verified et Terminal-Bench restent des garde-fous utiles, mais ils échantillonnent des dépôts curatés et des sandbox contrôlées. Le volume hebdo OpenRouter capture le désordre réel : fichiers partiels, JSON outil mal formé, boucles de retry, dumps de contexte à 800K tokens. Un modèle qui gagne deux points sur un leaderboard mais perd du rang hebdo vous montre où le trafic production a déjà migré.

2. La part tokens n'est pas la part dollars. Anthropic illustre le paradoxe en juin 2026 : environ 12 % de tous les tokens sur OpenRouter correspondent à ~46 % du chiffre d'affaires plateforme, car Claude Opus et Sonnet facturent la sortie un ordre de grandeur au-dessus de DeepSeek V4 Flash ou des routes gratuites comme Owl Alpha. La finance lit la courbe pondérée revenus ; l'ingénierie fixe les leaders tokens. Sans les deux lentilles, vous surdépensez en premium pour du bulk ou sous-alimentez la qualité sur des tâches dignes d'Opus.

3. L'expérimentation locale pollue l'état production. Faire tourner cinq IDs OpenRouter sur le même MacBook qui porte vos certificats Apple, clés AWS production et config OpenClaw quotidienne, c'est la voie classique des fuites sandbox → canaux réels. La validation hebdo doit être répétable et isolée — même harness, environnement propre, CSV archivé — avant de promouvoir un changement de routage. Même discipline que dans notre guide ds4 DeepSeek V4 Flash : louer, mesurer, restituer.

03 · Snapshot global de la semaine

Le tableau ci-dessous résume les métriques plateforme de la fenêtre glissante début juin 2026. Chiffres arrondis depuis les stats publiques OpenRouter — directionnels pour la planification, pas audit financier.

Métrique	Valeur 7 jours	Interprétation
Volume tokens global	~28,9 billions	Débit hebdo tous modèles et routes
Part modèles Chine	45 %+	DeepSeek, Hy3, MiMo, Kimi et alliés open weights
Part catégorie programmation	50 %+	En hausse depuis ~11 % ; agents dominent
Part tokens Anthropic	~12 %	Sous le mindshare ; concentré sur tiers premium
Part revenus Anthropic (est.)	~46 %	Prix sortie élevés sur workloads Opus/Sonnet
Trafic tiers gratuits	Minorité significative	Owl Alpha, Nemotron free — aimants prototypes

04 · Leaders hebdomadaires juin 2026

Les héros hebdo diffèrent des champions all-time. La shortlist reflète le volume tokens 7 jours début juin 2026 — volumes en billions (B) par semaine, approximatifs.

Rang	Modèle	Tokens / semaine	Éditeur	Rôle hebdo
1	DeepSeek V4 Flash	~3,14 B	DeepSeek	Cheval de bataille MoE ; 1M contexte ; prix agent-friendly
2	Hy3 Preview	~2,75 B	Tencent	MoE ouvert ; agents STEM et code orientés efficacité
3	Xiaomi MiMo	~2,1 B (est.)	Xiaomi	Stack ouvert montant ; fort momentum APAC
4	Claude Sonnet 4.6	~1,8 B (est.)	Anthropic	Premium quotidien ; free tier attire encore du volume
5	DeepSeek V4 Pro	~1,5 B (est.)	DeepSeek	Tier reasoning supérieur ; sous-tâches agent complexes
6	Gemini 3 Flash Preview	~1,2 B (est.)	Google	Agents code multimodaux ; affinité toolchain Google
7	Claude Opus 4.7	~1,0 B (est.)	Anthropic	Agents long horizon ; coût élevé par million sortie
8	Owl Alpha	~0,9 B (est.)	OpenRouter	Route stealth gratuite ; prototypes et formation

Comparatif prix entrée / sortie (planification hebdo)

Modèle	Entrée $/M	Sortie $/M	Contexte	Fit hebdo
DeepSeek V4 Flash	~0,10	~0,40	1M	Boucles agent haute fréquence, code bulk
Hy3 Preview	~0,15 (est. API)	~0,60 (est. API)	256K	MoE ouvert ; miroir déploiement privé
Claude Sonnet 4.6	~3,00	~15,00	200K–1M	Gate qualité ; brouillons visibles client
Claude Opus 4.7	~5,00	~25,00	1M beta	Tâches autonomes longues ; vision-heavy
Owl Alpha	0	0	1,05M	Prototypes non sensibles uniquement

05 · Part tokens versus part dollars : le paradoxe Anthropic

Les classements hebdo trient par tokens. Les factures trient par dollars. Les deux divergent fortement quand les prix de sortie couvrent trois ordres de grandeur. La famille Claude d'Anthropic représentait début juin 2026 ~12 % des tokens hebdo sur OpenRouter tout en contribuant ~46 % du revenu brut plateforme.

Cluster éditeur	Part tokens (est.)	Part revenus (est.)	Moteur
MoE ouverts chinois	45 %+	15–20 %	$/M ultra-bas ; ingestion contexte massive
Anthropic (Opus + Sonnet)	~12 %	~46 %	Prix sortie premium ; sessions agent longues
Famille Google Gemini	~10 %	~12 %	Code multimodal ; prix mid-tier
Routes free / stealth	~8 %	~0 %	Trafic prototype ; expérimentation subventionnée

Opérationnellement, une politique naïve « tout sur le #1 hebdo » minimise les tokens mais sacrifie la qualité sur les sorties visibles client. Router tout sur Opus par confort brûle le budget sur du bulk que V4 Flash gère déjà à l'échelle hebdo. L'approche disciplinée : routage à paliers — MoE bon marché pour boucles internes, Sonnet pour code prêt merge, Opus seulement quand les logs prouvent l'échec des tiers inférieurs.

06 · Inversion benchmark versus marché (a16z × OpenRouter)

Le rapport conjoint a16z/OpenRouter sur les marchés d'inférence formalise ce que les données hebdo montraient déjà : en 2026, leadership benchmark et part de marché se sont inversés. Les modèles frontier fermés dominent encore beaucoup d'eval charts — surtout sur suites reasoning étroites — tandis que les stacks MoE ouverts captent les tokens via longueur de contexte, fiabilité tool-call à l'échelle et prix agressifs par million.

La montée de la programmation de 11 % à plus de 50 % est le mécanisme derrière l'inversion. Les agents code stressent autre chose que les chatbots : contexte dépôt, invocations outil répétées, application de diffs, terminal. Pour les équipes Mac et iOS, conséquence pratique : workflows Xcode et Swift sont statistiquement mainstream sur OpenRouter. Faites confiance à la fenêtre de facturation ; gardez les benchmarks comme filtres secondaires. Pour le récit tendance plus large, voir tendances LLM 2026 depuis les classements OpenRouter.

En pratique, un modèle qui affiche 92 % sur MMLU mais échoue sur vingt appels outil consécutifs disparaît du classement hebdo, tandis que DeepSeek V4 Flash y reste — non parce qu'il serait « plus intelligent », mais parce que des milliers de déploiements agent le jugent assez bon marché et assez fiable pour tourner en continu. La facturation mesure l'endurance sous charge, pas les scores d'examen.

07 · Quatre paliers de marché

Palier	Bande tokens / semaine	Modèles représentatifs	Quand router ici
T1 — Rois du volume	>2 B / semaine	DeepSeek V4 Flash, Hy3 Preview	Boucles agent par défaut, ingestion RAG, bots CI
T2 — Challengers momentum	1–2 B / semaine	MiMo, Sonnet 4.6, V4 Pro	Tests latence régionale ; montées qualité
T3 — Spécialistes premium	0,5–1 B / semaine	Opus 4.7, Gemini 3 Flash	Tâches long horizon, analyse multimodale
T4 — Sandbox / gratuit	Tokens élevés, revenu nul	Owl Alpha, Nemotron 3 Super (free)	Formation, pics, prototypes non sensibles

Matrice de routage par scénario (consciente de la semaine)

Charge	Choix hebdo principal	Repli	Pourquoi la facturation valide
Boucle outil agent interne (10+ appels)	DeepSeek V4 Flash	Hy3 Preview	Plus haut volume hebdo ; $/M minimal à l'échelle
Diff Swift prêt PR	Claude Sonnet 4.6	V4 Pro	Tier qualité avec volume hebdo modéré
Refactor autonome 12 h	Claude Opus 4.7	Kimi K2.6 (self-host)	$/M premium justifié par coût d'erreur
Capture UI multimodale	Gemini 3 Flash	Opus 4.7	Part code multimodal hebdo en croissance
Hackathon budget zéro	Owl Alpha	Nemotron 3 Super (free)	Volume tokens sans revenu — sandbox seulement

08 · Cinq étapes : validation hebdomadaire sur Mac loué

Les données hebdo sont périssables. Votre boucle de validation doit l'être aussi : capture, test, intégration, archive — sur du matériel que vous pouvez effacer.

Capturer le classement hebdomadaire. Avant tout changement de route, sauvegarder le ranking 7 jours OpenRouter (ID modèle, tokens hebdo, $/M). Stocker à côté de votre CSV dépenses interne pour corréler shift plateforme et facture propre.
Louer un nœud macOS isolé. Réserver un Mac mini M4 via tarifs bare-metal macOS ; SSH selon le FAQ location journalière. Compte local sans Apple ID production.
Configurer les clés sandbox. Placer OPENROUTER_API_KEY dans un .env projet. Optionnel : miroir DeepSeek local avec ds4 — voir guide ds4.
Exécuter un harness fixe. Même tâche agent — lire module, éditer test, invoquer outil — sur la shortlist paliers. Logger tokens prompt, completion, temps mur, coût USD, échecs outil. Trois runs minimum par modèle.
Archiver et restituer. Sauver weekly-routing-YYYYMMDD.csv en interne (pas public), révoquer la clé test, effacer le Mac loué selon checklist MacDate. Planifier la prochaine capture dans sept jours.

                        # Sonde OpenRouter hebdo — sandbox Mac loué

                        export OPENROUTER_API_KEY="sk-or-..."

                        DATE=$(date +%Y%m%d)

                        MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")

                        for M in "${MODELS[@]}"; do

                          curl -s https://openrouter.ai/api/v1/chat/completions \

                            -H "Authorization: Bearer $OPENROUTER_API_KEY" \

                            -H "Content-Type: application/json" \

                            -d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Refactorise les tests du module auth.\"}]}" \

                            | tee -a "weekly-bench-$DATE.json"

                        done

Vous pourriez lancer les mêmes scripts sur un MacBook personnel, mais mélanger expériences API hebdo et identités de signature production, c'est ainsi que des quotas Anthropic partent en fumée un mardi et n'apparaissent qu'à la facture. Un nœud macOS jetable offre une salle blanche forensique : si un modèle free stealth logue les prompts, le rayon d'explosion s'arrête à la location. Si MiMo ou Hy3 sort mid-week, vous relancez le harness sans désinstaller la moitié de votre stack Homebrew.

Quand votre CSV montre V4 Flash égalant Sonnet sur le taux de succès outil pour un cinquième du coût sortie, vous avez une raison prête finance pour changer les défauts. Quand Opus gagne sur le refactor en douze étapes, vous avez une raison de garder le palier T3. Dans les deux cas, le tableau hebdo a fourni le prior ; le Mac loué le posterior. Pour le cadre TCO, voir location flexible Mac mini M4.

Dans un atelier audiovisuel lyonnais ou une agence de motion design parisienne, la même logique s'applique : les agents qui génèrent des scripts, des repères de montage ou des métadonnées de livraison consomment des millions de tokens par semaine. Router par défaut sur le leader hebdo (souvent un MoE chinois à $/M bas) préserve la marge créative ; réserver Sonnet ou Opus aux livrables client verrouille la qualité perçue. La location Mac transforme cette politique en rituel du lundi matin — capture du classement, bench sur nœud isolé, décision documentée — sans immobiliser un Mac Studio par poste de montage.

Classement hebdo OpenRouter :
la facturation comme vérité