Marktdaten 2026-06-06

OpenRouter Wochenranking:
Abrechnungsdaten lügen nicht

Wer im Juni 2026 noch Standardmodelle aus MMLU-Tabellen wählt, während die Finanzabteilung OpenRouter-Rechnungen prüft, optimiert auf das falsche Scoreboard. OpenRouter veröffentlicht ein rollierendes 7-Tage-Fenster — echtes Produktionsvolumen, keine Launch-PR. Dieses Tutorial liest das Wochenbuch: 28,9 Billionen Tokens global, chinesische Open Weights über 45 % Anteil, Programmier-Workloads von ~11 % auf über 50 % der kategorisierten Traffic-Mix, und das Anthropic-Paradox (~12 % Tokens, ~46 % Umsatz). Sie erhalten drei nummerierte Schmerzpunkte, Vergleichstabellen, Markt-Tiers, harte Kennzahlen und ein fünfstufiges Validierungs-HowTo auf gemietetem Mac — DSGVO-tauglich isoliert vom Daily-Driver.

OpenRouter Wochenranking Token-Volumen und Abrechnungswahrheit für Agent-Routing Juni 2026

Zielgruppe

Platform-Leads, Indie-Agent-Builder und Cursor/OpenClaw-Betreiber, die über OpenRouter routen und einen wöchentlichen Puls brauchen, der eine CFO-Prüfung übersteht.

Problem

Kumulative All-Time-Rankings hinken der Realität hinterher. Modelle steigen und fallen innerhalb von Tagen; Ihr Gateway-Default kann drei Release-Zyklen hinter dem Markt liegen.

Nutzen

Wöchentlichen Token-Anteil in Routing-Tiers, Budgetdeckel und Fallback-Ketten übersetzen — und Entscheidungen auf Wegwerf-Hardware beweisen, bevor Produktions-Keys angefasst werden.

Aufbau

7-Tage-Methodik, drei Schmerzpunkte, globale Snapshot-Tabellen, Umsatzparadox, Benchmark-Inversion, Marktstratifizierung und Mac-Miet-HowTo.

01 · Warum das rollierende 7-Tage-Fenster kumulative Hype schlägt

OpenRouter aggregiert Traffic aus tausenden Anwendungen — IDE-Plugins, Agent-Gateways, Batch-Pipelines, experimentelle Chat-UIs — und sortiert Modelle nach in den letzten sieben Tagen verarbeiteten Tokens. Dieses rollierende Fenster ist der öffentlichste Proxy für einen lebendigen Inferenz-Markt. Anders als Pressemitteilungen oder statische Benchmark-Tabellen bestraft das Wochenranking Modelle, die auf Papier gut aussehen, aber unter dauerhaften Agent-Schleifen scheitern: Tool-Timeouts, Kontext-Truncation, Rate-Limit-Stürme oder Preisschocks, die Teams über Nacht umrouten.

Der Unterschied ist 2026 entscheidend geworden. DeepSeek V4 Flash kletterte nicht über Jahre an die Spitze — es absorbierte Anteil in Wochen. Hy3 Preview und Xiaomi MiMo erreichten fast ebenso schnell die Wochen-Spitze. Ein kumulatives All-Time-Diagramm würde noch GPT-4-Ära-Traffic übergewichten und die aktuelle MoE-Welle untergewichten. Wer Cursor Agent Skills oder ein OpenClaw-Gateway auf gemietetem Mac verdrahtet, sollte das Wochenboard als Signal behandeln — alles andere ist Narrativ.

OpenRouter segmentiert Traffic nach Use Case. Die Programmier-Kategorie zeigt am deutlichsten, wie schnell sich der Produktions-Mix drehen kann: Anteil stieg von rund 11 % des wöchentlich kategorisierten Traffics Anfang 2025 auf über 50 % bis Juni 2026. Das ist keine graduelle Trendlinie — das sind Agenten, die die Plattform fressen. Wenn mehr als die Hälfte der gelabelten Aufrufe code-orientiert ist, verlieren Modelle, die nur kurze Q&A beherrschen, Rang — auch wenn ihr Marketing noch mit Allgemeinwissen-Scores wirbt.

Harte Daten (zitierbar): OpenRouter verarbeitete im 7-Tage-Fenster bis Anfang Juni 2026 weltweit etwa 28,9 Billionen Tokens. Chinesische Modelle (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi und verwandte Open Weights) machen mehr als 45 % des wöchentlichen Token-Volumens auf dem Aggregator aus — weit über ihrem Anteil auf westlich zentrierten Benchmark-Leaderboards.

02 · Drei Routing-Schmerzpunkte (nummeriert)

1. Benchmark-Myopie. SWE-bench Verified und Terminal-Bench bleiben sinnvolle Plausibilitätschecks, aber sie sampeln kuratierte Repos und kontrollierte Sandboxes. Das wöchentliche OpenRouter-Volumen erfasst chaotische Realität: partielle Dateien, fehlerhaftes Tool-JSON, Retry-Schleifen und 800K-Token-Kontext-Dumps. Ein Modell, das zwei Punkte auf einem Leaderboard gewinnt, aber im Wochenranking verliert, zeigt, wohin der Produktionstraffic bereits gewandert ist. Die gemeinsame a16z/OpenRouter-Analyse zur Benchmark-Markt-Inversion dokumentiert die Lücke explizit.

2. Token-Anteil ist nicht Dollar-Anteil. Anthropic illustriert das Paradox im Juni-2026-Wochendatensatz: rund 12 % aller Tokens auf OpenRouter entsprechen etwa 46 % des Plattform-Umsatzes, weil Claude Opus und Sonnet Output-Preise eine Größenordnung über DeepSeek V4 Flash oder kostenlosen Routen wie Owl Alpha liegen. Finanzteams interessiert die umsatzgewichtete Kurve; Engineering starrt auf Token-Führer. Ohne beide Linsen überspenden Sie entweder für Bulk-Traffic oder unterversorgen Qualität bei Opus-würdigen Aufgaben.

3. Lokale Experimente verschmutzen Produktionszustand. Fünf OpenRouter-Model-IDs auf demselben MacBook zu rotieren, auf dem Apple-Developer-Zertifikate, AWS-Produktions-Keys und der Daily-Driver-OpenClaw-Config liegen, ist der klassische Weg, wie Sandbox-Prompts in echte Kanäle leaken. Wöchentliche Validierung soll wiederholbar und isoliert sein — gleicher Harness, saubere Umgebung, archivierte CSV — bevor ein Routing-Change promoted wird. Dieselbe Disziplin wie in unserem ds4-DeepSeek-V4-Flash-Test: mieten, messen, freigeben. Für EU-Teams: Verarbeitungsverzeichnis um Zweck „Routing-Validierung“ und Löschfrist ergänzen (Art. 30 DSGVO).

03 · Globaler Wochen-Snapshot

Die Tabelle fasst Plattform-Kennzahlen aus dem rollierenden Fenster Anfang Juni 2026 zusammen. Werte sind aus öffentlichen OpenRouter-Stats gerundet — planungsorientiert, nicht audit-tauglich.

Kennzahl7-Tage-WertInterpretation
Globales Token-Volumen~28,9 BillionenWochendurchsatz über alle Modelle und Routen
China-Modell-Anteil45 %+DeepSeek, Hy3, MiMo, Kimi und verbündete Open Weights
Programmier-Kategorie50 %+Von ~11 %; Agenten dominieren gelabelten Traffic
Anthropic Token-Anteil~12 %Unter dem Mindshare; konzentriert auf Premium-Tiers
Anthropic Umsatzanteil (gesch.)~46 %Hohe Output-Preise bei Opus/Sonnet-Workloads
Free-Tier-TrafficSignifikante MinderheitOwl Alpha, Nemotron free — Prototyp-Schwerkraftfelder

Drei Implikationen folgen sofort. Erstens: Jede Routing-Policy, die chinesische Open-MoE-Defaults ignoriert, kämpft gegen die Mehrheit des Wochentraffics. Zweitens: Coding-Agenten sind die Standard-Workload — Modelle mit schwachem Tool Calling oder langem Code-Kontext verlieren Rang schnell. Drittens: Premium-West-APIs bleiben pro Dollar dominant, auch wenn sie die Token-Popularität verlieren — Budgetdeckel müssen explizit sein.

04 · Juni-2026-Wochenführer nach Token-Volumen

Wochenführer unterscheiden sich von All-Time-Helden. Die Shortlist spiegelt 7-Tage-Token-Volumen Anfang Juni 2026 — Volumina in Billionen (B) pro Woche, gerundet.

RangModellWochen-TokensAnbieterWochenrolle
1DeepSeek V4 Flash~3,14 BDeepSeekDefault-MoE-Arbeitspferd; 1M Kontext; agentenfreundliche Preise
2Hy3 Preview~2,75 BTencentOpen MoE; effizienzorientierte STEM- und Coding-Agenten
3Xiaomi MiMo~2,1 B (gesch.)XiaomiAufsteigender Open-Stack; starkes Wochenmomentum in APAC-Routen
4Claude Sonnet 4.6~1,8 B (gesch.)AnthropicPremium-Alltagsmodell; Free-Tier zieht weiter Volumen
5DeepSeek V4 Pro~1,5 B (gesch.)DeepSeekHöheres Reasoning-Tier; komplexe Agent-Subtasks
6Gemini 3 Flash Preview~1,2 B (gesch.)GoogleMultimodale Coding-Agenten; Google-Toolchain-Affinität
7Claude Opus 4.7~1,0 B (gesch.)AnthropicLanghorizont-Agenten; hohe Kosten pro Million Output-Tokens
8Owl Alpha~0,9 B (gesch.)OpenRouterKostenlose Stealth-Route; Prototyp- und Bildungstraffic

Input/Output-Preisvergleich (Wochenplanung)

ModellInput $/MOutput $/MKontextWochen-Fit
DeepSeek V4 Flash~0,10~0,401MHochfrequente Agent-Schleifen, Bulk-Coding
Hy3 Preview~0,15 (API gesch.)~0,60 (API gesch.)256KOpen MoE; privates Deploy-Spiegelbild
Claude Sonnet 4.6~3,00~15,00200K–1MQualitäts-Gate; kundensichtbare Entwürfe
Claude Opus 4.7~5,00~25,001M betaLange autonome Tasks; vision-lastig
Owl Alpha001,05MNur nicht-sensitive Prototypen

DeepSeek V4 Flash mit rund 3,14 Billionen Tokens pro Woche ist keine Rundungsdifferenz — es ist eine Pluralität für sich. Hy3 bei ~2,75 B beweist, dass Tencents Open-MoE-Linie keine regionale Randgeschichte ist.

05 · Token-Anteil versus Dollar-Anteil: das Anthropic-Paradox

Wochenrankings sortieren nach Tokens. Rechnungen sortieren nach Dollar. Die beiden divergieren stark, wenn Output-Preise drei Größenordnungen spannen. Anthropics Claude-Familie machte Anfang Juni 2026 rund 12 % der wöchentlichen Tokens auf OpenRouter aus, lieferte aber geschätzt 46 % des Bruttoumsatzes.

Anbieter-ClusterToken-Anteil (gesch.)Umsatz-Anteil (gesch.)Treiber
Chinesische Open MoE45 %+15–20 %Ultra-niedrige $/M; massive Kontext-Ingestion
Anthropic (Opus + Sonnet)~12 %~46 %Premium-Output-Preise; lange Agent-Sessions
Google Gemini-Familie~10 %~12 %Multimodales Coding; Mid-Tier-Preise
Free / Stealth-Routen~8 %~0 %Prototyp-Traffic; subventionierte Experimente

Operativ bedeutet das: Eine naive „alles auf Wochen-#1“-Policy minimiert Token-Kosten, opfert aber Qualität bei kundensichtbaren Outputs. Umgekehrt verbrennt „alles auf Opus“ Budget bei Bulk-Tasks, die V4 Flash bereits wöchentlich in Scale handhabt. Der disziplinierte Ansatz ist gestuftes Routing: günstige MoE-Defaults für innere Agent-Schleifen, Sonnet für merge-fertigen Code, Opus nur wenn Fehlerlogs die billigeren Tiers scheitern lassen.

06 · Benchmark versus Markt-Inversion (a16z × OpenRouter)

Der gemeinsame a16z/OpenRouter-Bericht zu Inferenzmärkten formalisierte, was Wochendaten bereits zeigten: Benchmark-Führung und Marktanteil invertierten sich 2026. Geschlossene Frontier-Modelle toppen weiterhin viele Eval-Charts — besonders auf engen Reasoning-Suites — während Open-MoE-Stacks Token-Anteil über Kontextlänge, Tool-Call-Zuverlässigkeit in Scale und aggressive Preise pro Million gewinnen.

Der Anstieg der Programmier-Kategorie von 11 % auf über 50 % ist der Mechanismus hinter der Inversion. Coding-Agenten stressen andere Dimensionen als Chatbots: Repository-Skala-Kontext, wiederholte Tool-Aufrufe, Diff-Anwendung, Terminal-Interaktion. Für Mac- und iOS-Teams ist die praktische Konsequenz: Xcode- und Swift-Workflows sind auf OpenRouter statistisch Mainstream. Vertrauen Sie dem Abrechnungsfenster; nutzen Sie Benchmarks als Sekundärfilter. Für den breiteren Trend-Kontext siehe 2026 LLM-Trends aus OpenRouter-Rankings.

Konkret bedeutet das für deutsche Enterprise-Teams: ein Modell, das MMLU mit 92 % wirbt, aber bei Function Calling über zwanzig Schritte instabil wird, verschwindet aus dem Wochenranking, während DeepSeek V4 Flash dort verbleibt — nicht weil es „intelligenter“ ist, sondern weil tausende Agent-Deployments es billig genug und robust genug für Dauerbetrieb halten. Die Abrechnungsdaten messen Ausdauer unter Last, nicht Exam-Scores.

07 · Marktstratifizierung in vier Tiers

TierWochen-Token-BandRepräsentative ModelleWann hier routen
T1 — Volumen-Könige>2 B / WocheDeepSeek V4 Flash, Hy3 PreviewDefault-Agent-Schleifen, RAG-Ingestion, CI-Bots
T2 — Momentum-Herausforderer1–2 B / WocheMiMo, Sonnet 4.6, V4 ProRegionale Latenztests; Qualitäts-Stufen
T3 — Premium-Spezialisten0,5–1 B / WocheOpus 4.7, Gemini 3 FlashLanghorizont-Tasks, multimodale Analyse
T4 — Sandbox / kostenlosHohe Tokens, null UmsatzOwl Alpha, Nemotron 3 Super (free)Lehre, Spikes, nicht-sensitive Prototypen

Szenario-Routing-Matrix (wochenbewusst)

WorkloadPrimäre WochenwahlFallbackWarum Abrechnung zustimmt
Innere Agent-Tool-Schleife (10+ Calls)DeepSeek V4 FlashHy3 PreviewHöchste Wochen-Tokens; niedrigste $/M in Scale
PR-fertiger Swift-DiffClaude Sonnet 4.6V4 ProQualitäts-Tier mit moderatem Wochenvolumen
12-Stunden-Autonom-RefactorClaude Opus 4.7Kimi K2.6 (self-host)Premium-$/M durch Fehlerkosten gerechtfertigt
Multimodale UI-ErfassungGemini 3 FlashOpus 4.7Wöchentlicher multimodaler Coding-Anteil wächst
Zero-Budget-HackathonOwl AlphaNemotron 3 Super (free)Token-Volumen ohne Umsatz — nur Sandbox

Tier-Grenzen sind fluide — MiMo könnte bei einer starken Release-Woche in T1 aufsteigen —, aber die Stratifizierung hält Gateway-Configs wartbar. Dokumentieren Sie pro Microservice das Tier, deckeln Sie T3-Ausgaben separat, und routen Sie niemals Produktions-Kundendaten über T4-Free-Routen ohne Prüfung der Stealth-Logging-Policies. Für EU-Compliance empfiehlt sich ein wöchentliches Abgleichprotokoll: OpenRouter-7-Tage-Anteil, interne Token-CSV und Rechnungs-PDF in einem Ordner mit Aufbewahrungsfrist — so lässt sich bei Audit nachvollziehen, warum ein Routing-Default geändert wurde.

08 · Fünf Schritte: wöchentliche Routing-Validierung auf gemietetem Mac

Wochendaten sind verderblich. Ihre Validierungsschleife sollte es auch sein: Snapshot, testen, integrieren, archivieren — auf Hardware, die Sie löschen können.

  1. Wochenranking exportieren. Vor Routing-Änderungen OpenRouter-7-Tage-Rankings speichern (Model-ID, Wochen-Tokens, $/M). Neben interner Spend-CSV ablegen, um Plattform-Shift mit eigener Rechnung zu korrelieren.
  2. Isolierten macOS-Knoten mieten. Mac mini M4 über Bare-Metal-macOS-Preise buchen; SSH laut Tagesmiete-FAQ. Lokaler Benutzer ohne Produktions-Apple-ID.
  3. Sandbox-Routing-Keys konfigurieren. OPENROUTER_API_KEY in projektbezogener .env. Optional DeepSeek lokal mit ds4 spiegeln — siehe ds4-Inferenz-Anleitung.
  4. Feste Benchmark-Suite ausführen. Gleiche Agent-Aufgabe — Modul lesen, Test editieren, Tool aufrufen — über Tier-Shortlist. Prompt-Tokens, Completion-Tokens, Wall-Time, USD-Kosten und Tool-Fehler loggen. Mindestens drei Läufe pro Modell.
  5. Archivieren und freigeben. weekly-routing-YYYYMMDD.csv intern speichern (nicht öffentlich), Test-Key widerrufen, Miet-Mac nach MacDate-Rückgabe-Checkliste löschen. Nächsten Snapshot in sieben Tagen planen.
# Wöchentliche OpenRouter-Probe — auf gemietetem Mac-Sandbox
export OPENROUTER_API_KEY="sk-or-..."
DATE=$(date +%Y%m%d)
MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")
for M in "${MODELS[@]}"; do
curl -s https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Refaktoriere die Auth-Modul-Tests.\"}]}" \
| tee -a "weekly-bench-$DATE.json"
done
# Usage-Felder für Wochenkosten-Tracking parsen (jq erforderlich)
jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \
weekly-bench-$DATE.json > weekly-routing-$DATE.csv

Dieselben Skripte auf einem privaten MacBook laufen zu lassen, mischt wöchentliche API-Experimente mit Produktions-Signing-Identitäten — so verbrennen Teams Anthropic-Kontingente dienstags und entdecken es erst auf der Rechnung. Ein Wegwerf-macOS-Knoten liefert eine forensische Reinraum-Umgebung: Wenn ein Stealth-Free-Modell Prompts loggt, stoppt der Blast-Radius an der Miete. Wenn MiMo oder Hy3 mid-week droppt, starten Sie den Harness neu, ohne die Hälfte Ihres Homebrew-Stacks zu deinstallieren.

Zeigt Ihre Benchmark-CSV, dass V4 Flash bei Tool-Erfolgsrate mit Sonnet mithält bei einem Fünftel der Output-Kosten, haben Sie einen finanzfertigen Grund für Default-Änderungen. Gewinnt Opus beim zwölfstufigen Refactor, haben Sie einen finanzfertigen Grund, T3 zu behalten. In beiden Fällen lieferte das Wochenboard den Prior — der gemietete Mac den Posterior. Für TCO-Rahmen siehe flexible Mac-mini-M4-AI-Workstation-Miete.

Auf Bare-Metal Mac mini M4 liefert die wöchentliche Validierung deterministische Latenz: kein Hypervisor-Jitter, ANE-Pfad für lokalen ds4-Fallback verfügbar, Keychain isoliert von Produktions-Signing-Identitäten. Bei 500K–1M-Kontext-Payloads — typisch für Agenten, die ein ganzes Swift-Package lesen — verdienen Wochenführer ihren Rang teils dadurch, dass sie diese Lasten überstehen; Ihr Harness auf dem Mietknoten reproduziert denselben Stress ohne Risiko für die Daily-Driver-Maschine. Mac Studio mit 256 GB+ amortisiert sich bei etwa 200 aktiven Inferenz-Tagen pro Jahr; darunter gewinnt Tagesmiete mit dokumentierter Löschung bei Rückgabe.

Weiterlesen