OpenRouter Wochenranking:
Abrechnungsdaten lügen nicht
Wer im Juni 2026 noch Standardmodelle aus MMLU-Tabellen wählt, während die Finanzabteilung OpenRouter-Rechnungen prüft, optimiert auf das falsche Scoreboard. OpenRouter veröffentlicht ein rollierendes 7-Tage-Fenster — echtes Produktionsvolumen, keine Launch-PR. Dieses Tutorial liest das Wochenbuch: 28,9 Billionen Tokens global, chinesische Open Weights über 45 % Anteil, Programmier-Workloads von ~11 % auf über 50 % der kategorisierten Traffic-Mix, und das Anthropic-Paradox (~12 % Tokens, ~46 % Umsatz). Sie erhalten drei nummerierte Schmerzpunkte, Vergleichstabellen, Markt-Tiers, harte Kennzahlen und ein fünfstufiges Validierungs-HowTo auf gemietetem Mac — DSGVO-tauglich isoliert vom Daily-Driver.
Zielgruppe
Platform-Leads, Indie-Agent-Builder und Cursor/OpenClaw-Betreiber, die über OpenRouter routen und einen wöchentlichen Puls brauchen, der eine CFO-Prüfung übersteht.
Problem
Kumulative All-Time-Rankings hinken der Realität hinterher. Modelle steigen und fallen innerhalb von Tagen; Ihr Gateway-Default kann drei Release-Zyklen hinter dem Markt liegen.
Nutzen
Wöchentlichen Token-Anteil in Routing-Tiers, Budgetdeckel und Fallback-Ketten übersetzen — und Entscheidungen auf Wegwerf-Hardware beweisen, bevor Produktions-Keys angefasst werden.
Aufbau
7-Tage-Methodik, drei Schmerzpunkte, globale Snapshot-Tabellen, Umsatzparadox, Benchmark-Inversion, Marktstratifizierung und Mac-Miet-HowTo.
Inhaltsverzeichnis
01 · Warum das rollierende 7-Tage-Fenster kumulative Hype schlägt
OpenRouter aggregiert Traffic aus tausenden Anwendungen — IDE-Plugins, Agent-Gateways, Batch-Pipelines, experimentelle Chat-UIs — und sortiert Modelle nach in den letzten sieben Tagen verarbeiteten Tokens. Dieses rollierende Fenster ist der öffentlichste Proxy für einen lebendigen Inferenz-Markt. Anders als Pressemitteilungen oder statische Benchmark-Tabellen bestraft das Wochenranking Modelle, die auf Papier gut aussehen, aber unter dauerhaften Agent-Schleifen scheitern: Tool-Timeouts, Kontext-Truncation, Rate-Limit-Stürme oder Preisschocks, die Teams über Nacht umrouten.
Der Unterschied ist 2026 entscheidend geworden. DeepSeek V4 Flash kletterte nicht über Jahre an die Spitze — es absorbierte Anteil in Wochen. Hy3 Preview und Xiaomi MiMo erreichten fast ebenso schnell die Wochen-Spitze. Ein kumulatives All-Time-Diagramm würde noch GPT-4-Ära-Traffic übergewichten und die aktuelle MoE-Welle untergewichten. Wer Cursor Agent Skills oder ein OpenClaw-Gateway auf gemietetem Mac verdrahtet, sollte das Wochenboard als Signal behandeln — alles andere ist Narrativ.
OpenRouter segmentiert Traffic nach Use Case. Die Programmier-Kategorie zeigt am deutlichsten, wie schnell sich der Produktions-Mix drehen kann: Anteil stieg von rund 11 % des wöchentlich kategorisierten Traffics Anfang 2025 auf über 50 % bis Juni 2026. Das ist keine graduelle Trendlinie — das sind Agenten, die die Plattform fressen. Wenn mehr als die Hälfte der gelabelten Aufrufe code-orientiert ist, verlieren Modelle, die nur kurze Q&A beherrschen, Rang — auch wenn ihr Marketing noch mit Allgemeinwissen-Scores wirbt.
Harte Daten (zitierbar): OpenRouter verarbeitete im 7-Tage-Fenster bis Anfang Juni 2026 weltweit etwa 28,9 Billionen Tokens. Chinesische Modelle (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi und verwandte Open Weights) machen mehr als 45 % des wöchentlichen Token-Volumens auf dem Aggregator aus — weit über ihrem Anteil auf westlich zentrierten Benchmark-Leaderboards.
02 · Drei Routing-Schmerzpunkte (nummeriert)
1. Benchmark-Myopie. SWE-bench Verified und Terminal-Bench bleiben sinnvolle Plausibilitätschecks, aber sie sampeln kuratierte Repos und kontrollierte Sandboxes. Das wöchentliche OpenRouter-Volumen erfasst chaotische Realität: partielle Dateien, fehlerhaftes Tool-JSON, Retry-Schleifen und 800K-Token-Kontext-Dumps. Ein Modell, das zwei Punkte auf einem Leaderboard gewinnt, aber im Wochenranking verliert, zeigt, wohin der Produktionstraffic bereits gewandert ist. Die gemeinsame a16z/OpenRouter-Analyse zur Benchmark-Markt-Inversion dokumentiert die Lücke explizit.
2. Token-Anteil ist nicht Dollar-Anteil. Anthropic illustriert das Paradox im Juni-2026-Wochendatensatz: rund 12 % aller Tokens auf OpenRouter entsprechen etwa 46 % des Plattform-Umsatzes, weil Claude Opus und Sonnet Output-Preise eine Größenordnung über DeepSeek V4 Flash oder kostenlosen Routen wie Owl Alpha liegen. Finanzteams interessiert die umsatzgewichtete Kurve; Engineering starrt auf Token-Führer. Ohne beide Linsen überspenden Sie entweder für Bulk-Traffic oder unterversorgen Qualität bei Opus-würdigen Aufgaben.
3. Lokale Experimente verschmutzen Produktionszustand. Fünf OpenRouter-Model-IDs auf demselben MacBook zu rotieren, auf dem Apple-Developer-Zertifikate, AWS-Produktions-Keys und der Daily-Driver-OpenClaw-Config liegen, ist der klassische Weg, wie Sandbox-Prompts in echte Kanäle leaken. Wöchentliche Validierung soll wiederholbar und isoliert sein — gleicher Harness, saubere Umgebung, archivierte CSV — bevor ein Routing-Change promoted wird. Dieselbe Disziplin wie in unserem ds4-DeepSeek-V4-Flash-Test: mieten, messen, freigeben. Für EU-Teams: Verarbeitungsverzeichnis um Zweck „Routing-Validierung“ und Löschfrist ergänzen (Art. 30 DSGVO).
03 · Globaler Wochen-Snapshot
Die Tabelle fasst Plattform-Kennzahlen aus dem rollierenden Fenster Anfang Juni 2026 zusammen. Werte sind aus öffentlichen OpenRouter-Stats gerundet — planungsorientiert, nicht audit-tauglich.
| Kennzahl | 7-Tage-Wert | Interpretation |
|---|---|---|
| Globales Token-Volumen | ~28,9 Billionen | Wochendurchsatz über alle Modelle und Routen |
| China-Modell-Anteil | 45 %+ | DeepSeek, Hy3, MiMo, Kimi und verbündete Open Weights |
| Programmier-Kategorie | 50 %+ | Von ~11 %; Agenten dominieren gelabelten Traffic |
| Anthropic Token-Anteil | ~12 % | Unter dem Mindshare; konzentriert auf Premium-Tiers |
| Anthropic Umsatzanteil (gesch.) | ~46 % | Hohe Output-Preise bei Opus/Sonnet-Workloads |
| Free-Tier-Traffic | Signifikante Minderheit | Owl Alpha, Nemotron free — Prototyp-Schwerkraftfelder |
Drei Implikationen folgen sofort. Erstens: Jede Routing-Policy, die chinesische Open-MoE-Defaults ignoriert, kämpft gegen die Mehrheit des Wochentraffics. Zweitens: Coding-Agenten sind die Standard-Workload — Modelle mit schwachem Tool Calling oder langem Code-Kontext verlieren Rang schnell. Drittens: Premium-West-APIs bleiben pro Dollar dominant, auch wenn sie die Token-Popularität verlieren — Budgetdeckel müssen explizit sein.
04 · Juni-2026-Wochenführer nach Token-Volumen
Wochenführer unterscheiden sich von All-Time-Helden. Die Shortlist spiegelt 7-Tage-Token-Volumen Anfang Juni 2026 — Volumina in Billionen (B) pro Woche, gerundet.
| Rang | Modell | Wochen-Tokens | Anbieter | Wochenrolle |
|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | ~3,14 B | DeepSeek | Default-MoE-Arbeitspferd; 1M Kontext; agentenfreundliche Preise |
| 2 | Hy3 Preview | ~2,75 B | Tencent | Open MoE; effizienzorientierte STEM- und Coding-Agenten |
| 3 | Xiaomi MiMo | ~2,1 B (gesch.) | Xiaomi | Aufsteigender Open-Stack; starkes Wochenmomentum in APAC-Routen |
| 4 | Claude Sonnet 4.6 | ~1,8 B (gesch.) | Anthropic | Premium-Alltagsmodell; Free-Tier zieht weiter Volumen |
| 5 | DeepSeek V4 Pro | ~1,5 B (gesch.) | DeepSeek | Höheres Reasoning-Tier; komplexe Agent-Subtasks |
| 6 | Gemini 3 Flash Preview | ~1,2 B (gesch.) | Multimodale Coding-Agenten; Google-Toolchain-Affinität | |
| 7 | Claude Opus 4.7 | ~1,0 B (gesch.) | Anthropic | Langhorizont-Agenten; hohe Kosten pro Million Output-Tokens |
| 8 | Owl Alpha | ~0,9 B (gesch.) | OpenRouter | Kostenlose Stealth-Route; Prototyp- und Bildungstraffic |
Input/Output-Preisvergleich (Wochenplanung)
| Modell | Input $/M | Output $/M | Kontext | Wochen-Fit |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~0,10 | ~0,40 | 1M | Hochfrequente Agent-Schleifen, Bulk-Coding |
| Hy3 Preview | ~0,15 (API gesch.) | ~0,60 (API gesch.) | 256K | Open MoE; privates Deploy-Spiegelbild |
| Claude Sonnet 4.6 | ~3,00 | ~15,00 | 200K–1M | Qualitäts-Gate; kundensichtbare Entwürfe |
| Claude Opus 4.7 | ~5,00 | ~25,00 | 1M beta | Lange autonome Tasks; vision-lastig |
| Owl Alpha | 0 | 0 | 1,05M | Nur nicht-sensitive Prototypen |
DeepSeek V4 Flash mit rund 3,14 Billionen Tokens pro Woche ist keine Rundungsdifferenz — es ist eine Pluralität für sich. Hy3 bei ~2,75 B beweist, dass Tencents Open-MoE-Linie keine regionale Randgeschichte ist.
05 · Token-Anteil versus Dollar-Anteil: das Anthropic-Paradox
Wochenrankings sortieren nach Tokens. Rechnungen sortieren nach Dollar. Die beiden divergieren stark, wenn Output-Preise drei Größenordnungen spannen. Anthropics Claude-Familie machte Anfang Juni 2026 rund 12 % der wöchentlichen Tokens auf OpenRouter aus, lieferte aber geschätzt 46 % des Bruttoumsatzes.
| Anbieter-Cluster | Token-Anteil (gesch.) | Umsatz-Anteil (gesch.) | Treiber |
|---|---|---|---|
| Chinesische Open MoE | 45 %+ | 15–20 % | Ultra-niedrige $/M; massive Kontext-Ingestion |
| Anthropic (Opus + Sonnet) | ~12 % | ~46 % | Premium-Output-Preise; lange Agent-Sessions |
| Google Gemini-Familie | ~10 % | ~12 % | Multimodales Coding; Mid-Tier-Preise |
| Free / Stealth-Routen | ~8 % | ~0 % | Prototyp-Traffic; subventionierte Experimente |
Operativ bedeutet das: Eine naive „alles auf Wochen-#1“-Policy minimiert Token-Kosten, opfert aber Qualität bei kundensichtbaren Outputs. Umgekehrt verbrennt „alles auf Opus“ Budget bei Bulk-Tasks, die V4 Flash bereits wöchentlich in Scale handhabt. Der disziplinierte Ansatz ist gestuftes Routing: günstige MoE-Defaults für innere Agent-Schleifen, Sonnet für merge-fertigen Code, Opus nur wenn Fehlerlogs die billigeren Tiers scheitern lassen.
06 · Benchmark versus Markt-Inversion (a16z × OpenRouter)
Der gemeinsame a16z/OpenRouter-Bericht zu Inferenzmärkten formalisierte, was Wochendaten bereits zeigten: Benchmark-Führung und Marktanteil invertierten sich 2026. Geschlossene Frontier-Modelle toppen weiterhin viele Eval-Charts — besonders auf engen Reasoning-Suites — während Open-MoE-Stacks Token-Anteil über Kontextlänge, Tool-Call-Zuverlässigkeit in Scale und aggressive Preise pro Million gewinnen.
Der Anstieg der Programmier-Kategorie von 11 % auf über 50 % ist der Mechanismus hinter der Inversion. Coding-Agenten stressen andere Dimensionen als Chatbots: Repository-Skala-Kontext, wiederholte Tool-Aufrufe, Diff-Anwendung, Terminal-Interaktion. Für Mac- und iOS-Teams ist die praktische Konsequenz: Xcode- und Swift-Workflows sind auf OpenRouter statistisch Mainstream. Vertrauen Sie dem Abrechnungsfenster; nutzen Sie Benchmarks als Sekundärfilter. Für den breiteren Trend-Kontext siehe 2026 LLM-Trends aus OpenRouter-Rankings.
Konkret bedeutet das für deutsche Enterprise-Teams: ein Modell, das MMLU mit 92 % wirbt, aber bei Function Calling über zwanzig Schritte instabil wird, verschwindet aus dem Wochenranking, während DeepSeek V4 Flash dort verbleibt — nicht weil es „intelligenter“ ist, sondern weil tausende Agent-Deployments es billig genug und robust genug für Dauerbetrieb halten. Die Abrechnungsdaten messen Ausdauer unter Last, nicht Exam-Scores.
07 · Marktstratifizierung in vier Tiers
| Tier | Wochen-Token-Band | Repräsentative Modelle | Wann hier routen |
|---|---|---|---|
| T1 — Volumen-Könige | >2 B / Woche | DeepSeek V4 Flash, Hy3 Preview | Default-Agent-Schleifen, RAG-Ingestion, CI-Bots |
| T2 — Momentum-Herausforderer | 1–2 B / Woche | MiMo, Sonnet 4.6, V4 Pro | Regionale Latenztests; Qualitäts-Stufen |
| T3 — Premium-Spezialisten | 0,5–1 B / Woche | Opus 4.7, Gemini 3 Flash | Langhorizont-Tasks, multimodale Analyse |
| T4 — Sandbox / kostenlos | Hohe Tokens, null Umsatz | Owl Alpha, Nemotron 3 Super (free) | Lehre, Spikes, nicht-sensitive Prototypen |
Szenario-Routing-Matrix (wochenbewusst)
| Workload | Primäre Wochenwahl | Fallback | Warum Abrechnung zustimmt |
|---|---|---|---|
| Innere Agent-Tool-Schleife (10+ Calls) | DeepSeek V4 Flash | Hy3 Preview | Höchste Wochen-Tokens; niedrigste $/M in Scale |
| PR-fertiger Swift-Diff | Claude Sonnet 4.6 | V4 Pro | Qualitäts-Tier mit moderatem Wochenvolumen |
| 12-Stunden-Autonom-Refactor | Claude Opus 4.7 | Kimi K2.6 (self-host) | Premium-$/M durch Fehlerkosten gerechtfertigt |
| Multimodale UI-Erfassung | Gemini 3 Flash | Opus 4.7 | Wöchentlicher multimodaler Coding-Anteil wächst |
| Zero-Budget-Hackathon | Owl Alpha | Nemotron 3 Super (free) | Token-Volumen ohne Umsatz — nur Sandbox |
Tier-Grenzen sind fluide — MiMo könnte bei einer starken Release-Woche in T1 aufsteigen —, aber die Stratifizierung hält Gateway-Configs wartbar. Dokumentieren Sie pro Microservice das Tier, deckeln Sie T3-Ausgaben separat, und routen Sie niemals Produktions-Kundendaten über T4-Free-Routen ohne Prüfung der Stealth-Logging-Policies. Für EU-Compliance empfiehlt sich ein wöchentliches Abgleichprotokoll: OpenRouter-7-Tage-Anteil, interne Token-CSV und Rechnungs-PDF in einem Ordner mit Aufbewahrungsfrist — so lässt sich bei Audit nachvollziehen, warum ein Routing-Default geändert wurde.
08 · Fünf Schritte: wöchentliche Routing-Validierung auf gemietetem Mac
Wochendaten sind verderblich. Ihre Validierungsschleife sollte es auch sein: Snapshot, testen, integrieren, archivieren — auf Hardware, die Sie löschen können.
- Wochenranking exportieren. Vor Routing-Änderungen OpenRouter-7-Tage-Rankings speichern (Model-ID, Wochen-Tokens, $/M). Neben interner Spend-CSV ablegen, um Plattform-Shift mit eigener Rechnung zu korrelieren.
- Isolierten macOS-Knoten mieten. Mac mini M4 über Bare-Metal-macOS-Preise buchen; SSH laut Tagesmiete-FAQ. Lokaler Benutzer ohne Produktions-Apple-ID.
- Sandbox-Routing-Keys konfigurieren.
OPENROUTER_API_KEYin projektbezogener.env. Optional DeepSeek lokal mit ds4 spiegeln — siehe ds4-Inferenz-Anleitung. - Feste Benchmark-Suite ausführen. Gleiche Agent-Aufgabe — Modul lesen, Test editieren, Tool aufrufen — über Tier-Shortlist. Prompt-Tokens, Completion-Tokens, Wall-Time, USD-Kosten und Tool-Fehler loggen. Mindestens drei Läufe pro Modell.
- Archivieren und freigeben.
weekly-routing-YYYYMMDD.csvintern speichern (nicht öffentlich), Test-Key widerrufen, Miet-Mac nach MacDate-Rückgabe-Checkliste löschen. Nächsten Snapshot in sieben Tagen planen.
# Wöchentliche OpenRouter-Probe — auf gemietetem Mac-Sandboxexport OPENROUTER_API_KEY="sk-or-..."DATE=$(date +%Y%m%d)MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")for M in "${MODELS[@]}"; do curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Refaktoriere die Auth-Modul-Tests.\"}]}" \ | tee -a "weekly-bench-$DATE.json"done
# Usage-Felder für Wochenkosten-Tracking parsen (jq erforderlich)jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \ weekly-bench-$DATE.json > weekly-routing-$DATE.csv
Dieselben Skripte auf einem privaten MacBook laufen zu lassen, mischt wöchentliche API-Experimente mit Produktions-Signing-Identitäten — so verbrennen Teams Anthropic-Kontingente dienstags und entdecken es erst auf der Rechnung. Ein Wegwerf-macOS-Knoten liefert eine forensische Reinraum-Umgebung: Wenn ein Stealth-Free-Modell Prompts loggt, stoppt der Blast-Radius an der Miete. Wenn MiMo oder Hy3 mid-week droppt, starten Sie den Harness neu, ohne die Hälfte Ihres Homebrew-Stacks zu deinstallieren.
Zeigt Ihre Benchmark-CSV, dass V4 Flash bei Tool-Erfolgsrate mit Sonnet mithält bei einem Fünftel der Output-Kosten, haben Sie einen finanzfertigen Grund für Default-Änderungen. Gewinnt Opus beim zwölfstufigen Refactor, haben Sie einen finanzfertigen Grund, T3 zu behalten. In beiden Fällen lieferte das Wochenboard den Prior — der gemietete Mac den Posterior. Für TCO-Rahmen siehe flexible Mac-mini-M4-AI-Workstation-Miete.
Auf Bare-Metal Mac mini M4 liefert die wöchentliche Validierung deterministische Latenz: kein Hypervisor-Jitter, ANE-Pfad für lokalen ds4-Fallback verfügbar, Keychain isoliert von Produktions-Signing-Identitäten. Bei 500K–1M-Kontext-Payloads — typisch für Agenten, die ein ganzes Swift-Package lesen — verdienen Wochenführer ihren Rang teils dadurch, dass sie diese Lasten überstehen; Ihr Harness auf dem Mietknoten reproduziert denselben Stress ohne Risiko für die Daily-Driver-Maschine. Mac Studio mit 256 GB+ amortisiert sich bei etwa 200 aktiven Inferenz-Tagen pro Jahr; darunter gewinnt Tagesmiete mit dokumentierter Löschung bei Rückgabe.