Zielgruppe

Platform-Leads, Indie-Agent-Builder und Cursor/OpenClaw-Betreiber, die über OpenRouter routen und einen wöchentlichen Puls brauchen, der eine CFO-Prüfung übersteht.

Problem

Kumulative All-Time-Rankings hinken der Realität hinterher. Modelle steigen und fallen innerhalb von Tagen; Ihr Gateway-Default kann drei Release-Zyklen hinter dem Markt liegen.

Nutzen

Wöchentlichen Token-Anteil in Routing-Tiers, Budgetdeckel und Fallback-Ketten übersetzen — und Entscheidungen auf Wegwerf-Hardware beweisen, bevor Produktions-Keys angefasst werden.

Aufbau

7-Tage-Methodik, drei Schmerzpunkte, globale Snapshot-Tabellen, Umsatzparadox, Benchmark-Inversion, Marktstratifizierung und Mac-Miet-HowTo.

Inhaltsverzeichnis

01 · Warum das rollierende 7-Tage-Fenster kumulative Hype schlägt

OpenRouter aggregiert Traffic aus tausenden Anwendungen — IDE-Plugins, Agent-Gateways, Batch-Pipelines, experimentelle Chat-UIs — und sortiert Modelle nach in den letzten sieben Tagen verarbeiteten Tokens. Dieses rollierende Fenster ist der öffentlichste Proxy für einen lebendigen Inferenz-Markt. Anders als Pressemitteilungen oder statische Benchmark-Tabellen bestraft das Wochenranking Modelle, die auf Papier gut aussehen, aber unter dauerhaften Agent-Schleifen scheitern: Tool-Timeouts, Kontext-Truncation, Rate-Limit-Stürme oder Preisschocks, die Teams über Nacht umrouten.

Der Unterschied ist 2026 entscheidend geworden. DeepSeek V4 Flash kletterte nicht über Jahre an die Spitze — es absorbierte Anteil in Wochen. Hy3 Preview und Xiaomi MiMo erreichten fast ebenso schnell die Wochen-Spitze. Ein kumulatives All-Time-Diagramm würde noch GPT-4-Ära-Traffic übergewichten und die aktuelle MoE-Welle untergewichten. Wer Cursor Agent Skills oder ein OpenClaw-Gateway auf gemietetem Mac verdrahtet, sollte das Wochenboard als Signal behandeln — alles andere ist Narrativ.

OpenRouter segmentiert Traffic nach Use Case. Die Programmier-Kategorie zeigt am deutlichsten, wie schnell sich der Produktions-Mix drehen kann: Anteil stieg von rund 11 % des wöchentlich kategorisierten Traffics Anfang 2025 auf über 50 % bis Juni 2026. Das ist keine graduelle Trendlinie — das sind Agenten, die die Plattform fressen. Wenn mehr als die Hälfte der gelabelten Aufrufe code-orientiert ist, verlieren Modelle, die nur kurze Q&A beherrschen, Rang — auch wenn ihr Marketing noch mit Allgemeinwissen-Scores wirbt.

Harte Daten (zitierbar): OpenRouter verarbeitete im 7-Tage-Fenster bis Anfang Juni 2026 weltweit etwa 28,9 Billionen Tokens. Chinesische Modelle (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi und verwandte Open Weights) machen mehr als 45 % des wöchentlichen Token-Volumens auf dem Aggregator aus — weit über ihrem Anteil auf westlich zentrierten Benchmark-Leaderboards.

02 · Drei Routing-Schmerzpunkte (nummeriert)

1. Benchmark-Myopie. SWE-bench Verified und Terminal-Bench bleiben sinnvolle Plausibilitätschecks, aber sie sampeln kuratierte Repos und kontrollierte Sandboxes. Das wöchentliche OpenRouter-Volumen erfasst chaotische Realität: partielle Dateien, fehlerhaftes Tool-JSON, Retry-Schleifen und 800K-Token-Kontext-Dumps. Ein Modell, das zwei Punkte auf einem Leaderboard gewinnt, aber im Wochenranking verliert, zeigt, wohin der Produktionstraffic bereits gewandert ist. Die gemeinsame a16z/OpenRouter-Analyse zur Benchmark-Markt-Inversion dokumentiert die Lücke explizit.

2. Token-Anteil ist nicht Dollar-Anteil. Anthropic illustriert das Paradox im Juni-2026-Wochendatensatz: rund 12 % aller Tokens auf OpenRouter entsprechen etwa 46 % des Plattform-Umsatzes, weil Claude Opus und Sonnet Output-Preise eine Größenordnung über DeepSeek V4 Flash oder kostenlosen Routen wie Owl Alpha liegen. Finanzteams interessiert die umsatzgewichtete Kurve; Engineering starrt auf Token-Führer. Ohne beide Linsen überspenden Sie entweder für Bulk-Traffic oder unterversorgen Qualität bei Opus-würdigen Aufgaben.

3. Lokale Experimente verschmutzen Produktionszustand. Fünf OpenRouter-Model-IDs auf demselben MacBook zu rotieren, auf dem Apple-Developer-Zertifikate, AWS-Produktions-Keys und der Daily-Driver-OpenClaw-Config liegen, ist der klassische Weg, wie Sandbox-Prompts in echte Kanäle leaken. Wöchentliche Validierung soll wiederholbar und isoliert sein — gleicher Harness, saubere Umgebung, archivierte CSV — bevor ein Routing-Change promoted wird. Dieselbe Disziplin wie in unserem ds4-DeepSeek-V4-Flash-Test: mieten, messen, freigeben. Für EU-Teams: Verarbeitungsverzeichnis um Zweck „Routing-Validierung“ und Löschfrist ergänzen (Art. 30 DSGVO).

03 · Globaler Wochen-Snapshot

Die Tabelle fasst Plattform-Kennzahlen aus dem rollierenden Fenster Anfang Juni 2026 zusammen. Werte sind aus öffentlichen OpenRouter-Stats gerundet — planungsorientiert, nicht audit-tauglich.

Kennzahl	7-Tage-Wert	Interpretation
Globales Token-Volumen	~28,9 Billionen	Wochendurchsatz über alle Modelle und Routen
China-Modell-Anteil	45 %+	DeepSeek, Hy3, MiMo, Kimi und verbündete Open Weights
Programmier-Kategorie	50 %+	Von ~11 %; Agenten dominieren gelabelten Traffic
Anthropic Token-Anteil	~12 %	Unter dem Mindshare; konzentriert auf Premium-Tiers
Anthropic Umsatzanteil (gesch.)	~46 %	Hohe Output-Preise bei Opus/Sonnet-Workloads
Free-Tier-Traffic	Signifikante Minderheit	Owl Alpha, Nemotron free — Prototyp-Schwerkraftfelder

Drei Implikationen folgen sofort. Erstens: Jede Routing-Policy, die chinesische Open-MoE-Defaults ignoriert, kämpft gegen die Mehrheit des Wochentraffics. Zweitens: Coding-Agenten sind die Standard-Workload — Modelle mit schwachem Tool Calling oder langem Code-Kontext verlieren Rang schnell. Drittens: Premium-West-APIs bleiben pro Dollar dominant, auch wenn sie die Token-Popularität verlieren — Budgetdeckel müssen explizit sein.

04 · Juni-2026-Wochenführer nach Token-Volumen

Wochenführer unterscheiden sich von All-Time-Helden. Die Shortlist spiegelt 7-Tage-Token-Volumen Anfang Juni 2026 — Volumina in Billionen (B) pro Woche, gerundet.

Rang	Modell	Wochen-Tokens	Anbieter	Wochenrolle
1	DeepSeek V4 Flash	~3,14 B	DeepSeek	Default-MoE-Arbeitspferd; 1M Kontext; agentenfreundliche Preise
2	Hy3 Preview	~2,75 B	Tencent	Open MoE; effizienzorientierte STEM- und Coding-Agenten
3	Xiaomi MiMo	~2,1 B (gesch.)	Xiaomi	Aufsteigender Open-Stack; starkes Wochenmomentum in APAC-Routen
4	Claude Sonnet 4.6	~1,8 B (gesch.)	Anthropic	Premium-Alltagsmodell; Free-Tier zieht weiter Volumen
5	DeepSeek V4 Pro	~1,5 B (gesch.)	DeepSeek	Höheres Reasoning-Tier; komplexe Agent-Subtasks
6	Gemini 3 Flash Preview	~1,2 B (gesch.)	Google	Multimodale Coding-Agenten; Google-Toolchain-Affinität
7	Claude Opus 4.7	~1,0 B (gesch.)	Anthropic	Langhorizont-Agenten; hohe Kosten pro Million Output-Tokens
8	Owl Alpha	~0,9 B (gesch.)	OpenRouter	Kostenlose Stealth-Route; Prototyp- und Bildungstraffic

Input/Output-Preisvergleich (Wochenplanung)

Modell	Input $/M	Output $/M	Kontext	Wochen-Fit
DeepSeek V4 Flash	~0,10	~0,40	1M	Hochfrequente Agent-Schleifen, Bulk-Coding
Hy3 Preview	~0,15 (API gesch.)	~0,60 (API gesch.)	256K	Open MoE; privates Deploy-Spiegelbild
Claude Sonnet 4.6	~3,00	~15,00	200K–1M	Qualitäts-Gate; kundensichtbare Entwürfe
Claude Opus 4.7	~5,00	~25,00	1M beta	Lange autonome Tasks; vision-lastig
Owl Alpha	0	0	1,05M	Nur nicht-sensitive Prototypen

DeepSeek V4 Flash mit rund 3,14 Billionen Tokens pro Woche ist keine Rundungsdifferenz — es ist eine Pluralität für sich. Hy3 bei ~2,75 B beweist, dass Tencents Open-MoE-Linie keine regionale Randgeschichte ist.

05 · Token-Anteil versus Dollar-Anteil: das Anthropic-Paradox

Wochenrankings sortieren nach Tokens. Rechnungen sortieren nach Dollar. Die beiden divergieren stark, wenn Output-Preise drei Größenordnungen spannen. Anthropics Claude-Familie machte Anfang Juni 2026 rund 12 % der wöchentlichen Tokens auf OpenRouter aus, lieferte aber geschätzt 46 % des Bruttoumsatzes.

Anbieter-Cluster	Token-Anteil (gesch.)	Umsatz-Anteil (gesch.)	Treiber
Chinesische Open MoE	45 %+	15–20 %	Ultra-niedrige $/M; massive Kontext-Ingestion
Anthropic (Opus + Sonnet)	~12 %	~46 %	Premium-Output-Preise; lange Agent-Sessions
Google Gemini-Familie	~10 %	~12 %	Multimodales Coding; Mid-Tier-Preise
Free / Stealth-Routen	~8 %	~0 %	Prototyp-Traffic; subventionierte Experimente

Operativ bedeutet das: Eine naive „alles auf Wochen-#1“-Policy minimiert Token-Kosten, opfert aber Qualität bei kundensichtbaren Outputs. Umgekehrt verbrennt „alles auf Opus“ Budget bei Bulk-Tasks, die V4 Flash bereits wöchentlich in Scale handhabt. Der disziplinierte Ansatz ist gestuftes Routing: günstige MoE-Defaults für innere Agent-Schleifen, Sonnet für merge-fertigen Code, Opus nur wenn Fehlerlogs die billigeren Tiers scheitern lassen.

06 · Benchmark versus Markt-Inversion (a16z × OpenRouter)

Der gemeinsame a16z/OpenRouter-Bericht zu Inferenzmärkten formalisierte, was Wochendaten bereits zeigten: Benchmark-Führung und Marktanteil invertierten sich 2026. Geschlossene Frontier-Modelle toppen weiterhin viele Eval-Charts — besonders auf engen Reasoning-Suites — während Open-MoE-Stacks Token-Anteil über Kontextlänge, Tool-Call-Zuverlässigkeit in Scale und aggressive Preise pro Million gewinnen.

Der Anstieg der Programmier-Kategorie von 11 % auf über 50 % ist der Mechanismus hinter der Inversion. Coding-Agenten stressen andere Dimensionen als Chatbots: Repository-Skala-Kontext, wiederholte Tool-Aufrufe, Diff-Anwendung, Terminal-Interaktion. Für Mac- und iOS-Teams ist die praktische Konsequenz: Xcode- und Swift-Workflows sind auf OpenRouter statistisch Mainstream. Vertrauen Sie dem Abrechnungsfenster; nutzen Sie Benchmarks als Sekundärfilter. Für den breiteren Trend-Kontext siehe 2026 LLM-Trends aus OpenRouter-Rankings.

Konkret bedeutet das für deutsche Enterprise-Teams: ein Modell, das MMLU mit 92 % wirbt, aber bei Function Calling über zwanzig Schritte instabil wird, verschwindet aus dem Wochenranking, während DeepSeek V4 Flash dort verbleibt — nicht weil es „intelligenter“ ist, sondern weil tausende Agent-Deployments es billig genug und robust genug für Dauerbetrieb halten. Die Abrechnungsdaten messen Ausdauer unter Last, nicht Exam-Scores.

07 · Marktstratifizierung in vier Tiers

Tier	Wochen-Token-Band	Repräsentative Modelle	Wann hier routen
T1 — Volumen-Könige	>2 B / Woche	DeepSeek V4 Flash, Hy3 Preview	Default-Agent-Schleifen, RAG-Ingestion, CI-Bots
T2 — Momentum-Herausforderer	1–2 B / Woche	MiMo, Sonnet 4.6, V4 Pro	Regionale Latenztests; Qualitäts-Stufen
T3 — Premium-Spezialisten	0,5–1 B / Woche	Opus 4.7, Gemini 3 Flash	Langhorizont-Tasks, multimodale Analyse
T4 — Sandbox / kostenlos	Hohe Tokens, null Umsatz	Owl Alpha, Nemotron 3 Super (free)	Lehre, Spikes, nicht-sensitive Prototypen

Szenario-Routing-Matrix (wochenbewusst)

Workload	Primäre Wochenwahl	Fallback	Warum Abrechnung zustimmt
Innere Agent-Tool-Schleife (10+ Calls)	DeepSeek V4 Flash	Hy3 Preview	Höchste Wochen-Tokens; niedrigste $/M in Scale
PR-fertiger Swift-Diff	Claude Sonnet 4.6	V4 Pro	Qualitäts-Tier mit moderatem Wochenvolumen
12-Stunden-Autonom-Refactor	Claude Opus 4.7	Kimi K2.6 (self-host)	Premium-$/M durch Fehlerkosten gerechtfertigt
Multimodale UI-Erfassung	Gemini 3 Flash	Opus 4.7	Wöchentlicher multimodaler Coding-Anteil wächst
Zero-Budget-Hackathon	Owl Alpha	Nemotron 3 Super (free)	Token-Volumen ohne Umsatz — nur Sandbox

Tier-Grenzen sind fluide — MiMo könnte bei einer starken Release-Woche in T1 aufsteigen —, aber die Stratifizierung hält Gateway-Configs wartbar. Dokumentieren Sie pro Microservice das Tier, deckeln Sie T3-Ausgaben separat, und routen Sie niemals Produktions-Kundendaten über T4-Free-Routen ohne Prüfung der Stealth-Logging-Policies. Für EU-Compliance empfiehlt sich ein wöchentliches Abgleichprotokoll: OpenRouter-7-Tage-Anteil, interne Token-CSV und Rechnungs-PDF in einem Ordner mit Aufbewahrungsfrist — so lässt sich bei Audit nachvollziehen, warum ein Routing-Default geändert wurde.

08 · Fünf Schritte: wöchentliche Routing-Validierung auf gemietetem Mac

Wochendaten sind verderblich. Ihre Validierungsschleife sollte es auch sein: Snapshot, testen, integrieren, archivieren — auf Hardware, die Sie löschen können.

Wochenranking exportieren. Vor Routing-Änderungen OpenRouter-7-Tage-Rankings speichern (Model-ID, Wochen-Tokens, $/M). Neben interner Spend-CSV ablegen, um Plattform-Shift mit eigener Rechnung zu korrelieren.
Isolierten macOS-Knoten mieten. Mac mini M4 über Bare-Metal-macOS-Preise buchen; SSH laut Tagesmiete-FAQ. Lokaler Benutzer ohne Produktions-Apple-ID.
Sandbox-Routing-Keys konfigurieren. OPENROUTER_API_KEY in projektbezogener .env. Optional DeepSeek lokal mit ds4 spiegeln — siehe ds4-Inferenz-Anleitung.
Feste Benchmark-Suite ausführen. Gleiche Agent-Aufgabe — Modul lesen, Test editieren, Tool aufrufen — über Tier-Shortlist. Prompt-Tokens, Completion-Tokens, Wall-Time, USD-Kosten und Tool-Fehler loggen. Mindestens drei Läufe pro Modell.
Archivieren und freigeben. weekly-routing-YYYYMMDD.csv intern speichern (nicht öffentlich), Test-Key widerrufen, Miet-Mac nach MacDate-Rückgabe-Checkliste löschen. Nächsten Snapshot in sieben Tagen planen.

                        # Wöchentliche OpenRouter-Probe — auf gemietetem Mac-Sandbox

                        export OPENROUTER_API_KEY="sk-or-..."

                        DATE=$(date +%Y%m%d)

                        MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")

                        for M in "${MODELS[@]}"; do

                          curl -s https://openrouter.ai/api/v1/chat/completions \

                            -H "Authorization: Bearer $OPENROUTER_API_KEY" \

                            -H "Content-Type: application/json" \

                            -d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Refaktoriere die Auth-Modul-Tests.\"}]}" \

                            | tee -a "weekly-bench-$DATE.json"

                        done

                        # Usage-Felder für Wochenkosten-Tracking parsen (jq erforderlich)

                        jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \

                          weekly-bench-$DATE.json > weekly-routing-$DATE.csv

Dieselben Skripte auf einem privaten MacBook laufen zu lassen, mischt wöchentliche API-Experimente mit Produktions-Signing-Identitäten — so verbrennen Teams Anthropic-Kontingente dienstags und entdecken es erst auf der Rechnung. Ein Wegwerf-macOS-Knoten liefert eine forensische Reinraum-Umgebung: Wenn ein Stealth-Free-Modell Prompts loggt, stoppt der Blast-Radius an der Miete. Wenn MiMo oder Hy3 mid-week droppt, starten Sie den Harness neu, ohne die Hälfte Ihres Homebrew-Stacks zu deinstallieren.

Zeigt Ihre Benchmark-CSV, dass V4 Flash bei Tool-Erfolgsrate mit Sonnet mithält bei einem Fünftel der Output-Kosten, haben Sie einen finanzfertigen Grund für Default-Änderungen. Gewinnt Opus beim zwölfstufigen Refactor, haben Sie einen finanzfertigen Grund, T3 zu behalten. In beiden Fällen lieferte das Wochenboard den Prior — der gemietete Mac den Posterior. Für TCO-Rahmen siehe flexible Mac-mini-M4-AI-Workstation-Miete.

Auf Bare-Metal Mac mini M4 liefert die wöchentliche Validierung deterministische Latenz: kein Hypervisor-Jitter, ANE-Pfad für lokalen ds4-Fallback verfügbar, Keychain isoliert von Produktions-Signing-Identitäten. Bei 500K–1M-Kontext-Payloads — typisch für Agenten, die ein ganzes Swift-Package lesen — verdienen Wochenführer ihren Rang teils dadurch, dass sie diese Lasten überstehen; Ihr Harness auf dem Mietknoten reproduziert denselben Stress ohne Risiko für die Daily-Driver-Maschine. Mac Studio mit 256 GB+ amortisiert sich bei etwa 200 aktiven Inferenz-Tagen pro Jahr; darunter gewinnt Tagesmiete mit dokumentierter Löschung bei Rückgabe.

OpenRouter Wochenranking:
Abrechnungsdaten lügen nicht