Еженедельный рейтинг OpenRouter:
счета не врут
Если в июне 2026 вы всё ещё выбираете default model по MMLU, пока финансы смотрят инвойсы OpenRouter, вы оптимизируете не тот scoreboard. OpenRouter публикует скользящее 7-дневное окно — ledger того, что реально потребляют production-агенты, а не launch deck вендора. Этот разбор читает недельную книгу: 28,9 трлн токенов глобально, китайские open weights свыше 45 % доли, programming workload с ~11 % до 50 %+ categorized mix, и парадокс Anthropic (~12 % токенов, ~46 % выручки). Получите три нумерованных bottleneck, сравнительные таблицы, market tiers, жёсткие цифры и пятиступенчатый validation loop на арендованном Mac — без загрязнения daily-driver Keychain.
Кому
Platform leads, indie agent builders, операторы Cursor/OpenClaw, которым нужен еженедельный pulse check, переживающий CFO audit — не квартальный benchmark blog post.
Проблема
All-time cumulative rankings отстают от реальности. Модели взлетают и падают за дни; gateway default может отставать на три release cycle от того, за что рынок уже платит.
Выгода
Перевести недельную долю токенов в routing tiers, budget caps и fallback chains — и доказать выбор на disposable hardware до production keys.
Структура
Методика 7 дней, три bottleneck, global snapshot tables, revenue paradox, benchmark inversion, market stratification и Mac rental HowTo.
Содержание
01 · Скользящее 7-дневное окно бьёт cumulative hype
OpenRouter агрегирует трафик тысяч приложений — IDE plugins, agent gateways, batch pipelines, experimental chat UI — и ранжирует модели по токенам за последние семь дней. Это ближайший публичный proxy к живой commodity-бирже inference. В отличие от press release или статических benchmark tables, недельный рейтинг наказывает модели, которые хороши на бумаге, но падают под sustained agent loops: tool timeouts, context truncation, rate-limit storms, price shocks, уводящие команды overnight.
Различие критично в 2026: model lifecycles ускорились. DeepSeek V4 Flash не карабкался годами — он поглотил share за недели. Hy3 Preview и Xiaomi MiMo почти так же быстро вошли в weekly top tier. Cumulative all-time chart всё ещё перевешивал бы retired GPT-4 era traffic и недооценивал текущую MoE wave. Для тех, кто подключает Cursor Agent Skills или OpenClaw gateway на арендованном Mac, weekly board — сигнал; остальное — narrative.
OpenRouter сегментирует traffic по use case. Programming category — самый яркий пример flip production mix: share вырос с ~11 % weekly categorized traffic в начале 2025 до более 50 % к июню 2026. Это не gradual trend — агенты съедают платформу. Когда больше половины labeled invocations code-oriented, модели, сильные только в short Q&A, теряют rank, даже если marketing всё ещё лидирует general knowledge scores.
Жёсткие данные (цитируемые): OpenRouter обработал ~28,9 трлн токенов глобально в 7-дневном окне до начала июня 2026. Китайские модели (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi и allied open weights) — более 45 % недельного token volume на агрегаторе, далеко выше их доли на западоцентричных benchmark leaderboards.
02 · Три bottleneck маршрутизации (нумерованные)
1. Benchmark myopia. SWE-bench Verified и Terminal-Bench — полезные sanity checks, но они sample curated repos и controlled sandboxes. Weekly OpenRouter volume ловит messy reality: partial files, malformed tool JSON, retry loops, 800K-token context dumps. Модель, gaining two points на leaderboard но losing rank на weekly board, говорит, куда production traffic уже ушёл. Совместный a16z/OpenRouter analysis на benchmark versus market inversion документирует gap явно.
2. Token share ≠ dollar share. Anthropic иллюстрирует paradox в июньских weekly data: ~12 % total tokens на OpenRouter всё ещё map к ~46 % platform dollar revenue, потому что Claude Opus и Sonnet tiers price output на порядок выше DeepSeek V4 Flash или free routes вроде Owl Alpha. Finance смотрит revenue-weighted curve; engineering — token leaders. Без обеих линз вы либо overspend на premium для bulk traffic, либо under-provision quality на Opus-grade tasks.
3. Local experimentation загрязняет production state. Крутить пять OpenRouter model IDs на том же MacBook, где Apple developer certificates, production AWS keys и daily-driver OpenClaw config — классический путь утечки sandbox prompts в real channels. Weekly validation должна быть repeatable и isolated: same harness, clean environment, archived CSV — до promote routing change. Та же дисципина, что в ds4 local DeepSeek V4 Flash tests: rent, measure, release.
03 · Глобальный недельный snapshot
Таблица суммирует platform-level metrics из rolling window начала июня 2026. Figures rounded из публичных OpenRouter stats — directional для planning, не audit-grade financials.
| Метрика | 7-дневное значение | Интерпретация |
|---|---|---|
| Глобальный token volume | ~28,9T | Недельный throughput всех моделей и routes |
| Доля China-origin models | 45 %+ | DeepSeek, Hy3, MiMo, Kimi и allied open weights |
| Programming category share | 50 %+ | Рост с ~11 %; агенты доминируют labeled traffic |
| Anthropic token share | ~12 % | Ниже mindshare; концентрация на premium tiers |
| Anthropic revenue share (est.) | ~46 % | Высокие output prices на Opus/Sonnet workloads |
| Free-tier model traffic | Значимая minority | Owl Alpha, Nemotron free — prototype gravity wells |
Три implication сразу. First: routing policy, игнорирующая Chinese open MoE defaults, борется с majority weekly traffic. Second: coding agents — default workload; модели слабые на tool calling или long-context code быстро теряют rank. Third: premium Western APIs economically dominant per dollar, даже losing token popularity contest — budget caps explicit, не assumed из leaderboard position.
Для инженеров, считающих TCO: при ~3,14T weekly tokens только на V4 Flash экосистема уже доказала price/performance at scale — ваш gateway default, застрявший на Sonnet «из привычки», может стоить команде в 10–30× больше output dollars на тех же agent loops. Weekly board — не реклама DeepSeek, а aggregate signal тысяч команд, которые уже проголосовали кошельком.
04 · Weekly model leaders июня 2026
Weekly leaders ≠ all-time cumulative heroes. Shortlist отражает 7-day token volume начала июня 2026 — volumes approximate trillions (T) per week.
| Ранг | Модель | Токены / неделя | Вендор | Недельная роль |
|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | ~3,14T | DeepSeek | Default MoE workhorse; 1M context; agent-friendly pricing |
| 2 | Hy3 Preview | ~2,75T | Tencent | Open MoE; efficiency STEM/coding agents |
| 3 | Xiaomi MiMo | ~2,1T (est.) | Xiaomi | Rising open stack; APAC route momentum |
| 4 | Claude Sonnet 4.6 | ~1,8T (est.) | Anthropic | Premium daily driver; free tier тянет volume |
| 5 | DeepSeek V4 Pro | ~1,5T (est.) | DeepSeek | Higher reasoning tier; complex agent subtasks |
| 6 | Gemini 3 Flash Preview | ~1,2T (est.) | Multimodal coding agents | |
| 7 | Claude Opus 4.7 | ~1,0T (est.) | Anthropic | Long-horizon agents; high $/M output |
| 8 | Owl Alpha | ~0,9T (est.) | OpenRouter | Free stealth route; prototype traffic |
Сравнение input/output pricing (weekly planning)
| Модель | Input $/M | Output $/M | Context | Weekly fit |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~0,10 | ~0,40 | 1M | High-frequency agent loops, bulk coding |
| Hy3 Preview | ~0,15 (API est.) | ~0,60 (API est.) | 256K | Open MoE; private deploy mirror |
| Claude Sonnet 4.6 | ~3,00 | ~15,00 | 200K–1M | Quality gate; customer-facing drafts |
| Claude Opus 4.7 | ~5,00 | ~25,00 | 1M beta | Long autonomous tasks |
| Owl Alpha | 0 | 0 | 1,05M | Non-sensitive prototypes only |
DeepSeek V4 Flash на ~3,14T tokens per week — не rounding error, а plurality. Hy3 на ~2,75T доказывает, что Tencent open MoE — не regional side story. На Apple Silicon параллельный вопрос: какие веса зеркалировать локально через ds4 на Mac Studio (q2/q4, KV-on-disk при 128 GB+ unified memory).
05 · Token share vs dollar share: парадокс Anthropic
Weekly rankings sort по tokens. Invoices sort по dollars. Divergence sharp, когда output pricing spans three orders of magnitude. Anthropic combined Claude family — ~12 % weekly tokens на OpenRouter начала июня 2026 при estimated 46 % gross platform revenue.
| Кластер вендора | Token share (est.) | Revenue share (est.) | Драйвер |
|---|---|---|---|
| Chinese open MoE | 45 %+ | 15–20 % | Ultra-low $/M; massive context ingestion |
| Anthropic (Opus + Sonnet) | ~12 % | ~46 % | Premium output pricing; long agent sessions |
| Google Gemini family | ~10 % | ~12 % | Multimodal coding; mid-tier pricing |
| Free / stealth routes | ~8 % | ~0 % | Prototype traffic; subsidized experiments |
Operationally: naive «route everything to weekly #1» minimizes token spend но sacrifices quality на customer-visible outputs. «Everything to Opus» burns budget на bulk, который V4 Flash уже handles at weekly scale. Disciplined approach — tiered routing: cheap MoE defaults для inner agent loops, Sonnet для merge-ready code, Opus только когда error logs prove cheaper tiers fail.
06 · Benchmark vs market inversion (a16z × OpenRouter)
Joint a16z/OpenRouter report formalized то, что weekly data уже показывали: benchmark leadership и market share inverted в 2026. Closed frontier models top eval charts — especially narrow reasoning suites — while open MoE stacks capture token share через context length, tool-call reliability at scale, aggressive per-million pricing.
Programming rise с 11 % до above 50 % categorized weekly traffic — mechanism behind inversion. Coding agents stress другие dimensions: repository-scale context, repeated tool invocation, diff application, terminal interaction. У MoE (V4 Flash, Hy3) счёт зависит от числа activated experts per token — длинный prompt с высокой perplexity может разбудить дорогое expert subset; облако скрывает до invoice, local ds4 — на memory bandwidth ANE/GPU path.
Модель с 92 % MMLU, но unstable function calling на двадцати шагах подряд, исчезает из weekly rank, пока V4 Flash остаётся — не потому что «умнее», а потому что тысячи agent deployments считают его достаточно дешёвым и robust для continuous operation. Billing data измеряет выносливость под нагрузкой, не exam scores. Для kernel-level мыслителей: prefill миллиона токенов бьёт по TTFT и memory pressure на unified memory Apple Silicon; weekly leaders часто выживают именно на длинном agent context, где narrow benchmark suites молчат.
Для Mac/iOS teams: Xcode и Swift workflow статистически mainstream на OpenRouter. Trust billing window; benchmarks — secondary filters. Broader trend narrative: 2026 LLM trends из OpenRouter rankings.
07 · Market stratification tiers
| Tier | Weekly token band | Representative models | Когда route сюда |
|---|---|---|---|
| T1 — Volume kings | >2T / week | DeepSeek V4 Flash, Hy3 Preview | Default agent loops, RAG ingestion, CI bots |
| T2 — Momentum challengers | 1–2T / week | MiMo, Sonnet 4.6, V4 Pro | Regional latency tests; quality step-ups |
| T3 — Premium specialists | 0,5–1T / week | Opus 4.7, Gemini 3 Flash | Long-horizon tasks, multimodal analysis |
| T4 — Sandbox / free | High tokens, zero revenue | Owl Alpha, Nemotron 3 Super (free) | Teaching, spikes, non-sensitive prototypes |
Scenario routing matrix (weekly-aware)
| Workload | Primary weekly pick | Fallback | Почему billing согласен |
|---|---|---|---|
| Inner agent tool loop (10+ calls) | DeepSeek V4 Flash | Hy3 Preview | Highest weekly tokens; lowest $/M at scale |
| PR-ready Swift diff | Claude Sonnet 4.6 | V4 Pro | Quality tier с moderate weekly volume |
| 12-hour autonomous refactor | Claude Opus 4.7 | Kimi K2.6 (self-host) | Premium $/M justified by error cost |
| Multimodal UI capture | Gemini 3 Flash | Opus 4.7 | Weekly multimodal coding share растёт |
| Zero-budget hackathon | Owl Alpha | Nemotron 3 Super (free) | Token volume без revenue — sandbox only |
08 · Пять шагов: weekly routing validation на арендованном Mac
Weekly data perishable. Validation loop тоже: snapshot, test, integrate, archive — на hardware, который можно wipe.
- Снимок weekly leaderboard. Перед route change сохранить OpenRouter 7-day rankings (model ID, weekly tokens, $/M). Рядом internal spend CSV — correlate platform shift с own invoice.
- Аренда isolated macOS node. Mac mini M4 через тарифы bare-metal macOS; SSH по FAQ посуточной аренды. Local user без production Apple ID.
- Configure sandbox routing keys.
OPENROUTER_API_KEYв project-scoped.env. Optional ds4 mirror — ds4 inference guide. - Run fixed weekly benchmark harness. Same agent task — read module, edit test, invoke tool — across tier shortlist. Log prompt tokens, completion tokens, wall time, USD cost, tool failures. Minimum three runs per model.
- Archive and release.
weekly-routing-YYYYMMDD.csvв internal docs (не public), revoke test key, wipe rental по MacDate return checklist. Next snapshot через seven days.
# Weekly OpenRouter probe — rented Mac sandboxexport OPENROUTER_API_KEY="sk-or-..."DATE=$(date +%Y%m%d)MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")for M in "${MODELS[@]}"; do curl -s https://openrouter.ai/api/v1/chat/completions \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -H "Content-Type: application/json" \ -d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Рефактори тесты auth-модуля.\"}]}" \ | tee -a "weekly-bench-$DATE.json"done
# Parse usage для weekly cost tracking (jq)jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \ weekly-bench-$DATE.json > weekly-routing-$DATE.csv
Те же scripts на personal MacBook смешивают weekly API experiments с production signing identities — так teams burn Anthropic quotas во вторник и discover на invoice day. Disposable macOS node — forensic clean room: stealth free model logs prompts — blast radius stops at rental. MiMo или Hy3 mid-week drop — re-run harness без uninstall half homebrew stack.
Benchmark CSV shows V4 Flash matching Sonnet на tool success rate at one-fifth output cost — finance-ready reason change defaults. Opus wins на twelve-step refactor — finance-ready reason keep T3 tier. Weekly OpenRouter board gave prior; rented-Mac harness supplied posterior. TCO frame: гибкая аренда Mac mini M4.
На уровне железа weekly validation на bare-metal Mac mini M4 даёт deterministic latency: нет hypervisor jitter, ANE path доступен для локального ds4 fallback, Keychain изолирован от production signing identity. При 500K–1M context payloads — типичных для agent, читающего весь Swift package — weekly leaders зарабатывают rank partly на survival этих нагрузок; ваш harness на арендованном узле воспроизводит тот же stress без риска для daily-driver machine. Mac Studio 256 GB+ окупается при ~200 активных inference days/year; ниже порога выигрывает посуточная аренда с documented wipe при return.