Кому

Platform leads, indie agent builders, операторы Cursor/OpenClaw, которым нужен еженедельный pulse check, переживающий CFO audit — не квартальный benchmark blog post.

Проблема

All-time cumulative rankings отстают от реальности. Модели взлетают и падают за дни; gateway default может отставать на три release cycle от того, за что рынок уже платит.

Выгода

Перевести недельную долю токенов в routing tiers, budget caps и fallback chains — и доказать выбор на disposable hardware до production keys.

Структура

Методика 7 дней, три bottleneck, global snapshot tables, revenue paradox, benchmark inversion, market stratification и Mac rental HowTo.

Содержание

01 · Скользящее 7-дневное окно бьёт cumulative hype

OpenRouter агрегирует трафик тысяч приложений — IDE plugins, agent gateways, batch pipelines, experimental chat UI — и ранжирует модели по токенам за последние семь дней. Это ближайший публичный proxy к живой commodity-бирже inference. В отличие от press release или статических benchmark tables, недельный рейтинг наказывает модели, которые хороши на бумаге, но падают под sustained agent loops: tool timeouts, context truncation, rate-limit storms, price shocks, уводящие команды overnight.

Различие критично в 2026: model lifecycles ускорились. DeepSeek V4 Flash не карабкался годами — он поглотил share за недели. Hy3 Preview и Xiaomi MiMo почти так же быстро вошли в weekly top tier. Cumulative all-time chart всё ещё перевешивал бы retired GPT-4 era traffic и недооценивал текущую MoE wave. Для тех, кто подключает Cursor Agent Skills или OpenClaw gateway на арендованном Mac, weekly board — сигнал; остальное — narrative.

OpenRouter сегментирует traffic по use case. Programming category — самый яркий пример flip production mix: share вырос с ~11 % weekly categorized traffic в начале 2025 до более 50 % к июню 2026. Это не gradual trend — агенты съедают платформу. Когда больше половины labeled invocations code-oriented, модели, сильные только в short Q&A, теряют rank, даже если marketing всё ещё лидирует general knowledge scores.

Жёсткие данные (цитируемые): OpenRouter обработал ~28,9 трлн токенов глобально в 7-дневном окне до начала июня 2026. Китайские модели (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi и allied open weights) — более 45 % недельного token volume на агрегаторе, далеко выше их доли на западоцентричных benchmark leaderboards.

02 · Три bottleneck маршрутизации (нумерованные)

1. Benchmark myopia. SWE-bench Verified и Terminal-Bench — полезные sanity checks, но они sample curated repos и controlled sandboxes. Weekly OpenRouter volume ловит messy reality: partial files, malformed tool JSON, retry loops, 800K-token context dumps. Модель, gaining two points на leaderboard но losing rank на weekly board, говорит, куда production traffic уже ушёл. Совместный a16z/OpenRouter analysis на benchmark versus market inversion документирует gap явно.

2. Token share ≠ dollar share. Anthropic иллюстрирует paradox в июньских weekly data: ~12 % total tokens на OpenRouter всё ещё map к ~46 % platform dollar revenue, потому что Claude Opus и Sonnet tiers price output на порядок выше DeepSeek V4 Flash или free routes вроде Owl Alpha. Finance смотрит revenue-weighted curve; engineering — token leaders. Без обеих линз вы либо overspend на premium для bulk traffic, либо under-provision quality на Opus-grade tasks.

3. Local experimentation загрязняет production state. Крутить пять OpenRouter model IDs на том же MacBook, где Apple developer certificates, production AWS keys и daily-driver OpenClaw config — классический путь утечки sandbox prompts в real channels. Weekly validation должна быть repeatable и isolated: same harness, clean environment, archived CSV — до promote routing change. Та же дисципина, что в ds4 local DeepSeek V4 Flash tests: rent, measure, release.

03 · Глобальный недельный snapshot

Таблица суммирует platform-level metrics из rolling window начала июня 2026. Figures rounded из публичных OpenRouter stats — directional для planning, не audit-grade financials.

Метрика	7-дневное значение	Интерпретация
Глобальный token volume	~28,9T	Недельный throughput всех моделей и routes
Доля China-origin models	45 %+	DeepSeek, Hy3, MiMo, Kimi и allied open weights
Programming category share	50 %+	Рост с ~11 %; агенты доминируют labeled traffic
Anthropic token share	~12 %	Ниже mindshare; концентрация на premium tiers
Anthropic revenue share (est.)	~46 %	Высокие output prices на Opus/Sonnet workloads
Free-tier model traffic	Значимая minority	Owl Alpha, Nemotron free — prototype gravity wells

Три implication сразу. First: routing policy, игнорирующая Chinese open MoE defaults, борется с majority weekly traffic. Second: coding agents — default workload; модели слабые на tool calling или long-context code быстро теряют rank. Third: premium Western APIs economically dominant per dollar, даже losing token popularity contest — budget caps explicit, не assumed из leaderboard position.

Для инженеров, считающих TCO: при ~3,14T weekly tokens только на V4 Flash экосистема уже доказала price/performance at scale — ваш gateway default, застрявший на Sonnet «из привычки», может стоить команде в 10–30× больше output dollars на тех же agent loops. Weekly board — не реклама DeepSeek, а aggregate signal тысяч команд, которые уже проголосовали кошельком.

04 · Weekly model leaders июня 2026

Weekly leaders ≠ all-time cumulative heroes. Shortlist отражает 7-day token volume начала июня 2026 — volumes approximate trillions (T) per week.

Ранг	Модель	Токены / неделя	Вендор	Недельная роль
1	DeepSeek V4 Flash	~3,14T	DeepSeek	Default MoE workhorse; 1M context; agent-friendly pricing
2	Hy3 Preview	~2,75T	Tencent	Open MoE; efficiency STEM/coding agents
3	Xiaomi MiMo	~2,1T (est.)	Xiaomi	Rising open stack; APAC route momentum
4	Claude Sonnet 4.6	~1,8T (est.)	Anthropic	Premium daily driver; free tier тянет volume
5	DeepSeek V4 Pro	~1,5T (est.)	DeepSeek	Higher reasoning tier; complex agent subtasks
6	Gemini 3 Flash Preview	~1,2T (est.)	Google	Multimodal coding agents
7	Claude Opus 4.7	~1,0T (est.)	Anthropic	Long-horizon agents; high $/M output
8	Owl Alpha	~0,9T (est.)	OpenRouter	Free stealth route; prototype traffic

Сравнение input/output pricing (weekly planning)

Модель	Input $/M	Output $/M	Context	Weekly fit
DeepSeek V4 Flash	~0,10	~0,40	1M	High-frequency agent loops, bulk coding
Hy3 Preview	~0,15 (API est.)	~0,60 (API est.)	256K	Open MoE; private deploy mirror
Claude Sonnet 4.6	~3,00	~15,00	200K–1M	Quality gate; customer-facing drafts
Claude Opus 4.7	~5,00	~25,00	1M beta	Long autonomous tasks
Owl Alpha	0	0	1,05M	Non-sensitive prototypes only

DeepSeek V4 Flash на ~3,14T tokens per week — не rounding error, а plurality. Hy3 на ~2,75T доказывает, что Tencent open MoE — не regional side story. На Apple Silicon параллельный вопрос: какие веса зеркалировать локально через ds4 на Mac Studio (q2/q4, KV-on-disk при 128 GB+ unified memory).

05 · Token share vs dollar share: парадокс Anthropic

Weekly rankings sort по tokens. Invoices sort по dollars. Divergence sharp, когда output pricing spans three orders of magnitude. Anthropic combined Claude family — ~12 % weekly tokens на OpenRouter начала июня 2026 при estimated 46 % gross platform revenue.

Кластер вендора	Token share (est.)	Revenue share (est.)	Драйвер
Chinese open MoE	45 %+	15–20 %	Ultra-low $/M; massive context ingestion
Anthropic (Opus + Sonnet)	~12 %	~46 %	Premium output pricing; long agent sessions
Google Gemini family	~10 %	~12 %	Multimodal coding; mid-tier pricing
Free / stealth routes	~8 %	~0 %	Prototype traffic; subsidized experiments

Operationally: naive «route everything to weekly #1» minimizes token spend но sacrifices quality на customer-visible outputs. «Everything to Opus» burns budget на bulk, который V4 Flash уже handles at weekly scale. Disciplined approach — tiered routing: cheap MoE defaults для inner agent loops, Sonnet для merge-ready code, Opus только когда error logs prove cheaper tiers fail.

06 · Benchmark vs market inversion (a16z × OpenRouter)

Joint a16z/OpenRouter report formalized то, что weekly data уже показывали: benchmark leadership и market share inverted в 2026. Closed frontier models top eval charts — especially narrow reasoning suites — while open MoE stacks capture token share через context length, tool-call reliability at scale, aggressive per-million pricing.

Programming rise с 11 % до above 50 % categorized weekly traffic — mechanism behind inversion. Coding agents stress другие dimensions: repository-scale context, repeated tool invocation, diff application, terminal interaction. У MoE (V4 Flash, Hy3) счёт зависит от числа activated experts per token — длинный prompt с высокой perplexity может разбудить дорогое expert subset; облако скрывает до invoice, local ds4 — на memory bandwidth ANE/GPU path.

Модель с 92 % MMLU, но unstable function calling на двадцати шагах подряд, исчезает из weekly rank, пока V4 Flash остаётся — не потому что «умнее», а потому что тысячи agent deployments считают его достаточно дешёвым и robust для continuous operation. Billing data измеряет выносливость под нагрузкой, не exam scores. Для kernel-level мыслителей: prefill миллиона токенов бьёт по TTFT и memory pressure на unified memory Apple Silicon; weekly leaders часто выживают именно на длинном agent context, где narrow benchmark suites молчат.

Для Mac/iOS teams: Xcode и Swift workflow статистически mainstream на OpenRouter. Trust billing window; benchmarks — secondary filters. Broader trend narrative: 2026 LLM trends из OpenRouter rankings.

07 · Market stratification tiers

Tier	Weekly token band	Representative models	Когда route сюда
T1 — Volume kings	>2T / week	DeepSeek V4 Flash, Hy3 Preview	Default agent loops, RAG ingestion, CI bots
T2 — Momentum challengers	1–2T / week	MiMo, Sonnet 4.6, V4 Pro	Regional latency tests; quality step-ups
T3 — Premium specialists	0,5–1T / week	Opus 4.7, Gemini 3 Flash	Long-horizon tasks, multimodal analysis
T4 — Sandbox / free	High tokens, zero revenue	Owl Alpha, Nemotron 3 Super (free)	Teaching, spikes, non-sensitive prototypes

Scenario routing matrix (weekly-aware)

Workload	Primary weekly pick	Fallback	Почему billing согласен
Inner agent tool loop (10+ calls)	DeepSeek V4 Flash	Hy3 Preview	Highest weekly tokens; lowest $/M at scale
PR-ready Swift diff	Claude Sonnet 4.6	V4 Pro	Quality tier с moderate weekly volume
12-hour autonomous refactor	Claude Opus 4.7	Kimi K2.6 (self-host)	Premium $/M justified by error cost
Multimodal UI capture	Gemini 3 Flash	Opus 4.7	Weekly multimodal coding share растёт
Zero-budget hackathon	Owl Alpha	Nemotron 3 Super (free)	Token volume без revenue — sandbox only

08 · Пять шагов: weekly routing validation на арендованном Mac

Weekly data perishable. Validation loop тоже: snapshot, test, integrate, archive — на hardware, который можно wipe.

Снимок weekly leaderboard. Перед route change сохранить OpenRouter 7-day rankings (model ID, weekly tokens, $/M). Рядом internal spend CSV — correlate platform shift с own invoice.
Аренда isolated macOS node. Mac mini M4 через тарифы bare-metal macOS; SSH по FAQ посуточной аренды. Local user без production Apple ID.
Configure sandbox routing keys. OPENROUTER_API_KEY в project-scoped .env. Optional ds4 mirror — ds4 inference guide.
Run fixed weekly benchmark harness. Same agent task — read module, edit test, invoke tool — across tier shortlist. Log prompt tokens, completion tokens, wall time, USD cost, tool failures. Minimum three runs per model.
Archive and release. weekly-routing-YYYYMMDD.csv в internal docs (не public), revoke test key, wipe rental по MacDate return checklist. Next snapshot через seven days.

                        # Weekly OpenRouter probe — rented Mac sandbox

                        export OPENROUTER_API_KEY="sk-or-..."

                        DATE=$(date +%Y%m%d)

                        MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")

                        for M in "${MODELS[@]}"; do

                          curl -s https://openrouter.ai/api/v1/chat/completions \

                            -H "Authorization: Bearer $OPENROUTER_API_KEY" \

                            -H "Content-Type: application/json" \

                            -d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Рефактори тесты auth-модуля.\"}]}" \

                            | tee -a "weekly-bench-$DATE.json"

                        done

                        # Parse usage для weekly cost tracking (jq)

                        jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \

                          weekly-bench-$DATE.json > weekly-routing-$DATE.csv

Те же scripts на personal MacBook смешивают weekly API experiments с production signing identities — так teams burn Anthropic quotas во вторник и discover на invoice day. Disposable macOS node — forensic clean room: stealth free model logs prompts — blast radius stops at rental. MiMo или Hy3 mid-week drop — re-run harness без uninstall half homebrew stack.

Benchmark CSV shows V4 Flash matching Sonnet на tool success rate at one-fifth output cost — finance-ready reason change defaults. Opus wins на twelve-step refactor — finance-ready reason keep T3 tier. Weekly OpenRouter board gave prior; rented-Mac harness supplied posterior. TCO frame: гибкая аренда Mac mini M4.

На уровне железа weekly validation на bare-metal Mac mini M4 даёт deterministic latency: нет hypervisor jitter, ANE path доступен для локального ds4 fallback, Keychain изолирован от production signing identity. При 500K–1M context payloads — типичных для agent, читающего весь Swift package — weekly leaders зарабатывают rank partly на survival этих нагрузок; ваш harness на арендованном узле воспроизводит тот же stress без риска для daily-driver machine. Mac Studio 256 GB+ окупается при ~200 активных inference days/year; ниже порога выигрывает посуточная аренда с documented wipe при return.

Еженедельный рейтинг OpenRouter:
счета не врут