Рыночные данные 2026-06-06

Еженедельный рейтинг OpenRouter:
счета не врут

Если в июне 2026 вы всё ещё выбираете default model по MMLU, пока финансы смотрят инвойсы OpenRouter, вы оптимизируете не тот scoreboard. OpenRouter публикует скользящее 7-дневное окно — ledger того, что реально потребляют production-агенты, а не launch deck вендора. Этот разбор читает недельную книгу: 28,9 трлн токенов глобально, китайские open weights свыше 45 % доли, programming workload с ~11 % до 50 %+ categorized mix, и парадокс Anthropic (~12 % токенов, ~46 % выручки). Получите три нумерованных bottleneck, сравнительные таблицы, market tiers, жёсткие цифры и пятиступенчатый validation loop на арендованном Mac — без загрязнения daily-driver Keychain.

Еженедельный рейтинг токенов OpenRouter и правда биллинга для маршрутизации агентов в июне 2026

Кому

Platform leads, indie agent builders, операторы Cursor/OpenClaw, которым нужен еженедельный pulse check, переживающий CFO audit — не квартальный benchmark blog post.

Проблема

All-time cumulative rankings отстают от реальности. Модели взлетают и падают за дни; gateway default может отставать на три release cycle от того, за что рынок уже платит.

Выгода

Перевести недельную долю токенов в routing tiers, budget caps и fallback chains — и доказать выбор на disposable hardware до production keys.

Структура

Методика 7 дней, три bottleneck, global snapshot tables, revenue paradox, benchmark inversion, market stratification и Mac rental HowTo.

01 · Скользящее 7-дневное окно бьёт cumulative hype

OpenRouter агрегирует трафик тысяч приложений — IDE plugins, agent gateways, batch pipelines, experimental chat UI — и ранжирует модели по токенам за последние семь дней. Это ближайший публичный proxy к живой commodity-бирже inference. В отличие от press release или статических benchmark tables, недельный рейтинг наказывает модели, которые хороши на бумаге, но падают под sustained agent loops: tool timeouts, context truncation, rate-limit storms, price shocks, уводящие команды overnight.

Различие критично в 2026: model lifecycles ускорились. DeepSeek V4 Flash не карабкался годами — он поглотил share за недели. Hy3 Preview и Xiaomi MiMo почти так же быстро вошли в weekly top tier. Cumulative all-time chart всё ещё перевешивал бы retired GPT-4 era traffic и недооценивал текущую MoE wave. Для тех, кто подключает Cursor Agent Skills или OpenClaw gateway на арендованном Mac, weekly board — сигнал; остальное — narrative.

OpenRouter сегментирует traffic по use case. Programming category — самый яркий пример flip production mix: share вырос с ~11 % weekly categorized traffic в начале 2025 до более 50 % к июню 2026. Это не gradual trend — агенты съедают платформу. Когда больше половины labeled invocations code-oriented, модели, сильные только в short Q&A, теряют rank, даже если marketing всё ещё лидирует general knowledge scores.

Жёсткие данные (цитируемые): OpenRouter обработал ~28,9 трлн токенов глобально в 7-дневном окне до начала июня 2026. Китайские модели (DeepSeek, Tencent Hy, Xiaomi MiMo, Moonshot Kimi и allied open weights) — более 45 % недельного token volume на агрегаторе, далеко выше их доли на западоцентричных benchmark leaderboards.

02 · Три bottleneck маршрутизации (нумерованные)

1. Benchmark myopia. SWE-bench Verified и Terminal-Bench — полезные sanity checks, но они sample curated repos и controlled sandboxes. Weekly OpenRouter volume ловит messy reality: partial files, malformed tool JSON, retry loops, 800K-token context dumps. Модель, gaining two points на leaderboard но losing rank на weekly board, говорит, куда production traffic уже ушёл. Совместный a16z/OpenRouter analysis на benchmark versus market inversion документирует gap явно.

2. Token share ≠ dollar share. Anthropic иллюстрирует paradox в июньских weekly data: ~12 % total tokens на OpenRouter всё ещё map к ~46 % platform dollar revenue, потому что Claude Opus и Sonnet tiers price output на порядок выше DeepSeek V4 Flash или free routes вроде Owl Alpha. Finance смотрит revenue-weighted curve; engineering — token leaders. Без обеих линз вы либо overspend на premium для bulk traffic, либо under-provision quality на Opus-grade tasks.

3. Local experimentation загрязняет production state. Крутить пять OpenRouter model IDs на том же MacBook, где Apple developer certificates, production AWS keys и daily-driver OpenClaw config — классический путь утечки sandbox prompts в real channels. Weekly validation должна быть repeatable и isolated: same harness, clean environment, archived CSV — до promote routing change. Та же дисципина, что в ds4 local DeepSeek V4 Flash tests: rent, measure, release.

03 · Глобальный недельный snapshot

Таблица суммирует platform-level metrics из rolling window начала июня 2026. Figures rounded из публичных OpenRouter stats — directional для planning, не audit-grade financials.

Метрика7-дневное значениеИнтерпретация
Глобальный token volume~28,9TНедельный throughput всех моделей и routes
Доля China-origin models45 %+DeepSeek, Hy3, MiMo, Kimi и allied open weights
Programming category share50 %+Рост с ~11 %; агенты доминируют labeled traffic
Anthropic token share~12 %Ниже mindshare; концентрация на premium tiers
Anthropic revenue share (est.)~46 %Высокие output prices на Opus/Sonnet workloads
Free-tier model trafficЗначимая minorityOwl Alpha, Nemotron free — prototype gravity wells

Три implication сразу. First: routing policy, игнорирующая Chinese open MoE defaults, борется с majority weekly traffic. Second: coding agents — default workload; модели слабые на tool calling или long-context code быстро теряют rank. Third: premium Western APIs economically dominant per dollar, даже losing token popularity contest — budget caps explicit, не assumed из leaderboard position.

Для инженеров, считающих TCO: при ~3,14T weekly tokens только на V4 Flash экосистема уже доказала price/performance at scale — ваш gateway default, застрявший на Sonnet «из привычки», может стоить команде в 10–30× больше output dollars на тех же agent loops. Weekly board — не реклама DeepSeek, а aggregate signal тысяч команд, которые уже проголосовали кошельком.

04 · Weekly model leaders июня 2026

Weekly leaders ≠ all-time cumulative heroes. Shortlist отражает 7-day token volume начала июня 2026 — volumes approximate trillions (T) per week.

РангМодельТокены / неделяВендорНедельная роль
1DeepSeek V4 Flash~3,14TDeepSeekDefault MoE workhorse; 1M context; agent-friendly pricing
2Hy3 Preview~2,75TTencentOpen MoE; efficiency STEM/coding agents
3Xiaomi MiMo~2,1T (est.)XiaomiRising open stack; APAC route momentum
4Claude Sonnet 4.6~1,8T (est.)AnthropicPremium daily driver; free tier тянет volume
5DeepSeek V4 Pro~1,5T (est.)DeepSeekHigher reasoning tier; complex agent subtasks
6Gemini 3 Flash Preview~1,2T (est.)GoogleMultimodal coding agents
7Claude Opus 4.7~1,0T (est.)AnthropicLong-horizon agents; high $/M output
8Owl Alpha~0,9T (est.)OpenRouterFree stealth route; prototype traffic

Сравнение input/output pricing (weekly planning)

МодельInput $/MOutput $/MContextWeekly fit
DeepSeek V4 Flash~0,10~0,401MHigh-frequency agent loops, bulk coding
Hy3 Preview~0,15 (API est.)~0,60 (API est.)256KOpen MoE; private deploy mirror
Claude Sonnet 4.6~3,00~15,00200K–1MQuality gate; customer-facing drafts
Claude Opus 4.7~5,00~25,001M betaLong autonomous tasks
Owl Alpha001,05MNon-sensitive prototypes only

DeepSeek V4 Flash на ~3,14T tokens per week — не rounding error, а plurality. Hy3 на ~2,75T доказывает, что Tencent open MoE — не regional side story. На Apple Silicon параллельный вопрос: какие веса зеркалировать локально через ds4 на Mac Studio (q2/q4, KV-on-disk при 128 GB+ unified memory).

05 · Token share vs dollar share: парадокс Anthropic

Weekly rankings sort по tokens. Invoices sort по dollars. Divergence sharp, когда output pricing spans three orders of magnitude. Anthropic combined Claude family — ~12 % weekly tokens на OpenRouter начала июня 2026 при estimated 46 % gross platform revenue.

Кластер вендораToken share (est.)Revenue share (est.)Драйвер
Chinese open MoE45 %+15–20 %Ultra-low $/M; massive context ingestion
Anthropic (Opus + Sonnet)~12 %~46 %Premium output pricing; long agent sessions
Google Gemini family~10 %~12 %Multimodal coding; mid-tier pricing
Free / stealth routes~8 %~0 %Prototype traffic; subsidized experiments

Operationally: naive «route everything to weekly #1» minimizes token spend но sacrifices quality на customer-visible outputs. «Everything to Opus» burns budget на bulk, который V4 Flash уже handles at weekly scale. Disciplined approach — tiered routing: cheap MoE defaults для inner agent loops, Sonnet для merge-ready code, Opus только когда error logs prove cheaper tiers fail.

06 · Benchmark vs market inversion (a16z × OpenRouter)

Joint a16z/OpenRouter report formalized то, что weekly data уже показывали: benchmark leadership и market share inverted в 2026. Closed frontier models top eval charts — especially narrow reasoning suites — while open MoE stacks capture token share через context length, tool-call reliability at scale, aggressive per-million pricing.

Programming rise с 11 % до above 50 % categorized weekly traffic — mechanism behind inversion. Coding agents stress другие dimensions: repository-scale context, repeated tool invocation, diff application, terminal interaction. У MoE (V4 Flash, Hy3) счёт зависит от числа activated experts per token — длинный prompt с высокой perplexity может разбудить дорогое expert subset; облако скрывает до invoice, local ds4 — на memory bandwidth ANE/GPU path.

Модель с 92 % MMLU, но unstable function calling на двадцати шагах подряд, исчезает из weekly rank, пока V4 Flash остаётся — не потому что «умнее», а потому что тысячи agent deployments считают его достаточно дешёвым и robust для continuous operation. Billing data измеряет выносливость под нагрузкой, не exam scores. Для kernel-level мыслителей: prefill миллиона токенов бьёт по TTFT и memory pressure на unified memory Apple Silicon; weekly leaders часто выживают именно на длинном agent context, где narrow benchmark suites молчат.

Для Mac/iOS teams: Xcode и Swift workflow статистически mainstream на OpenRouter. Trust billing window; benchmarks — secondary filters. Broader trend narrative: 2026 LLM trends из OpenRouter rankings.

07 · Market stratification tiers

TierWeekly token bandRepresentative modelsКогда route сюда
T1 — Volume kings>2T / weekDeepSeek V4 Flash, Hy3 PreviewDefault agent loops, RAG ingestion, CI bots
T2 — Momentum challengers1–2T / weekMiMo, Sonnet 4.6, V4 ProRegional latency tests; quality step-ups
T3 — Premium specialists0,5–1T / weekOpus 4.7, Gemini 3 FlashLong-horizon tasks, multimodal analysis
T4 — Sandbox / freeHigh tokens, zero revenueOwl Alpha, Nemotron 3 Super (free)Teaching, spikes, non-sensitive prototypes

Scenario routing matrix (weekly-aware)

WorkloadPrimary weekly pickFallbackПочему billing согласен
Inner agent tool loop (10+ calls)DeepSeek V4 FlashHy3 PreviewHighest weekly tokens; lowest $/M at scale
PR-ready Swift diffClaude Sonnet 4.6V4 ProQuality tier с moderate weekly volume
12-hour autonomous refactorClaude Opus 4.7Kimi K2.6 (self-host)Premium $/M justified by error cost
Multimodal UI captureGemini 3 FlashOpus 4.7Weekly multimodal coding share растёт
Zero-budget hackathonOwl AlphaNemotron 3 Super (free)Token volume без revenue — sandbox only

08 · Пять шагов: weekly routing validation на арендованном Mac

Weekly data perishable. Validation loop тоже: snapshot, test, integrate, archive — на hardware, который можно wipe.

  1. Снимок weekly leaderboard. Перед route change сохранить OpenRouter 7-day rankings (model ID, weekly tokens, $/M). Рядом internal spend CSV — correlate platform shift с own invoice.
  2. Аренда isolated macOS node. Mac mini M4 через тарифы bare-metal macOS; SSH по FAQ посуточной аренды. Local user без production Apple ID.
  3. Configure sandbox routing keys. OPENROUTER_API_KEY в project-scoped .env. Optional ds4 mirror — ds4 inference guide.
  4. Run fixed weekly benchmark harness. Same agent task — read module, edit test, invoke tool — across tier shortlist. Log prompt tokens, completion tokens, wall time, USD cost, tool failures. Minimum three runs per model.
  5. Archive and release. weekly-routing-YYYYMMDD.csv в internal docs (не public), revoke test key, wipe rental по MacDate return checklist. Next snapshot через seven days.
# Weekly OpenRouter probe — rented Mac sandbox
export OPENROUTER_API_KEY="sk-or-..."
DATE=$(date +%Y%m%d)
MODELS=("deepseek/deepseek-v4-flash" "tencent/hy3-preview" "anthropic/claude-sonnet-4.6")
for M in "${MODELS[@]}"; do
curl -s https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d "{\"model\":\"$M\",\"messages\":[{\"role\":\"user\",\"content\":\"Рефактори тесты auth-модуля.\"}]}" \
| tee -a "weekly-bench-$DATE.json"
done
# Parse usage для weekly cost tracking (jq)
jq -s '[.[] | {model: .model, prompt: .usage.prompt_tokens, completion: .usage.completion_tokens}]' \
weekly-bench-$DATE.json > weekly-routing-$DATE.csv

Те же scripts на personal MacBook смешивают weekly API experiments с production signing identities — так teams burn Anthropic quotas во вторник и discover на invoice day. Disposable macOS node — forensic clean room: stealth free model logs prompts — blast radius stops at rental. MiMo или Hy3 mid-week drop — re-run harness без uninstall half homebrew stack.

Benchmark CSV shows V4 Flash matching Sonnet на tool success rate at one-fifth output cost — finance-ready reason change defaults. Opus wins на twelve-step refactor — finance-ready reason keep T3 tier. Weekly OpenRouter board gave prior; rented-Mac harness supplied posterior. TCO frame: гибкая аренда Mac mini M4.

На уровне железа weekly validation на bare-metal Mac mini M4 даёт deterministic latency: нет hypervisor jitter, ANE path доступен для локального ds4 fallback, Keychain изолирован от production signing identity. При 500K–1M context payloads — типичных для agent, читающего весь Swift package — weekly leaders зарабатывают rank partly на survival этих нагрузок; ваш harness на арендованном узле воспроизводит тот же stress без риска для daily-driver machine. Mac Studio 256 GB+ окупается при ~200 активных inference days/year; ниже порога выигрывает посуточная аренда с documented wipe при return.

Читать далее