Аудитория

Agent engineers, platform/SRE, security — маршрутизация Cursor, OpenClaw, Hermes или кастомного gateway через OpenRouter; нужен снимок июня 2026 с измеримыми метриками, а не Twitter-hype.

Сигнал

Ранжирование взвешивает реальный API-трафик (multi-step agents). Лидер — DeepSeek V4 Flash; далее Tencent Hy3, Claude Sonnet 4.7, Owl Alpha, Gemini 3 Flash, V4 Pro, Kimi K2.6, Nemotron 3 Super, Opus 4.6, Sonnet 4.6.

Артефакты

Top-10, 6 трендов, матрица, 6 сценариев, 5 шагов валидации на аренде Mac, фрагменты curl и заметки по MoE routing — без правок blog-data.js.

СОДЕРЖАНИЕ

01 Методология OpenRouter и архитектура выбора
02 Три инженерных боли при выборе модели
03 Топ-10 OpenRouter (июнь 2026)
04 Шесть структурных трендов
05 Матрица capability vs price
06 Шесть сценариев маршрутизации
07 Пять шагов валидации на арендованном Mac
08 Аренда vs покупка для model R&D

01. Методология OpenRouter и архитектура выбора

OpenRouter rankings агрегируют трафик coding-агентов, chat UI и self-hosted gateway с единым каталогом model slug. В отличие от статических eval, ранжирование опирается на объём токенов и число запросов — смещение в сторону моделей с низкой p95 latency на 5–10 tool hops и предсказуемым JSON mode.

Для production-gateway критичны не только slug, но и поля ответа API: usage.prompt_tokens, usage.completion_tokens, заголовки rate-limit (x-ratelimit-remaining-requests у ряда провайдеров), а также совместимость tools / tool_choice с вашей обёрткой (OpenAI-compatible vs Anthropic-native). Модель с 90 % на MMLU может оказаться на #40, если schema function calling меняется между minor-релизами.

На стороне Apple Silicon параллельный вопрос: какие веса зеркалировать локально. #1 DeepSeek V4 Flash согласуется с семейством, которое поднимают через ds4 на арендованном Mac Studio (q2/q4, KV-on-disk при 128 GB+). Гибрид: днём OpenRouter, ночью локальный inference при data residency — см. TCO гибкой аренды Mac mini M4.

02. Три инженерных боли при выборе модели агента

Боль 1: benchmark myopia vs agent reality

Single-turn eval не измеряет стабильность tool schema, parallel tool calls, деградацию на 8-м hop плана и «helpful» переписывание shell-команд. В июньском топ-10 доминируют модели с agent-tuning: низкая temperature по умолчанию, жёсткие system templates, поддержка parallel_tool_calls: true в OpenAI-совместимом API.

Боль 2: context–cost whiplash и MoE billing

Реклама 1M context не означает линейную экономику: prefill миллиона токенов бьёт по TTFT и счёту даже при дешёвых output tokens. У MoE (V4 Flash, Hy3) счёт зависит от числа активированных экспертов на токен — «длинный» prompt с высокой perplexity может разбудить дорогое подмножество experts; облако скрывает это до invoice, локальный ds4 — на memory bandwidth.

Боль 3: загрязнение Keychain и supply chain на daily driver

Оценка модели = установка CLI, экспорт ключей, правка gateway YAML, полурабочие OpenClaw plugins на MacBook с production Apple ID. Паттерн 2026 — изолированная macOS sandbox на bare metal: см. Agent Skill на аренде Mac и возврат без следов за 5 шагов.

Дисклеймер: MacDate сдаёт Apple Silicon в аренду; OpenRouter и API-кредиты мы не продаём. Цифры — снимок начала июня 2026; перед cutover проверьте live model slug и pricing на openrouter.ai/models.

03. Топ-10 OpenRouter (июнь 2026)

Типичные OpenRouter slug (проверяйте каталог): deepseek/deepseek-v4-flash, anthropic/claude-sonnet-4.7, google/gemini-3-flash. Порядок ранга — ориентир, не SLA.

#	Модель	Семейство	Agent sweet spot	Техн. заметка
1	DeepSeek V4 Flash	MoE open weights	High-QPS coding agents	~десятки B active params/токен; зеркало ds4 q2/q4
2	Tencent Hy3	dense-MoE hybrid	CN↔EN product agents	Сильный instruction following; APAC enterprise routes
3	Claude Sonnet 4.7	Anthropic	Daily coding loop	Улучшенная tool persistence vs 4.6
4	Owl Alpha	free tier	CI schema smoke	$0 marginal; жёсткие rate limits
5	Gemini 3 Flash	Google	Multimodal fast agents	Vision in-band; следить за OAuth/policy
6	DeepSeek V4 Pro	MoE higher tier	Hard refactors	~3× Flash $/M; escalation tier
7	Kimi K2.6	Moonshot	Long-doc RAG-lite	1M marketing; биллинг по фактическим tokens
8	Nemotron 3 Super	NVIDIA	US-hosted enterprise	Стабильный tool JSON; regulated verticals
9	Claude Opus 4.6	Anthropic premium	Security / architecture review	Только escalation, не inner loop
10	Claude Sonnet 4.6	Anthropic	Conservative legacy route	Миграция на 4.7 после A/B

Выводы для архитектуры маршрута: (1) MoE = default economics для inner loop; (2) free tier = integration funnel, не production; (3) двухуровневый Anthropic (Sonnet loop + Opus escalation) + Gemini Flash для multimodal без отдельного vision endpoint.

04. Шесть структурных трендов (июнь 2026)

Тренд 1: контекст 1M — table stakes и ловушка

Используйте 1M как аварийный режим; production — chunking + embeddings + Skills. Локально на Mac: 100k–400k практичны с KV-on-disk до погони за seven-figure context (см. ds4 guide).

Тренд 2: China open source задаёт price floor

V4 Flash / Hy3 — глобальный floor для agent farms. Compliance: разделяйте training jurisdiction и inference region (OpenRouter region + аренда Mac в нужной юрисдикции).

Тренд 3: agent-first tuning

Карточки моделей 2026: tool accuracy, parallel tools, plan stability. Бенчмарк: 10-hop tool loop с логированием finish_reason и failed tool_calls.

Тренд 4: MoE как слой экономики

Мониторьте expert activation drift через кастомные метрики: средний usage.total_tokens на hop при фиксированном prompt hash; скачки указывают на «дорогие» experts.

Тренд 5: free models в воронке экспериментов

Owl Alpha → schema/integration → promote только proven flows на V4 Flash / Sonnet 4.7.

Тренд 6: multimodal agents в CI

Gemini 3 Flash: screenshot diff в pipeline (Simulator → base64 → model). На аренде Mac: reproducible capture через ScreenCaptureKit + ffmpeg.

05. Матрица capability vs price

Ориентир $/M tokens (blended 70/30 prompt/completion для типичного agent trace) — июнь 2026, не котировка MacDate.

Tier	$/M (ориент.)	Tools	Context	p95 latency	Когда
Owl Alpha	0	basic	128k eff.	queue-heavy	CI smoke, schema learn
V4 Flash	$	strong	1M adv / 128–256k ops	low	default inner loop
Hy3	$	strong	512k–1M	low	bilingual agents
Gemini 3 Flash	$–$$	+vision	1M	low	UI regression agents
Sonnet 4.7	$$	excellent	200k–1M	medium	budgeted daily driver
V4 Pro	$$	excellent	1M	medium	architecture passes
Kimi K2.6	$$	good	1M	high on full fill	long PDF synthesis
Nemotron 3 Super	$$–$$$	excellent	256k–512k	medium	US residency
Opus 4.6	$$$$	excellent	200k+	slow	escalation only

Правило маршрутизации: Flash владеет inner loop; Pro/Opus — escalation. 8 model calls × 4× price delta ≈ 32× total cost — routing как финансовая инженерия.

06. Шесть сценариев маршрутизации

Сценарий 1: Cursor / IDE (solo)

Primary: deepseek/deepseek-v4-flash; escalation: Sonnet 4.7 на refactor >8 files. Локальный fallback: ds4 на Studio 256 GB, не Air.

Сценарий 2: OpenClaw 24×7

Flash + Owl для health-check; Nemotron при US residency. Gateway на арендованном Mac mini M4 — токены каналов не на laptop.

Сценарий 3: enterprise compliance

Nemotron или Sonnet 4.7 с org logging OpenRouter; Owl запрещён на PHI/PII. Dedicated rental per audit sprint.

Сценарий 4: multimodal mobile QA

Gemini 3 Flash на screenshots; V4 Flash генерирует XCTest/playwright. Capture на аренде macOS.

Сценарий 5: legal / research

Kimi + chunking; Opus только final memo. Preprocess PDF локально, в API — summaries.

Сценарий 6: pre-seed

Owl → V4 Flash → Sonnet demo weeks. Аренда до ~70 active build days/year (TCO article).

07. Пять шагов валидации на арендованном Mac

Не продвигайте model ID из статьи без своих traces. Ориентир: 24–48 ч аренды MacDate, ~4 ч hands-on после propagation ключей.

Изолированный узел. Mac mini M4 32 GB (gateway-only) или Studio 256 GB+ (ds4 q4 + OpenRouter). SSH: FAQ посуточной аренды; без production Apple ID.
OpenRouter + optional local. Только sandbox OPENROUTER_API_KEY. Hybrid: ds4 + V4 Flash q2; negative control — smaller Ollama model.
Фиксированный benchmark suite. (a) refactor 12k tokens, 5 tool calls; (b) multimodal screenshot triage; (c) 30-turn memory stability. Лог: p50/p95, USD estimate, tool success %. Повторить для каждого кандидата из shortlist.
Production gateway. Cursor / OpenClaw / Hermes на OpenRouter slugs; сверить max_tokens, JSON schema version, rate limits. OpenClaw: models CLI sync.
Export & release. CSV на laptop, revoke keys, удалить ~/.openclaw caches, чеклист возврата MacDate.

# Probe OpenRouter (sandbox key only)
export OPENROUTER_API_KEY=sk-or-sandbox-...
curl -s https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "HTTP-Referer: https://macdate.com" \
  -H "X-Title: MacDate Agent Benchmark" \
  -d '{"model":"deepseek/deepseek-v4-flash","messages":[{"role":"user","content":"MoE routing в 3 пунктах."}],"temperature":0.2}'

Для OpenClaw укажите в конфиге models.providers.openrouter тот же slug, что прошёл benchmark; после шага 5 выполните openclaw models sync на аренде, чтобы не тащить stale cache на production laptop.

08. Аренда vs покупка для model R&D

Slug меняются ежемесячно; rankings сдвигаются. Mac Studio maxed окупается при ~200 активных inference days/year (тот же crossover, что у ds4). Ниже порога выигрывает посуточная аренда: оплата только при live keys, чистый Keychain, параллельные эксперименты (OpenRouter + local q2) без второго железа.

Гибрид июня 2026: cloud Flash для объёма, аренда Mac для privacy/verification, Opus — только escalation. MacDate — bare metal; OpenRouter — каталог; вы — benchmark discipline.

Тренды LLM 2026 OpenRouter:
выбор моделей для агентов