📋 本文目录

01 · 为什么账单数据比基准测试更可信

基准测试排行榜回答的是「在固定题库上谁分数高」；OpenRouter 周排行回答的是「过去 7 天全球开发者实际烧掉了多少 Token」。前者可被针对性优化，后者是用钱（或免费额度）投出来的行为数据——花出去的钱不说谎。

OpenRouter 作为中立 API 聚合层，接入 300+ 模型、覆盖 60+ 供应商，平台月流量约 100 万亿 Token 量级、用户超 800 万。当某模型在周榜上连续攀升，意味着生产流量在迁移，而不只是公关稿里的「SOTA」。这与站内 OpenRouter 流行趋势一文互补：那篇讲六大趋势与 Agent 选型矩阵，本篇聚焦周度账单口径与溢价悖论。

02 · 数据来源与统计方法

公开入口：openrouter.ai/rankings。核心口径为按周（7 天滚动）Token 吞吐量，统计输入 + 输出 Token 总量，可按模型与厂商维度下钻。本文锚定数据包括：

历史周（大纲锚点）：2026 年 5 月 18 日–5 月 24 日，全球周调用约 28.9 万亿 Token，环比 +7.4%（连续五周上涨）。
最新周（2026 年 6 月初）：Tool Calling 集合显示 DeepSeek V4 Flash 约 3.14T、腾讯 Hy3 Preview 约 2.75T、Xiaomi MiMo-V2.5 约 2.3T 等——榜单轮动极快，阅读时请以官网实时数据为准。

读榜时请同时看两列：Token 份额（流量主导权）与美元收入份额（定价 × 用量加权）。只看 Token 会低估 Claude；只看收入会高估「市场仍由美国闭源垄断」——真相在两者之间。

03 · 三大认知痛点拆解

1. 把发布会当选型依据。 厂商演示的是最佳 case；周榜统计的是 cron、批处理、Agent 循环里失败重试也计费的真实调用。DeepSeek V4 Flash 周榜登顶，背后是 Agent 工作流对「低价 + 1M 上下文 + 工具环稳定」的集体投票，而非单次聊天体验。

2. 忽视「Token 量 ≠ 美元收入」。 Anthropic Token 份额约 12%（一年前约 25%），美元收入份额仍约 46%。团队若只追流量冠军，可能错过企业合规场景仍愿为 Claude Opus 付溢价的现实；若只追收入榜，又会误判「性价比开源已接管一切」。

3. 在主力机轮换模型污染环境。 每周改 OpenRouter 默认路由、在主力 Mac 上装三套 CLI，Keychain 与全局配置极易残留。更稳妥的是：在可丢弃的租用 macOS 对照周账单与延迟，再推广到团队——逻辑同 Agent Skill 隔离试跑。

04 · 全球周总量：28.9 万亿 Token 与中美格局

指标	数据（5/18–5/24 周）	环比
全球周调用量	28.9 万亿 Token	+7.4%
中国模型周调用	9.223 万亿 Token	+19.89%
美国模型周调用	4.93 万亿 Token	+16.27%
中国 vs 美国排名	中国模型连续四周周 Token 量超美国

数量级感知：约一年前 OpenRouter 周处理量约 2.4 万亿，至 2026 年 5 月约 28.9 万亿，一年量级增长约 12 倍——AI 调用已从「尝鲜」进入规模化爆发。

时间节点	中国模型流量占比（示意）
2025 年初	< 2%
2026 年 2 月	首次周 Token 量超美国
2026 年 5 月	约 45%+，连续四周领先

05 · 当周模型 Top 10（多周对照）

周榜轮动极快。下表合并 5 月下旬锚点与 6 月初 Tool Calling 集合公开数据，便于理解「谁在被调用」而非「谁发布会最强」。

排名	模型	厂商	周 Token（量级）	特点
1	DeepSeek V4 Flash	DeepSeek 🇨🇳	3.43T → ~3.14T	Agent 首选、极低单价、1M 上下文
2	腾讯 Hy3 Preview	Tencent 🇨🇳	3.07T → ~2.75T	开源 MoE 黑马
3	Owl Alpha	Stealth	~1.15T → ~1.92T	百万上下文、Agent 特化
4–5	V4 Pro / V3.2	DeepSeek 🇨🇳	矩阵占位	DeepSeek 三模型同进前列
6	Claude Sonnet 4.6	Anthropic 🇺🇸	~1.35T → ~1.77T	企业编程主力
7	Xiaomi MiMo-V2.5	Xiaomi 🇨🇳	— → ~2.3T	6 月新晋高频流量
8	MiniMax M3	MiniMax 🇨🇳	— → ~1.68T	长上下文性价比
9	Step 3.7 Flash	StepFun 🇨🇳	— → ~654B	批处理低价
10	Gemini 3 Flash Preview	Google 🇺🇸	~1.06T → ~1.02T	多模态学术/医疗

DeepSeek 矩阵：5 月下旬 DeepSeek 系列周调用合计约 5.74 万亿 Token（环比 +25.9%），连续两周在厂商维度超越 Anthropic 与 Google——这是「账单层」的王者，不是评测 PPT 里的王者。

06 · 厂商格局：Token 量 vs 美元的「双重真相」

厂商/梯队	Token 份额（示意）	美元收入份额（示意）	解读
Anthropic	~12%	~46%	流量让渡，溢价仍在
Google	~13%	~7%	Flash 走量、收入温和
OpenAI	~10%	~24%	GPT-5.x 高价档
中国开源集群	45%+	个位数 %	极低价吞噬 Token

市场正在分层而非「选出唯一赢家」：

高价值·低流量：Claude Opus — 企业复杂推理，单价 $5/$25 per M。
性价比·中流量：Gemini Flash — 多模态与学术场景。
极低价·高流量：DeepSeek / Xiaomi / MiniMax / StepFun — Agent、编程、批处理。

Claude Opus 4.6 月收入约 2500 万美元量级（第三方估算），Token 量却仅为 DeepSeek 头部模型的零头——这正是「溢价悖论」：企业仍付高价，但流量主导权已迁移。

07 · 反常识发现：基准分数与市场份额近乎反比

OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》（覆盖约 100 万亿 Token 匿名元数据）指出：模型基准测试分数与其实际市场份额几乎呈反比。原因并不神秘：

开发者选型时，推理成本 > 极限能力；
Agent 工作流更依赖 API 稳定性、工具调用成功率与延迟，而非单次推理深度；
编程类任务占 OpenRouter 流量从 2025 年初约 11% 升至超 50%，成为最大单一用途——这类任务天然偏爱「够好且够便宜」的模型。

结论：账单上的数字，比任何评测榜单都诚实。 若你的路由策略仍由 LMSYS 排名驱动，建议改为「每周对照 openrouter.ai/rankings + 自家 Stripe/OpenRouter 账单」双轨决策。

08 · 为什么周榜已成为 AI 商业化晴雨表

投资者用其评估落地进度（OpenRouter 估值曾达约 26× PS 量级报道）；开发者用它做「不押宝单一厂商」的路由基准；研究机构用它追踪地缘与技术路线变迁。Token 调用量已从技术指标升级为商业战场体温计——每周更新、免费公开，这是上一代云计算成本曲线在 LLM 时代的等价物。

09 · 场景路由决策表（按账单逻辑）

场景	优先模型	账单逻辑
Agent / 批量 cron	DeepSeek V4 Flash	周榜 #1，单价极低
企业复杂推理 / 合规	Claude Opus / Sonnet 4.6	美元份额高，工具环成熟
多模态文档	Gemini 3 Flash	全模态 + 中等单价
试探新品（Hy3、Owl）	Hy3 Preview / Owl Alpha	周环比增速是先行指标
本地不出域	ds4 + V4 Flash 权重	见 ds4 本地指南

建议每周一固定 15 分钟：刷新周榜截图、导出 OpenRouter Usage CSV、对照上表调整默认 model ID——比季度追发布会高效一个数量级。

10 · 五步周度路由验证（HowTo）

租用隔离 macOS：Mac mini M4 起，SSH 接入；本地用户与 Apple ID 隔离。
快照当周榜：记录 rankings 页 Top 10 与自家上周 Token/美元。
固定 A/B 任务：对 V4 Flash、Sonnet 4.6、Hy3 跑同一 12k Token 编码 + 工具调用任务。
写入 openclaw.json / Cursor 路由：主模型 + 回退模型 + 预算封顶。
导出 CSV 并释放：保存证据、吊销测试 Key、退租擦盘。

                        # 拉取自家用量（示例，以 OpenRouter 文档为准）

                        curl -H "Authorization: Bearer $OPENROUTER_API_KEY" \

                          https://openrouter.ai/api/v1/auth/key

                        # 对比周榜 model ID

                        open https://openrouter.ai/rankings

虽然你可以在笔记本上直接改 API 路由，但主力机混装 Xcode 签名、生产 Key 与实验性 OpenClaw，一次误配就可能把 Opus 单价烧进批处理任务。若你需要可审计的「周榜—账单—延迟」三联证据，又与 Apple 工具链同周期协作，在独立 macOS 租用节点完成验证再推广，通常比冲动买断顶配 Studio 更轻、比污染主力环境更安全。套餐见 M 系列算力定价，上手见按天租用 Mac FAQ。