📋 本文目錄

01 · 為何要看 OpenRouter 六月榜

OpenRouter 聚合全球開發者透過統一目錄呼叫各廠模型的流量。它的排行榜按 token 用量與請求次數 加權，而非靜態 benchmark 分數——因此天然偏向「夠快、夠便宜、工具呼叫夠穩」的 Agent 骨幹。2026 年 6 月初的榜單再次驗證：MoE 開源權重（DeepSeek V4 Flash、騰訊 Hy3）已從實驗品變成預設路由；Anthropic 以 Sonnet 4.7 扛日常迴圈、Opus 4.6 扛升級推理；Google Gemini 3 Flash 因多模態 Agent 回流前五；NVIDIA Nemotron 3 Super 在需美國託管權重的企業場景重新進榜。

對 macOS / iOS 團隊，排行榜還回答第二個問題：哪些模型值得在本機鏡像？ V4 Flash 奪冠與 ds4 在租用 Mac Studio 上跑 q2／q4 的實測互為表裡——白天 OpenRouter 扛量，夜間或合約要求時把同一族權重拉回 Apple Silicon。若你正在規劃 Mac mini M4 彈性租用 TCO，應把「API 試錯天數」與「本機推理天數」放在同一張試算表，而不是分開討論。

範圍聲明： MacDate 提供 Apple Silicon 裸機租用，不營運 OpenRouter、也不代售 API 額度。下文排名與價格為 2026 年 6 月初市場快照，上線前請以官方即時報價與 model slug 為準。

02 · Agent 選型的三大痛點

痛點一：測驗分數幻覺。 MMLU 類單輪問答無法預測第八次工具呼叫是否會改寫你的 shell 指令。六月 Top 10 幾乎全是廠商針對 function calling、平行工具與長 system prompt 調過的版本。若內部選型文件仍寫「挑 benchmark 最高」，Demo 會很亮，Production 會在週五晚上爆。

痛點二：上下文與帳單雙重鞭。 Kimi K2.6、DeepSeek V4 家族等標榜 1M context，但預填百萬 token 的延遲與費用並非線性。Agent 若把整個 monorepo 塞進上下文，預算可能是檢索式設計的十倍以上，還會拖垮互動式 first token。MoE 雖宣稱低啟動參數成本，錯誤 prompt 仍可能喚醒過多 expert，帳單與延遲同時失控。

痛點三：主力機環境污染。 評測模型不是唯讀操作：你要裝 CLI、匯出 API 金鑰、改閘道 YAML、在裝著 Apple ID 與客戶憑證的 MacBook 上試半套 OpenClaw 外掛。2026 年的理性做法是可拋棄的 macOS 沙箱——租用 24～72 小時，跑完基準，晉升勝者，再依零殘留歸還五步清單釋放節點。這與 Agent Skill 租用 Mac 沙箱是同一套隔離哲學，只是表面從 SKILL.md 換成 OpenRouter model ID。

03 · OpenRouter 六月 Top 10（方向性）

下表綜合 2026 年 6 月初排行榜順位、典型 Agent 用途與相對春季的變化。週排名會波動，請當決策參考而非合約條款。

排名	模型	供應商／族系	Agent 甜區	六月備註
#1	DeepSeek V4 Flash	DeepSeek／MoE 開源	高頻程式碼 Agent、工具迴圈	預設骨幹；128GB+ 租用 Mac 可 ds4 鏡像
#2	Tencent Hy3	騰訊／dense-MoE 混合	中英雙語產品 Agent	指令跟隨強；APAC 企業 API 路徑成熟
#3	Claude Sonnet 4.7	Anthropic	日常編碼 Agent 品質／成本平衡	較 4.6 工具狀態更穩
#4	Owl Alpha	社群／免費層	原型、CI 冒煙、教學沙箱	邊際 token $0；速率限制逼紀律
#5	Gemini 3 Flash	Google	快速多模態 Agent	留意 Antigravity 時代認證政策變動
#6	DeepSeek V4 Pro	DeepSeek／高階 MoE	困難重構、架構評審	約 Flash 三倍成本，仍低於 Opus 常態
#7	Kimi K2.6	Moonshot	長文件研究 Agent	1M 行銷需對照實際計費 token
#8	Nemotron 3 Super	NVIDIA	需美國託管權重的企業 Agent	工具 schema 穩；受監管產業採用升
#9	Claude Opus 4.6	Anthropic	高風險推理、資安審查	僅作 escalation，勿作預設迴圈
#10	Claude Sonnet 4.6	Anthropic	保守團隊的穩定舊路由	流量仍大；測過 4.7 再遷移

三個結構訊號：MoE 效率吃掉流量（Flash、Hy3）；免費是漏斗而非策略（Owl Alpha 排 #4 代表嚴肅整合測試在 $0 上完成）；Anthropic 雙層定價（Sonnet 迴圈 + Opus 升級）與 Google 多模態 Flash 分流並存。

04 · 2026 六大結構趨勢

趨勢 1：1M 上下文成標配，也是陷阱

長上下文像滅火器——必備、少開。成熟 Agent 以檢索、Skill 與分段摘要為日常；百萬 token 預填留給稽核或訴訟級資料包。本機鏡像時，極長 KV 會吃滿 統一記憶體，Studio 級機型才實用。

趨勢 2：中國開源設定全球 Agent 價格地板

DeepSeek V4 Flash、Hy3 已是成本敏感型 Agent 農場 的預設，而非區域限定。合規應區分「訓練地」與「推理地」——OpenRouter 與租用 Mac 都是控制槓桿。

趨勢 3：Agent-first 調參取代聊天-first

型號卡強調工具準確率、平行工具與計畫穩定性。評測請跑十步工具迴圈，別寫十四行詩。

趨勢 4：MoE 成預設經濟層

總參數千億級、每 token 僅啟動部分 expert。監控 expert 漂移：某些 prompt 會意外喚醒昂貴子網路，本機 ds4 在記憶體頻寬上尤其誠實。

趨勢 5：免費模型重寫實驗漏斗

Owl Alpha 讓 CI 與新人先學閘道語意，再晉升付費路由。平台負責人應把「免費→Flash→Pro/Opus」寫進規範，否則人人選 Opus，財務失去能見度。

趨勢 6：多模態 Agent 進入流水線

Gemini 3 Flash 反映「看得見」的 Agent：Simulator 截圖、PDF 圖、短影片分鏡。租用 macOS 上可用 ScreenCaptureKit 固定輸入，再送多模態 API，路徑可重現。

05 · 能力與價格矩陣（示意）

人氣告訴你「別人付什麼錢」；矩陣幫你談內部預算。價格為 2026 年 6 月 OpenRouter 類混合費率示意（70% 輸入／30% 輸出 Agent 假設），上線前請查即時報價。

層級	相對成本	工具呼叫	上下文級	延遲	適用
Owl Alpha	$0	基礎／限流	128k 實用	佇列波動	CI、schema 學習
DeepSeek V4 Flash	$	強	1M 標榜／128–256k 甜區	快	預設編碼迴圈
Tencent Hy3	$	強	512k–1M	快	中英產品 Agent
Gemini 3 Flash	$–$$	強＋視覺	1M	快	UI 回歸審查
Claude Sonnet 4.7	$$	極佳	200k–1M	中	預算允許的日常驅動
DeepSeek V4 Pro	$$	極佳	1M	中	困難重構
Kimi K2.6	$$	良好	1M	全填偏慢	長 PDF 研究
Nemotron 3 Super	$$–$$$	極佳	256k–512k	中	美國託管推理
Claude Opus 4.6	$$$$	極佳	200k+	慢	僅 escalation

簡單規則：Flash 級擁有內迴圈；Pro／Opus 只負責升級。 若每次使用者請求平均八次模型呼叫，內迴圈全用 Opus，總成本不是 4 倍，更接近 32 倍。

06 · 六類情境選型

情境 1：Cursor／IDE 個人開發

建議： OpenRouter 上 DeepSeek V4 Flash 日常編輯；棘手重構升級 Sonnet 4.7。避免： 每次自動完成都用 Opus。Mac： 可選租用 Studio 試 ds4 離線備援。

情境 2：OpenClaw／Hermes 7×24 閘道

建議： Flash 主路由 + Owl Alpha 健康檢查；合約要求美國託管則 Nemotron 3 Super。避免： Kimi 無界上下文塞滿 Telegram 閒聊。Mac： 閘道與金鑰放在租用 Mac mini M4，別綁在筆電。

情境 3：金融／醫療合規

建議： Nemotron 或 Sonnet 4.7 + 組織級 OpenRouter 帳務；敏感資料僅在 air-gapped 租用機跑本機 DeepSeek。避免： 免費 Owl 處理 PHI／PII。

情境 4：行動 App 多模態 QA

建議： Gemini 3 Flash 比對截圖；V4 Flash 產測試碼。Mac： 租用機擷取 Simulator 畫面再上傳，路徑固定。

情境 5：法律／研究長文件

建議： Kimi K2.6 分塊 + Opus 4.6 最終潤飾；勿一次灌滿 1M。

情境 6：種子輪新創

建議： Owl → Flash 晉升漏斗；募資 Demo 週才開 Sonnet。Mac： 年活躍建置日 <70 時 按日租用 優於買斷硬體。

07 · 五步租用 Mac 驗證（HowTo）

租用隔離 macOS。 閘道測試選 Mac mini M4 32GB；要並跑 ds4 q4 則選 Mac Studio 256GB+。SSH 流程見按日租用 Mac FAQ；勿登入生產 Apple ID。
設定 OpenRouter 與本機備援。 在租用機專用 .env 寫入 OPENROUTER_API_KEY；混合路由時安裝 ds4 + V4 Flash q2。
跑固定 Agent 基準。 三項任務：12k token 五工具重構、多模態截圖（若適用）、30 輪記憶穩定。記錄 p50／p95 延遲、USD 估算、工具成功率；對 Top 10 候選各跑一輪。
接入真實閘道。 將 Cursor／OpenClaw 指向勝出 slug；OpenClaw 請交叉閱讀 models CLI 同步與快取，避免「CLI 顯示 A、Session 實際走 B」。
匯出證據並釋放。 CSV 拉回筆電、撤銷沙箱金鑰、刪除 ~/.openclaw 快取，完成零殘留歸還。未做第五步的團隊常付兩次錢：金鑰外洩 + 假陽性基準。

                        # 租用機沙箱金鑰探測 OpenRouter

                        export OPENROUTER_API_KEY=sk-or-sandbox-...

                        curl https://openrouter.ai/api/v1/chat/completions \

                          -H "Authorization: Bearer $OPENROUTER_API_KEY" \

                          -d '{"model":"deepseek/deepseek-v4-flash","messages":[{"role":"user","content":"用三點說明 MoE 路由"}]}'

08 · 租用 vs 自購：模型研發節奏

選型不是一次性試算表。廠商每月推新 slug，排行榜重洗，你的工具圖也會長大。自購滿配 Mac Studio 在約 每年 200 個有效推理日 以上才划算——與 ds4 工作負載的交叉點相近。低於該門檻，按日租用 只為金鑰活著的日子付費，並把 API 試錯與 Xcode 簽章隔離在可拋棄節點。六月榜傳遞的市場訊息很直白：雲端 Flash 扛量、租用 Mac 做隱私與驗證、Opus 級只負責升級。 MacDate 提供裸機 Mac；OpenRouter 提供目錄；你提供基準紀律。

Windows 或 Linux VPS 可跑部分 Node 閘道，但若流水線含 TestFlight、Metal 除錯、Keychain 型憑證，最終仍要回到原生 macOS。在與生產一致的系統裡驗證 model slug，通常比「VPS 試 CLI + 筆電出包」更少半夜工單；機房頻寬與獨立 伺服器 節點也讓大檔基準上傳更穩。延伸閱讀：Agent Skill 指南、裸機定價。