2026 年 ds4(DwarfStar 4)本地跑 DeepSeek V4 Flash 完全指南:
antirez 引擎、q2/q4 量化分級與 Mac 96/128/256/512 GB 實測對照表
想在 Mac 上跑 DeepSeek V4 Flash 的開發者、研究人員與隱私敏感團隊都在追問:antirez 一週寫就的 ds4 究竟是什麼?q2 / q4 量化對記憶體到底要多狠?128GB MacBook Pro 與 512GB Mac Studio 的 t/s 差多少?以及,自己買頂規 Mac 與按日租用一台,臨界點究竟在哪裡?
2026 年 5 月,Redis 之父 antirez 用一週時間寫出了一個只做一件事的 C 引擎:ds4(DwarfStar 4)——專為 DeepSeek V4 Flash 量身打造的本地推論後端。它不是 GGUF 通用 runner,不是 llama.cpp / Ollama 的封裝,Metal 後端自 96GB MacBook 起跳、CUDA 後端對應 DGX Spark,並將 KV 快取落到 SSD、把 OpenAI 相容 API 內建到執行檔,讓本地大模型推論首次在消費級 Mac 上具備「工程可用」的延遲與上下文。本文寫給三類讀者:想在 Mac 上跑前沿開源模型的獨立開發者、希望把 Cursor / opencode 切到本地後端的進階使用者,以及不願先砸十幾萬買頂規 Mac Studio 的小工作室與隱私敏感團隊。本文給你 ds4 的工程哲學、q2 / q4 / MTP 量化帳本、96/128/256/512 GB Mac 的 t/s 實測對照表、五步跑通流程,以及自購 vs 按日租用 Mac Studio 的成本臨界點。
目次 · TABLE OF CONTENTS
- 01 ds4 是什麼:antirez 一週寫就、Star 破萬的 DeepSeek V4 專用引擎
- 02 ds4 vs llama.cpp / Ollama:「窄而深」的工程哲學
- 03 三檔量化真帳本:q2(80.8 GiB)/ q4(153.3 GiB)/ MTP(3.6 GiB)
- 04 Mac 記憶體分級實測對照表:96 / 128 / 256 / 512 GB 跑得動什麼
- 05 五步在 Mac Studio M3 Ultra 上跑通 ds4
- 06 KV 快取落盤與 1M 上下文窗口的安全區間
- 07 把 ds4-server 當 OpenAI 後端接 Cursor / opencode
- 08 自購頂規 Mac vs 按日租用 Mac Studio:成本臨界點
- 09 macOS 上的兩個真坑:CPU 撞核心 + 溫度功耗牆
- 10 本地推論 vs 商業 API:隱私、合規與可控性
- 11 1~3 天租機日程:從 ds4 編譯到接入 Cursor 的實作表
- 12 當前方案的限制與更優選擇
01. ds4 是什麼:antirez 一週寫就、Star 破萬的 DeepSeek V4 專用引擎
ds4 全名為 DwarfStar 4,作者是 Redis、Sentinel、Cluster 的原作者 Salvatore Sanfilippo(antirez)。專案公開後短短數天,GitHub Star 突破 11,000 顆,原因並不複雜:這是目前唯一一個把 DeepSeek V4 Flash 推到「128GB Mac 真的能跑」這條線的本地引擎。
它的存在解決了一個尷尬的現實:DeepSeek V4 Flash 屬 MoE 架構、約 284B 參數、原始 165GB F16 權重,llama.cpp 與 Ollama 都還在掙扎適配;而 antirez 直接以純 C 重寫 Metal / CUDA 後端,搭配自家量化的 asymmetric 2/8-bit GGUF,把啟動到吐出第一個 token 的體驗,壓成「make & ./ds4 -p」兩步。
02. ds4 vs llama.cpp / Ollama:「窄而深」的工程哲學
llama.cpp 與 Ollama 是「寬」的——一個 runtime 撐起一百個模型家族;ds4 反其道,只服務一個模型家族。三個直觀差異:
- 沒有抽象稅:模型載入、prompt 渲染、KV 狀態、Tool Calling 全部針對 V4 Flash 直接寫死,沒有「為所有模型保留介面」的開銷。
- 官方 logits 對齊:antirez 以 DeepSeek 官方實作取 logits 做對照,確保 ds4 的輸出與原版數值一致,避免「量化後越變越笨」的玄學問題。
- 整套配齊:
ds4(CLI)+ds4-server(OpenAI 相容)+ 內建 coding agent + GGUF / imatrix 工具,全部在同一個 repo。
antirez 在 README 寫得很坦白:「新模型出得太快,每個 runtime 都疲於追新;這個專案只押一個賭——一次只盯一個模型,把它在 128GB 以上的高階個人機上做到 credible。」對開發者的實際意義是:你不再需要為了讓 V4 Flash 在 Mac 上不崩,去讀 200 個 issue。
03. 三檔量化真帳本:q2(80.8 GiB)/ q4(153.3 GiB)/ MTP(3.6 GiB)
antirez 自己在 Hugging Face 發佈的 antirez/deepseek-v4-gguf repo 提供三個檔案,對應三檔記憶體配置:
| 量化檔 | 檔案大小 | 量化策略 | 目標 Mac 記憶體 | 典型情境 |
|---|---|---|---|---|
| q2(IQ2_XXS + Q2_K) | 80.8 GiB | 路由 expert 採激進 2bit;注意力 / 共享 expert 走 Q8_0 | 96 / 128 GB | MacBook Pro M4/M5 Max 入門 |
| q4(Q4_K Experts) | 153.3 GiB | 所有 expert Q4_K;HC / Compressor / Indexer F16 | 256 / 512 GB | Mac Studio Ultra 主力推論 |
| MTP(speculative) | 3.6 GiB | 輔助 multi-token prediction | 可選擇疊加 | 搭 q2 / q4 提升 generate 速度 |
三個必須記住的細節:① 80.8 GiB 權重 + 26 GB 滿載 KV 讓 q2 在 128GB Mac 上「剛好夠」,跑之前要先關掉 Chrome / Xcode;② q4 153.3 GiB 權重在 256GB Mac 上能跑,但留給上下文的餘量只剩幾十 GB;③ MTP 是 可選擇疊加,獨立載入約 3.6GB,但能將 generate 速度再拉一截。
04. Mac 記憶體分級實測對照表:96 / 128 / 256 / 512 GB 跑得動什麼
下表整理自 ds4 repo README 與社群實測,所有數字單位為 tokens/s(prefill / generate),列了從入門到頂規的完整階梯:
| 硬體 | 量化 | 上下文 | Prefill t/s | Generate t/s |
|---|---|---|---|---|
| MacBook Pro M5 Max 128GB | q2 | 短文 | 463.0 | 34.0 |
| Mac Studio M3 Ultra 512GB | q2 | 短文 | 384.43 | 36.86 |
| Mac Studio M3 Ultra 512GB | q2 | 11,709 tokens | 250.11 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 短文 | 78.95 | 35.50 |
| Mac Studio M3 Ultra 512GB | q4 | 12,018 tokens | 448.82 | 26.62 |
| DGX Spark GB10 128GB(對照組) | q2 | 7,047 tokens | 343.81 | 13.75 |
三個值得記住的硬數據:① M5 Max 128GB 跑 q2 短文 prefill 已達 463 t/s,主觀體驗遠超預期;② 512GB M3 Ultra 跑 q4 長文(12k token)prefill 448.82 t/s——這是目前 Mac 上能買到的最強 V4 Flash 體驗;③ DGX Spark GB10 generate 僅 13.75 t/s,明顯被 M3 Ultra 的 36.86 t/s 拉開——這就是統一記憶體對 MoE 大模型推論的結構性優勢。
05. 五步在 Mac Studio M3 Ultra 上跑通 ds4
以下是從乾淨 macOS 到吐出第一個 token 的最短路徑,整套流程約 30~45 分鐘(瓶頸在模型下載):
- 複製與編譯:
git clone https://github.com/antirez/ds4 && cd ds4 && make,macOS 預設走 Metal 後端,不需要 CUDA 工具鏈。 - 下載權重:128GB 機器跑
./download_model.sh q2;≥256GB 機器跑./download_model.sh q4;可選./download_model.sh mtp啟用 speculative decoding。 - 冒煙測試:
./ds4 -p "Explain Redis streams in one paragraph."驗證模型載入、tokenizer 與 Metal 後端是否就緒。 - 啟動 OpenAI 相容服務:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192,預設監聽127.0.0.1:8080。 - 記錄基準:用一段 12k token 的真實工程上下文跑
generate,記下 prefill / generate t/s 與顯存峰值,作為後續調校的對照基準。
06. KV 快取落盤與 1M 上下文窗口的安全區間
ds4 最被低估的一項設計,是 KV 快取持久化到 SSD。Mac 搭配高速 NVMe SSD,會話之間不再需要重新 prefill,重啟 ds4-server 後可秒級恢復 100k token 級別的上下文。注意三個參數邊界:
- 滿量 1M 上下文 ≈ 26 GB GPU 記憶體(其中 compressed indexer 單獨佔 22 GB),128GB 機器若已載入 81 GB q2 權重,硬開 1M 幾乎必定 OOM。
- 128GB 建議
--ctx 100000~300000:社群已有人在 96GB Mac 上跑 250k token,但前提是先 kill 掉 Chrome / Xcode 等吃記憶體的程式。 --kv-disk-space-mb建議至少 8192(8 GB)起跳,長會話或多人共用時拉到 16384 以上。
--ctx 100000,先看 活動監視器 的 GPU 記憶體與 swap 使用情況,再逐步拉到 200k。一旦看到 wired memory 接近實體上限,立刻回退——否則系統會直接凍結。07. 把 ds4-server 當 OpenAI 後端接 Cursor / opencode
ds4-server 實作了 /v1/chat/completions、/v1/models 與 OpenAI Function Calling,對外是一個無差別的 OpenAI 相容 endpoint。Cursor / opencode / Continue 這類工具可零修改接入:
- 在 Cursor 設定中新增「自訂模型 provider」,
baseURL填http://127.0.0.1:8080/v1,apiKey隨便填一個非空字串。 - 模型名稱填
deepseek-v4-flash(由 ds4-server/v1/models回傳的 id)。 - 遠端存取時,將 Mac Studio 掛到 Tailscale mesh 上,
baseURL改為 mesh IP 即可——切勿把 8080 連接埠暴露到公網。 - 工具呼叫(編輯檔案、執行指令、讀取 git diff)透過 Function Calling 協議自動協商,ds4 內建 coding agent 已做過端對端驗證。
- 除錯時把 ds4-server 紀錄輸出到檔案,與 Cursor 的 request payload 對比,可快速定位 tool schema 不相容的問題。
08. 自購頂規 Mac vs 按日租用 Mac Studio:成本臨界點
買不起又想跑頂規 V4 Flash 的人,第一反應是「自己買」。先看自購帳本:
- MacBook Pro M5 Max 128GB:約 NTD 130,000,可跑 q2,入門門檻。
- Mac Studio M4 Ultra 256GB:約 NTD 270,000,可跑 q4 小上下文。
- Mac Studio M3 Ultra 512GB 頂規:約 NTD 480,000,可跑 q4 長上下文。
再算按日租用:典型按日租用 Mac Studio M3 Ultra 512GB 落在 每日數百元區間。簡單臨界點:
- 一年實際使用 ≥ 200 天,自購回本;< 200 天,租用總帳更低且不背折舊風險。
- 團隊多人共用:5 人輪用同一台租用 Mac Studio,等效成本再攤薄 5 倍。
- 硬體迭代風險:M5 Ultra / M6 Max 一旦上市,自購頂規 Mac 在二手市場立刻折價 20%~30%,租用模式天然迴避此風險。
09. macOS 上的兩個真坑:CPU 撞核心 + 溫度功耗牆
antirez 在 README 特地提醒兩件事,都是踩過的坑:
- CPU 後端會撞核心:目前 macOS 在 ds4 CPU 路徑上存在 VM 實作 bug,跑起來會 kernel panic 重啟。結論:macOS 一律用 Metal,切勿執行
make cpu。CPU 路徑只在 Linux 上用於正確性檢查。 - 溫度與功耗牆:MacBook Pro 在長時間滿載推論時,機身溫度會推到 90°C 以上,風扇全開。建議外接電源、墊高機身;若是 Mac Studio,機殼內有專屬風道,長跑穩定性遠勝筆電。
另一個容易忽略的細節:切勿讓 Time Machine 在跑模型時同時備份,I/O 競爭會讓 KV 落盤吞吐驟降,generate 速度直接腰斬。
10. 本地推論 vs 商業 API:隱私、合規與可控性
把 V4 Flash 拉回本地的真正動機,往往不是省錢,而是資料不出本機。對照常見商業 API:
- 隱私:本地推論全程無 egress,企業程式碼、使用者紀錄、醫療 / 金融資料不進入第三方伺服器。
- 合規:GDPR / 個資法 / 產業自律對「模型權重位置」與「資料駐留」的要求,本地方案天然滿足。
- 可控性:API 廠商隨時改限流、改模型權重、改協議;本地的 ds4 + V4 Flash 是凍結快照,可重現、可稽核。
- 成本可預測:商業 API 按 token 計費,長上下文 Agent 容易出帳單尖刺;本地推論是固定折舊 / 租金 + 電費,財務能簽得動預算。
11. 1~3 天租機日程:從 ds4 編譯到接入 Cursor 的實作表
以下是可直接照抄的 3 日日程,適合「想先跑通再決定要不要自購」的小團隊:
- 第 0 天 晚:在 macdate.com 提交按日租用 Mac Studio M3 Ultra 512GB 工單,選 1~3 日窗口;同步把 ds4 repo、SSH key、Tailscale 憑證備好。
- 第 1 天 上午:SSH 接入 →
brew install git→ 複製 ds4 →makeMetal 後端 →./download_model.sh q4(153 GiB 約 1.5~3 小時)。 - 第 1 天 下午:跑
ds4 -p冒煙 →ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384→ 用 12k token 真工程上下文跑 generate,記錄基準。 - 第 2 天:Tailscale 加入 mesh → 本地 Cursor / opencode 將
baseURL指向 mesh IP → 跑半天真實開發任務,記錄 t/s 與體感延遲。 - 第 3 天 上午:換成 MTP 疊加跑 speculative decoding,對比 generate 提升;測試 1M 上下文邊界(
--ctx 400000起跳)。 - 第 3 天 下午:匯出基準 CSV、刪除
/tmp/ds4-kv、清理 SSH key 與 Tailscale 節點;釋放執行個體,按實際天數結算。
三個可引用的數字:① ds4 q4 模型下載約 153 GiB,在 1 Gbps 網路上需 30~40 分鐘;② 單次 1~3 日租用即可完成「先跑通、再決定」的完整決策;③ 按日租用 vs 自購 NTD 480,000 頂規的回本臨界點約為 一年 200 天。可參考 按日租用 Mac 完全指南 與 Mac mini M4 租用 vs 購買成本核算。
12. 當前方案的限制與更優選擇
把 ds4 + DeepSeek V4 Flash 拉回本地,意味著你擁抱「頂規 Mac 是本地大模型推論的最優載體」這條共識,但也要面對三個無法繞開的限制:
- 硬體門檻:q2 起步就要 96/128 GB 統一記憶體,q4 要 256 GB,PRO 要 512 GB——這些都不是一般 MacBook 的規格。
- 主力機污染:80 GiB 權重 + 上百 GB KV 落盤 + 長跑高溫,把這些堆在日常主力機上,會反噬編輯器、Xcode、視訊會議的體驗。
- 硬體折舊:M5 Ultra / M6 Max 節奏快,自購頂規三年後的二手價,遠低於按日租用 1095 天的累計租金。
更經濟的組合:把 ds4 + DeepSeek V4 Flash 跑在 按日租用 的實體 Mac Studio M3 Ultra 512GB 上——你拿到的是 q4 + 長上下文的頂規體驗、獨立頻寬、獨立鑰匙圈、獨立 KV 快取目錄;用完關機釋放,不再背 NTD 480,000 折舊風險。Cursor / opencode 透過 Tailscale 接入,本地寫程式 / 雲端跑推論,主力機依舊乾淨。AI 模型可選 ds4 + V4 Flash,推論硬體交給 macdate.com 的實體 Mac 節點。