ds4 2026 Mac 本地跑 DeepSeek V4 Flash 完全指南 | antirez 引擎 + 128/256/512GB 實測 + 按日租用 Mac Studio

2026 年 5 月，Redis 之父 antirez 用一週時間寫出了一個只做一件事的 C 引擎：ds4（DwarfStar 4）——專為 DeepSeek V4 Flash 量身打造的本地推論後端。它不是 GGUF 通用 runner，不是 llama.cpp / Ollama 的封裝，Metal 後端自 96GB MacBook 起跳、CUDA 後端對應 DGX Spark，並將 KV 快取落到 SSD、把 OpenAI 相容 API 內建到執行檔，讓本地大模型推論首次在消費級 Mac 上具備「工程可用」的延遲與上下文。本文寫給三類讀者：想在 Mac 上跑前沿開源模型的獨立開發者、希望把 Cursor / opencode 切到本地後端的進階使用者，以及不願先砸十幾萬買頂規 Mac Studio 的小工作室與隱私敏感團隊。本文給你 ds4 的工程哲學、q2 / q4 / MTP 量化帳本、96/128/256/512 GB Mac 的 t/s 實測對照表、五步跑通流程，以及自購 vs 按日租用 Mac Studio 的成本臨界點。

目次 · TABLE OF CONTENTS

01 ds4 是什麼：antirez 一週寫就、Star 破萬的 DeepSeek V4 專用引擎
02 ds4 vs llama.cpp / Ollama：「窄而深」的工程哲學
03 三檔量化真帳本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）
04 Mac 記憶體分級實測對照表：96 / 128 / 256 / 512 GB 跑得動什麼
05 五步在 Mac Studio M3 Ultra 上跑通 ds4
06 KV 快取落盤與 1M 上下文窗口的安全區間
07 把 ds4-server 當 OpenAI 後端接 Cursor / opencode
08 自購頂規 Mac vs 按日租用 Mac Studio：成本臨界點
09 macOS 上的兩個真坑：CPU 撞核心 + 溫度功耗牆
10 本地推論 vs 商業 API：隱私、合規與可控性
11 1～3 天租機日程：從 ds4 編譯到接入 Cursor 的實作表
12 當前方案的限制與更優選擇

01. ds4 是什麼：antirez 一週寫就、Star 破萬的 DeepSeek V4 專用引擎

ds4 全名為 DwarfStar 4，作者是 Redis、Sentinel、Cluster 的原作者 Salvatore Sanfilippo（antirez）。專案公開後短短數天，GitHub Star 突破 11,000 顆，原因並不複雜：這是目前唯一一個把 DeepSeek V4 Flash 推到「128GB Mac 真的能跑」這條線的本地引擎。

它的存在解決了一個尷尬的現實：DeepSeek V4 Flash 屬 MoE 架構、約 284B 參數、原始 165GB F16 權重，llama.cpp 與 Ollama 都還在掙扎適配；而 antirez 直接以純 C 重寫 Metal / CUDA 後端，搭配自家量化的 asymmetric 2/8-bit GGUF，把啟動到吐出第一個 token 的體驗，壓成「make & ./ds4 -p」兩步。

02. ds4 vs llama.cpp / Ollama：「窄而深」的工程哲學

llama.cpp 與 Ollama 是「寬」的——一個 runtime 撐起一百個模型家族；ds4 反其道，只服務一個模型家族。三個直觀差異：

沒有抽象稅：模型載入、prompt 渲染、KV 狀態、Tool Calling 全部針對 V4 Flash 直接寫死，沒有「為所有模型保留介面」的開銷。
官方 logits 對齊：antirez 以 DeepSeek 官方實作取 logits 做對照，確保 ds4 的輸出與原版數值一致，避免「量化後越變越笨」的玄學問題。
整套配齊：ds4（CLI）+ ds4-server（OpenAI 相容）+ 內建 coding agent + GGUF / imatrix 工具，全部在同一個 repo。

antirez 在 README 寫得很坦白：「新模型出得太快，每個 runtime 都疲於追新；這個專案只押一個賭——一次只盯一個模型，把它在 128GB 以上的高階個人機上做到 credible。」對開發者的實際意義是：你不再需要為了讓 V4 Flash 在 Mac 上不崩，去讀 200 個 issue。

03. 三檔量化真帳本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

antirez 自己在 Hugging Face 發佈的 antirez/deepseek-v4-gguf repo 提供三個檔案，對應三檔記憶體配置：

量化檔	檔案大小	量化策略	目標 Mac 記憶體	典型情境
q2（IQ2_XXS + Q2_K）	80.8 GiB	路由 expert 採激進 2bit；注意力 / 共享 expert 走 Q8_0	96 / 128 GB	MacBook Pro M4/M5 Max 入門
q4（Q4_K Experts）	153.3 GiB	所有 expert Q4_K；HC / Compressor / Indexer F16	256 / 512 GB	Mac Studio Ultra 主力推論
MTP（speculative）	3.6 GiB	輔助 multi-token prediction	可選擇疊加	搭 q2 / q4 提升 generate 速度

三個必須記住的細節：① 80.8 GiB 權重 + 26 GB 滿載 KV 讓 q2 在 128GB Mac 上「剛好夠」，跑之前要先關掉 Chrome / Xcode；② q4 153.3 GiB 權重在 256GB Mac 上能跑，但留給上下文的餘量只剩幾十 GB；③ MTP 是 可選擇疊加，獨立載入約 3.6GB，但能將 generate 速度再拉一截。

04. Mac 記憶體分級實測對照表：96 / 128 / 256 / 512 GB 跑得動什麼

下表整理自 ds4 repo README 與社群實測，所有數字單位為 tokens/s（prefill / generate），列了從入門到頂規的完整階梯：

硬體	量化	上下文	Prefill t/s	Generate t/s
MacBook Pro M5 Max 128GB	q2	短文	463.0	34.0
Mac Studio M3 Ultra 512GB	q2	短文	384.43	36.86
Mac Studio M3 Ultra 512GB	q2	11,709 tokens	250.11	27.39
Mac Studio M3 Ultra 512GB	q4	短文	78.95	35.50
Mac Studio M3 Ultra 512GB	q4	12,018 tokens	448.82	26.62
DGX Spark GB10 128GB（對照組）	q2	7,047 tokens	343.81	13.75

三個值得記住的硬數據：① M5 Max 128GB 跑 q2 短文 prefill 已達 463 t/s，主觀體驗遠超預期；② 512GB M3 Ultra 跑 q4 長文（12k token）prefill 448.82 t/s——這是目前 Mac 上能買到的最強 V4 Flash 體驗；③ DGX Spark GB10 generate 僅 13.75 t/s，明顯被 M3 Ultra 的 36.86 t/s 拉開——這就是統一記憶體對 MoE 大模型推論的結構性優勢。

05. 五步在 Mac Studio M3 Ultra 上跑通 ds4

以下是從乾淨 macOS 到吐出第一個 token 的最短路徑，整套流程約 30～45 分鐘（瓶頸在模型下載）：

複製與編譯：git clone https://github.com/antirez/ds4 && cd ds4 && make，macOS 預設走 Metal 後端，不需要 CUDA 工具鏈。
下載權重：128GB 機器跑 ./download_model.sh q2；≥256GB 機器跑 ./download_model.sh q4；可選 ./download_model.sh mtp 啟用 speculative decoding。
冒煙測試：./ds4 -p "Explain Redis streams in one paragraph." 驗證模型載入、tokenizer 與 Metal 後端是否就緒。
啟動 OpenAI 相容服務：./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192，預設監聽 127.0.0.1:8080。
記錄基準：用一段 12k token 的真實工程上下文跑 generate，記下 prefill / generate t/s 與顯存峰值，作為後續調校的對照基準。

# 1. 複製 + 編譯（Metal） $ git clone https://github.com/antirez/ds4 && cd ds4 && make # 2. 下載權重（128GB Mac 選 q2） $ ./download_model.sh q2 # 3. 啟動 OpenAI 相容服務 + KV 落盤 $ ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 # 4. 驗證 $ curl -s http://127.0.0.1:8080/v1/models | jq .

06. KV 快取落盤與 1M 上下文窗口的安全區間

ds4 最被低估的一項設計，是 KV 快取持久化到 SSD。Mac 搭配高速 NVMe SSD，會話之間不再需要重新 prefill，重啟 ds4-server 後可秒級恢復 100k token 級別的上下文。注意三個參數邊界：

滿量 1M 上下文 ≈ 26 GB GPU 記憶體（其中 compressed indexer 單獨佔 22 GB），128GB 機器若已載入 81 GB q2 權重，硬開 1M 幾乎必定 OOM。
128GB 建議 --ctx 100000～300000：社群已有人在 96GB Mac 上跑 250k token，但前提是先 kill 掉 Chrome / Xcode 等吃記憶體的程式。
--kv-disk-space-mb 建議至少 8192（8 GB）起跳，長會話或多人共用時拉到 16384 以上。

實測建議：在 128GB MacBook Pro 上保守起 --ctx 100000，先看 活動監視器 的 GPU 記憶體與 swap 使用情況，再逐步拉到 200k。一旦看到 wired memory 接近實體上限，立刻回退——否則系統會直接凍結。

07. 把 ds4-server 當 OpenAI 後端接 Cursor / opencode

ds4-server 實作了 /v1/chat/completions、/v1/models 與 OpenAI Function Calling，對外是一個無差別的 OpenAI 相容 endpoint。Cursor / opencode / Continue 這類工具可零修改接入：

在 Cursor 設定中新增「自訂模型 provider」，baseURL 填 http://127.0.0.1:8080/v1，apiKey 隨便填一個非空字串。
模型名稱填 deepseek-v4-flash（由 ds4-server /v1/models 回傳的 id）。
遠端存取時，將 Mac Studio 掛到 Tailscale mesh 上，baseURL 改為 mesh IP 即可——切勿把 8080 連接埠暴露到公網。
工具呼叫（編輯檔案、執行指令、讀取 git diff）透過 Function Calling 協議自動協商，ds4 內建 coding agent 已做過端對端驗證。
除錯時把 ds4-server 紀錄輸出到檔案，與 Cursor 的 request payload 對比，可快速定位 tool schema 不相容的問題。

08. 自購頂規 Mac vs 按日租用 Mac Studio：成本臨界點

買不起又想跑頂規 V4 Flash 的人，第一反應是「自己買」。先看自購帳本：

MacBook Pro M5 Max 128GB：約 NTD 130,000，可跑 q2，入門門檻。
Mac Studio M4 Ultra 256GB：約 NTD 270,000，可跑 q4 小上下文。
Mac Studio M3 Ultra 512GB 頂規：約 NTD 480,000，可跑 q4 長上下文。

再算按日租用：典型按日租用 Mac Studio M3 Ultra 512GB 落在 每日數百元區間。簡單臨界點：

一年實際使用 ≥ 200 天，自購回本；< 200 天，租用總帳更低且不背折舊風險。
團隊多人共用：5 人輪用同一台租用 Mac Studio，等效成本再攤薄 5 倍。
硬體迭代風險：M5 Ultra / M6 Max 一旦上市，自購頂規 Mac 在二手市場立刻折價 20%~30%，租用模式天然迴避此風險。

09. macOS 上的兩個真坑：CPU 撞核心 + 溫度功耗牆

antirez 在 README 特地提醒兩件事，都是踩過的坑：

CPU 後端會撞核心：目前 macOS 在 ds4 CPU 路徑上存在 VM 實作 bug，跑起來會 kernel panic 重啟。結論：macOS 一律用 Metal，切勿執行 make cpu。CPU 路徑只在 Linux 上用於正確性檢查。
溫度與功耗牆：MacBook Pro 在長時間滿載推論時，機身溫度會推到 90°C 以上，風扇全開。建議外接電源、墊高機身；若是 Mac Studio，機殼內有專屬風道，長跑穩定性遠勝筆電。

另一個容易忽略的細節：切勿讓 Time Machine 在跑模型時同時備份，I/O 競爭會讓 KV 落盤吞吐驟降，generate 速度直接腰斬。

10. 本地推論 vs 商業 API：隱私、合規與可控性

把 V4 Flash 拉回本地的真正動機，往往不是省錢，而是資料不出本機。對照常見商業 API：

隱私：本地推論全程無 egress，企業程式碼、使用者紀錄、醫療 / 金融資料不進入第三方伺服器。
合規：GDPR / 個資法 / 產業自律對「模型權重位置」與「資料駐留」的要求，本地方案天然滿足。
可控性：API 廠商隨時改限流、改模型權重、改協議；本地的 ds4 + V4 Flash 是凍結快照，可重現、可稽核。
成本可預測：商業 API 按 token 計費，長上下文 Agent 容易出帳單尖刺；本地推論是固定折舊 / 租金 + 電費，財務能簽得動預算。

11. 1～3 天租機日程：從 ds4 編譯到接入 Cursor 的實作表

以下是可直接照抄的 3 日日程，適合「想先跑通再決定要不要自購」的小團隊：

第 0 天晚：在 macdate.com 提交按日租用 Mac Studio M3 Ultra 512GB 工單，選 1～3 日窗口；同步把 ds4 repo、SSH key、Tailscale 憑證備好。
第 1 天上午：SSH 接入 → brew install git → 複製 ds4 → make Metal 後端 → ./download_model.sh q4（153 GiB 約 1.5～3 小時）。
第 1 天下午：跑 ds4 -p 冒煙 → ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384 → 用 12k token 真工程上下文跑 generate，記錄基準。
第 2 天：Tailscale 加入 mesh → 本地 Cursor / opencode 將 baseURL 指向 mesh IP → 跑半天真實開發任務，記錄 t/s 與體感延遲。
第 3 天上午：換成 MTP 疊加跑 speculative decoding，對比 generate 提升；測試 1M 上下文邊界（--ctx 400000 起跳）。
第 3 天下午：匯出基準 CSV、刪除 /tmp/ds4-kv、清理 SSH key 與 Tailscale 節點；釋放執行個體，按實際天數結算。

三個可引用的數字：① ds4 q4 模型下載約 153 GiB，在 1 Gbps 網路上需 30～40 分鐘；② 單次 1～3 日租用即可完成「先跑通、再決定」的完整決策；③ 按日租用 vs 自購 NTD 480,000 頂規的回本臨界點約為 一年 200 天。可參考按日租用 Mac 完全指南與 Mac mini M4 租用 vs 購買成本核算。

12. 當前方案的限制與更優選擇

把 ds4 + DeepSeek V4 Flash 拉回本地，意味著你擁抱「頂規 Mac 是本地大模型推論的最優載體」這條共識，但也要面對三個無法繞開的限制：

硬體門檻：q2 起步就要 96/128 GB 統一記憶體，q4 要 256 GB，PRO 要 512 GB——這些都不是一般 MacBook 的規格。
主力機污染：80 GiB 權重 + 上百 GB KV 落盤 + 長跑高溫，把這些堆在日常主力機上，會反噬編輯器、Xcode、視訊會議的體驗。
硬體折舊：M5 Ultra / M6 Max 節奏快，自購頂規三年後的二手價，遠低於按日租用 1095 天的累計租金。

更經濟的組合：把 ds4 + DeepSeek V4 Flash 跑在按日租用的實體 Mac Studio M3 Ultra 512GB 上——你拿到的是 q4 + 長上下文的頂規體驗、獨立頻寬、獨立鑰匙圈、獨立 KV 快取目錄；用完關機釋放，不再背 NTD 480,000 折舊風險。Cursor / opencode 透過 Tailscale 接入，本地寫程式 / 雲端跑推論，主力機依舊乾淨。AI 模型可選 ds4 + V4 Flash，推論硬體交給 macdate.com 的實體 Mac 節點。

2026 年 ds4（DwarfStar 4）本地跑 DeepSeek V4 Flash 完全指南：
antirez 引擎、q2/q4 量化分級與 Mac 96/128/256/512 GB 實測對照表

01. ds4 是什麼：antirez 一週寫就、Star 破萬的 DeepSeek V4 專用引擎

02. ds4 vs llama.cpp / Ollama：「窄而深」的工程哲學

03. 三檔量化真帳本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

04. Mac 記憶體分級實測對照表：96 / 128 / 256 / 512 GB 跑得動什麼

05. 五步在 Mac Studio M3 Ultra 上跑通 ds4

06. KV 快取落盤與 1M 上下文窗口的安全區間

07. 把 ds4-server 當 OpenAI 後端接 Cursor / opencode

08. 自購頂規 Mac vs 按日租用 Mac Studio：成本臨界點

09. macOS 上的兩個真坑：CPU 撞核心 + 溫度功耗牆

10. 本地推論 vs 商業 API：隱私、合規與可控性

11. 1～3 天租機日程：從 ds4 編譯到接入 Cursor 的實作表

12. 當前方案的限制與更優選擇

延伸閱讀