2026 年 5 月，Redis 之父 antirez 用一周时间写出了一个只做一件事的 C 引擎：ds4（DwarfStar 4）——专为 DeepSeek V4 Flash 量身定制的本地推理后端。它不是 GGUF 通用 runner，不是 llama.cpp / Ollama 的封装，Metal 后端从 96GB MacBook 起步、CUDA 后端跑 DGX Spark，并把 KV Cache 落到 SSD、把 OpenAI 兼容 API 内置进二进制，让本地大模型推理第一次在消费级 Mac 上具备"工程可用"的延迟与上下文。本文写给三类读者：想在 Mac 上跑前沿开源模型的独立开发者、想把 Cursor / opencode 切到本地后端的极客、不愿先花十几万买顶配 Mac Studio 的小工作室与隐私敏感团队。本文给你 ds4 的工程哲学、q2 / q4 / MTP 量化账本、96/128/256/512 GB Mac 的 t/s 实测对照表、五步跑通流程，以及自购 vs 按天租 Mac Studio 的成本临界点。

目录 · TABLE OF CONTENTS

01 ds4 是什么：antirez 一周写就、Star 破万的 DeepSeek V4 专用引擎
02 ds4 vs llama.cpp / Ollama：「窄而深」的工程哲学
03 三档量化真账本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）
04 Mac 内存分级实测对照表：96 / 128 / 256 / 512 GB 跑得动什么
05 五步在 Mac Studio M3 Ultra 上跑通 ds4
06 KV Cache 落盘与 1M 上下文窗口的安全区间
07 把 ds4-server 当 OpenAI 后端接 Cursor / opencode
08 自购顶配 Mac vs 按天租 Mac Studio：成本临界点
09 macOS 上的两个真坑：CPU 撞内核 + 温度功耗墙
10 本地推理 vs 商业 API：隐私、合规与可控性
11 1～3 天租机日程：从 ds4 编译到接入 Cursor 的实操表
12 当前方案的限制与更优选择

01. ds4 是什么：antirez 一周写就、Star 破万的 DeepSeek V4 专用引擎

ds4 的全称是 DwarfStar 4，作者是 Redis、Sentinel、Cluster 的原作者 Salvatore Sanfilippo（antirez）。项目首次公开后短短数天 GitHub Star 突破 11,000，原因不复杂：这是目前唯一一个把 DeepSeek V4 Flash 推到「128GB Mac 真的能跑」这条线的本地引擎。

它的存在解决了一个尴尬的现实：DeepSeek V4 Flash 是 MoE 架构、284B 参数、原版 165GB F16 权重，llama.cpp 与 Ollama 都还在挣扎适配，而 antirez 直接用纯 C 重写了 Metal / CUDA 后端，配合自己量化的 asymmetric 2/8-bit GGUF，把启动到出第一个 token 的体验做成了"make && ./ds4 -p"两步。

02. ds4 vs llama.cpp / Ollama：「窄而深」的工程哲学

llama.cpp 与 Ollama 是"宽"的——一个 runtime 撑 100 个模型族；ds4 反其道，只为一个模型族服务。带来三个直观差异：

没有抽象税：模型加载、prompt 渲染、KV 状态、Tool Calling 全部针对 V4 Flash 直写，没有"为所有模型留接口"的开销。
官方 logits 对齐：antirez 用 DeepSeek 官方实现取 logits 做对照，确保 ds4 的输出与原版数值一致，避免"量化后越变越笨"的玄学。
整套配齐：ds4（CLI）+ ds4-server（OpenAI 兼容）+ 集成 coding agent + GGUF / imatrix 工具，全部在一个仓库里。

antirez 在 README 里写得很直白："新模型出得太快，每个 runtime 都疲于追新；这个项目只押一个赌——一次只盯一个模型，把它在 128GB 以上的高端个人机上做到 credible。"对开发者的实际意义是：你不需要再读 200 个 issue 才能让 V4 Flash 在 Mac 上不崩。

03. 三档量化真账本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

antirez 自己在 Hugging Face 发布的 antirez/deepseek-v4-gguf 仓库，提供三个文件，对应三种内存档位：

量化档	文件大小	关键量化策略	目标 Mac 内存	典型场景
q2（IQ2_XXS + Q2_K）	80.8 GiB	路由 expert 激进 2bit，注意力/共享 expert Q8_0	96 / 128 GB	MacBook Pro M4/M5 Max 起步
q4（Q4_K Experts）	153.3 GiB	所有 expert Q4_K，HC / Compressor / Indexer F16	256 / 512 GB	Mac Studio Ultra 主力推理
MTP（speculative）	3.6 GiB	辅助 multi-token prediction	可选叠加	配 q2 / q4 提升 generate 速度

三个一定要记的细节：① 80.8 GiB 权重 + 26 GB 满载 KV 让 q2 在 128GB Mac 上"刚好够"，需要先杀掉 Chrome / Xcode；② q4 153.3 GiB 权重在 256GB Mac 上能用，但留给上下文的余量只有几十 GB；③ MTP 是 可选叠加，独立加载约 3.6GB，但能把 generate 速度再拉一截。

04. Mac 内存分级实测对照表：96 / 128 / 256 / 512 GB 跑得动什么

下表整理自 ds4 仓库 README 与社区实测，所有数字单位为 tokens/s（prefill / generate），列了从入门到顶配的完整阶梯：

硬件	量化	上下文	Prefill t/s	Generate t/s
MacBook Pro M5 Max 128GB	q2	短文	463.0	34.0
Mac Studio M3 Ultra 512GB	q2	短文	384.43	36.86
Mac Studio M3 Ultra 512GB	q2	11,709 tokens	250.11	27.39
Mac Studio M3 Ultra 512GB	q4	短文	78.95	35.50
Mac Studio M3 Ultra 512GB	q4	12,018 tokens	448.82	26.62
DGX Spark GB10 128GB（对照）	q2	7,047 tokens	343.81	13.75

三个值得记的硬数据：① M5 Max 128GB 跑 q2 短文 prefill 已经 463 t/s，主观体验远超期待；② 512GB M3 Ultra 跑 q4 长文（12k token）prefill 448.82 t/s——这是目前 Mac 上能买到的最强 V4 Flash 体验；③ DGX Spark GB10 generate 只有 13.75 t/s，明显被 M3 Ultra 的 36.86 t/s 拉开——这就是统一内存对 MoE 大模型推理的结构性优势。

05. 五步在 Mac Studio M3 Ultra 上跑通 ds4

以下是从空 macOS 到出第一个 token 的最短路径，整套流程约 30～45 分钟（瓶颈是模型下载）：

克隆与编译：git clone https://github.com/antirez/ds4 && cd ds4 && make，macOS 默认走 Metal 后端，不需要 CUDA 工具链。
下载权重：128GB 机器跑 ./download_model.sh q2；≥256GB 机器跑 ./download_model.sh q4；可选 ./download_model.sh mtp 开启 speculative decoding。
冒烟测试：./ds4 -p "Explain Redis streams in one paragraph." 验证模型加载、tokenizer 与 Metal 后端是否就绪。
启动 OpenAI 兼容服务：./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192，默认监听 127.0.0.1:8080。
记录基线：用一段 12k token 的真实工程上下文跑 generate，记下 prefill / generate t/s 与显存峰值，作为后续调优的对照基线。

# 1. 克隆 + 编译（Metal） $ git clone https://github.com/antirez/ds4 && cd ds4 && make # 2. 下载权重（128GB Mac 选 q2） $ ./download_model.sh q2 # 3. 启动 OpenAI 兼容服务 + KV 落盘 $ ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 # 4. 验证 $ curl -s http://127.0.0.1:8080/v1/models | jq .

06. KV Cache 落盘与 1M 上下文窗口的安全区间

ds4 最被低估的一项设计是 KV Cache 持久化到 SSD。在 Mac 上配合 NVMe 高速 SSD，会话间不再需要重新 prefill，重启 ds4-server 后可秒级恢复 100k token 级别的上下文。注意三个参数边界：

满量 1M 上下文 ≈ 26 GB GPU 内存（其中 compressed indexer 单独占 22 GB），128GB 机器若已加载 81 GB q2 权重，强行开 1M 几乎一定 OOM。
128GB 推荐 --ctx 100000～300000：社区已有人在 96GB Mac 上跑 250k token，但需要先 kill 掉 Chrome / Xcode 等高内存进程。
--kv-disk-space-mb 建议至少 8192（8 GB）起步，长会话或多用户共用时拉到 16384 以上。

💡 实测建议：在 128GB MacBook Pro 上保守起 --ctx 100000，先看 Activity Monitor 的 GPU 内存与 swap 使用，再逐步抬到 200k。一旦看到 wired memory 接近物理上限，立刻回退——否则系统直接冻结。

07. 把 ds4-server 当 OpenAI 后端接 Cursor / opencode

ds4-server 实现了 /v1/chat/completions、/v1/models 与 OpenAI Function Calling，对外是一个无差别的 OpenAI 兼容 endpoint。Cursor / opencode / Continue 这类工具可以零修改接入：

在 Cursor 设置中新增"自定义模型 provider"，baseURL 填 http://127.0.0.1:8080/v1，apiKey 任意填一个非空字符串。
模型名填 deepseek-v4-flash（由 ds4-server 返回的 model id）。
需要远程访问时，用 Tailscale 把 Mac Studio 挂上 mesh，baseURL 改成 mesh IP 即可——不要把 8080 端口暴露到公网。
工具调用（编辑文件、运行命令、读 git diff）通过 Function Calling 协议自动协商，ds4 内置 coding agent 已经做过端到端验证。
调试时把 ds4-server 日志输出到文件，对照 Cursor 的 request payload，可以快速定位 tool schema 不匹配的问题。

08. 自购顶配 Mac vs 按天租 Mac Studio：成本临界点

买不起又想跑顶配 V4 Flash 的人，第一反应是"自己买"。先看自购账本：

MacBook Pro M5 Max 128GB：约 ¥30,000，能跑 q2，是入门门槛。
Mac Studio M4 Ultra 256GB：约 ¥60,000，能跑 q4 小上下文。
Mac Studio M3 Ultra 512GB 顶配：约 ¥110,000，能跑 q4 长上下文。

再算按天租：典型按天租用 Mac Studio M3 Ultra 512GB 报价在 每日数百元区间。简单临界点：

一年实际使用 ≥ 200 天，自购回本；< 200 天，按天租总账更低且不背折旧风险。
团队多人共享：5 人轮用同一台租用 Mac Studio，等效成本进一步摊薄 5 倍。
硬件迭代风险：M5 Ultra / M6 Max 一旦上市，自购的顶配 Mac 在二手市场会立刻折价 20%~30%，租用模式天然回避。

09. macOS 上的两个真坑：CPU 撞内核 + 温度功耗墙

antirez 在 README 里专门提醒了两件事，都是踩过的坑：

CPU 后端会撞内核：当前 macOS 在 ds4 CPU 路径上有 VM 实现 bug，跑起来会 kernel panic 重启。结论：macOS 一定用 Metal，不要 make cpu。CPU 路径只在 Linux 上用于正确性检查。
温度与功耗墙：MacBook Pro 在长时间满载推理时，机身温度会推到 90°C+，风扇全开。建议外接电源 + 抬高底座；如果是 Mac Studio，机箱内有专门的吹风通道，长跑稳定性远好于笔记本。

另一个易忽略的细节：不要让 Time Machine 在跑模型时同时备份，I/O 抢占会让 KV 落盘吞吐骤降，generate 速度直接腰斩。

10. 本地推理 vs 商业 API：隐私、合规与可控性

把 V4 Flash 拉回本地的真正动机，往往不是省钱，而是数据不出本机。对比常见商业 API：

隐私：本地推理全程无 egress，企业代码、用户日志、医疗 / 金融数据不进入第三方服务器。
合规：GDPR / 等保 / 行业自律对"模型权重位置"与"数据驻留"的要求，本地方案天然满足。
可控性：API 厂商随时改限流、改模型权重、改协议；本地的 ds4 + V4 Flash 是冻结快照，可重现、可审计。
成本可预测：商业 API 按 token 计费，长上下文 Agent 容易出账单尖刺；本地推理是固定折旧 / 租金 + 电费，CFO 能签得动预算。

11. 1～3 天租机日程：从 ds4 编译到接入 Cursor 的实操表

下面是可直接照抄的 3 日日程，适合"想先跑通再决定要不要自购"的小团队：

第 0 天晚：在 macdate.com 提交按天租 Mac Studio M3 Ultra 512GB 工单，选 1～3 日窗口；同步把 ds4 仓库 / SSH key / Tailscale 凭据准备好。
第 1 天上午：SSH 接入 → brew install git → 克隆 ds4 → make Metal 后端 → ./download_model.sh q4（153 GiB 大约 1.5～3 小时）。
第 1 天下午：跑 ds4 -p 冒烟 → ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384 → 用 12k token 真工程上下文跑 generate，记录基线。
第 2 天：Tailscale 加入 mesh → 本地 Cursor / opencode 把 baseURL 指向 mesh IP → 跑半天真实编码任务，记录 t/s 与体感延迟。
第 3 天上午：换成 MTP 叠加跑 speculative decoding，对比 generate 提升；测试 1M 上下文边界（--ctx 400000 起步）。
第 3 天下午：导出基线 CSV、删除 /tmp/ds4-kv、清理 SSH key 与 Tailscale 节点；回收实例，按实际天数结算。

三个可引用的数字：① ds4 q4 模型下载约 153 GiB，在 1 Gbps 网络上需 30～40 分钟；② 单次 1～3 日租用即可完成"先跑通、再决定"的完整决策；③ 按天租 vs 自购 ¥110,000 顶配的回本临界点约为 一年 200 天。可参考按天租用 Mac 完全指南与 Mac mini M4 租用 vs 购买成本核算。

12. 当前方案的限制与更优选择

把 ds4 + DeepSeek V4 Flash 拉回本地，意味着你拥抱了"顶配 Mac 是本地大模型推理的最优载体"这条共识，但也要面对三个无法绕开的限制：

硬件门槛：q2 起步就要 96/128 GB 统一内存，q4 要 256 GB，PRO 要 512 GB——这些都不是普通 MacBook 的配置。
主力机污染：80 GiB 权重 + 上百 GB KV 落盘 + 长跑高温，把这些堆在日常主力机上，会反噬你的编辑器、Xcode、视频会议体验。
硬件折旧：M5 Ultra / M6 Max 节奏快，自购顶配三年后的二手价远低于按天租 1095 天的累计租金。

更经济的组合：把 ds4 + DeepSeek V4 Flash 跑在按天租用的物理 Mac Studio M3 Ultra 512GB 上——你拿到的是 q4 + 长上下文的顶配体验、独立带宽、独立钥匙串、独立 KV 缓存目录；用完关机回收，不再背 ¥110,000 折旧风险。Cursor / opencode 通过 Tailscale 接入，本地写代码 / 云端跑推理，主力机依旧干净。AI 模型可以选 ds4 + V4 Flash，推理硬件交给 macdate.com 的物理 Mac 节点。

2026 年 ds4（DwarfStar 4）本地跑 DeepSeek V4 Flash 完全指南：
antirez 引擎、q2/q4 量化分级与 Mac 96/128/256/512 GB 实测对照表

01. ds4 是什么：antirez 一周写就、Star 破万的 DeepSeek V4 专用引擎

02. ds4 vs llama.cpp / Ollama：「窄而深」的工程哲学

03. 三档量化真账本：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

04. Mac 内存分级实测对照表：96 / 128 / 256 / 512 GB 跑得动什么

05. 五步在 Mac Studio M3 Ultra 上跑通 ds4

06. KV Cache 落盘与 1M 上下文窗口的安全区间

07. 把 ds4-server 当 OpenAI 后端接 Cursor / opencode

08. 自购顶配 Mac vs 按天租 Mac Studio：成本临界点

09. macOS 上的两个真坑：CPU 撞内核 + 温度功耗墙

10. 本地推理 vs 商业 API：隐私、合规与可控性

11. 1～3 天租机日程：从 ds4 编译到接入 Cursor 的实操表

12. 当前方案的限制与更优选择

延伸阅读