2026 年 ds4(DwarfStar 4)で DeepSeek V4 Flash を Mac ローカル推論する完全ガイド:
antirez 製エンジン、q2/q4 量子化階層と Mac 96/128/256/512 GB 実測対照表
Mac で DeepSeek V4 Flash を動かしたい開発者・研究者・プライバシー重視のチームが知りたいのは、antirez が一週間で書き上げた ds4 の正体、q2 / q4 量子化に必要なメモリ量、128GB MacBook Pro と 512GB Mac Studio の t/s 差、そして自前購入と日次レンタルの損益分岐点ではないでしょうか。本記事では、その全てを 1 本にまとめてお届けします。
2026 年 5 月、Redis 作者 antirez 氏が一週間で公開した ds4(DwarfStar 4)は、DeepSeek V4 Flash 専用の C 製ローカル推論エンジンです。Metal は 96GB Mac から、CUDA は DGX Spark まで、KV を SSD に永続化、OpenAI 互換 API を内蔵。本記事は最先端 OSS を Mac で試したい開発者、Cursor / opencode をローカル化したいユーザー、頂上構成 Mac を即決できない小規模チーム向けに、設計思想、q2 / q4 / MTP の量子化、96〜512GB Mac の t/s 実測表、5 ステップ手順、自前 vs 日次レンタルの分岐点まで一気に整理します。
目次 · TABLE OF CONTENTS
- 01 ds4 とは何か:antirez が一週間で書き、Star 1 万超えの V4 Flash 専用エンジン
- 02 ds4 vs llama.cpp / Ollama:「狭く深く」という工学的賭け
- 03 3 階層の量子化レシート:q2(80.8 GiB)/ q4(153.3 GiB)/ MTP(3.6 GiB)
- 04 Mac メモリ別実測対照表:96 / 128 / 256 / 512 GB で何が動くか
- 05 Mac Studio M3 Ultra で ds4 を動かす 5 ステップ
- 06 KV キャッシュの永続化と 1M コンテキストの安全圏
- 07 ds4-server を OpenAI バックエンドとして Cursor / opencode に接続
- 08 自前購入 vs 日次レンタル:損益分岐点はどこか
- 09 macOS で踏みやすい 2 つの罠:CPU パニックと熱・電力の壁
- 10 ローカル推論 vs 商用 API:プライバシー・コンプライアンス・制御性
- 11 1〜3 日レンタル日程:ds4 ビルドから Cursor 接続までの実務テーブル
- 12 現方式の限界と、より良い選択肢
01. ds4 とは何か:antirez が一週間で書き、Star 1 万超えの V4 Flash 専用エンジン
ds4 の正式名称は DwarfStar 4、作者は Redis 原作者 Salvatore Sanfilippo(antirez)氏です。公開から数日で GitHub Star は 11,000 超え。理由は単純で、DeepSeek V4 Flash を「128GB Mac で実用的に動く」ラインまで押し上げた唯一のローカルエンジンだからです。V4 Flash は MoE 構造・約 284B パラメータ・F16 で 165GB ですが、antirez 氏は純 C で Metal / CUDA を書き直し、自製の 非対称 2/8-bit GGUF と組み合わせて、初回トークン出力までを「make & ./ds4 -p」の 2 ステップに収めました。
02. ds4 vs llama.cpp / Ollama:「狭く深く」という工学的賭け
llama.cpp と Ollama は 1 ランタイムで 100 モデルを支える「広い」設計、ds4 は逆に 1 ファミリーへ集中投資する設計です。差は 3 点。
- 抽象化の税金がない:モデル読み込み、プロンプト描画、KV、ツール呼び出しを V4 Flash 専用に直書き。
- 公式 logits と整合:DeepSeek 公式実装の logits と数値突き合わせ済みで、量子化劣化を回避。
- ワンストップ:CLI、OpenAI 互換サーバ、coding agent、GGUF / imatrix ツールが同一リポジトリに揃います。
antirez 氏曰く「新モデルが速すぎて汎用ランタイムは追走するだけ。ds4 は 1 モデルに集中し、ハイエンド個人機で信頼できる体験を目指す」。実利は単純で、V4 Flash を Mac で安定動作させるために Issue を大量に漁る必要がなくなります。
03. 3 階層の量子化レシート:q2(80.8 GiB)/ q4(153.3 GiB)/ MTP(3.6 GiB)
Hugging Face 上の antirez/deepseek-v4-gguf リポジトリは、メモリ階層に対応した 3 ファイルを公開しています。
| 量子化階層 | ファイル容量 | 主要戦略 | 対象 Mac メモリ | 想定用途 |
|---|---|---|---|---|
| q2(IQ2_XXS + Q2_K) | 80.8 GiB | ルーティング expert を 2bit、注意機構 / 共有 expert は Q8_0 | 96 / 128 GB | MacBook Pro M4/M5 Max エントリー |
| q4(Q4_K Experts) | 153.3 GiB | 全 expert を Q4_K、HC / Compressor / Indexer は F16 | 256 / 512 GB | Mac Studio Ultra の主力推論 |
| MTP(speculative) | 3.6 GiB | 補助的な multi-token prediction | オプション追加 | q2 / q4 と組合せて generate を加速 |
記憶ポイント 3 つ。① 80.8 GiB の q2 + 満載 26 GB KV は 128GB Mac で「ぎりぎり」、Chrome / Xcode を先に落としてください。② q4 は 153.3 GiB、256GB 機で余裕は数十 GB しか残りません。③ MTP は +3.6 GiB のオプションで、q2 / q4 に重ねるだけで generate を加速します。
04. Mac メモリ別実測対照表:96 / 128 / 256 / 512 GB で何が動くか
以下の数値は ds4 リポジトリの README とコミュニティ実測から整理した tokens/s(prefill / generate)です。エントリーから頂上構成まで、階段状に並べてあります。
| ハードウェア | 量子化 | コンテキスト | Prefill t/s | Generate t/s |
|---|---|---|---|---|
| MacBook Pro M5 Max 128GB | q2 | 短文 | 463.0 | 34.0 |
| Mac Studio M3 Ultra 512GB | q2 | 短文 | 384.43 | 36.86 |
| Mac Studio M3 Ultra 512GB | q2 | 11,709 tokens | 250.11 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 短文 | 78.95 | 35.50 |
| Mac Studio M3 Ultra 512GB | q4 | 12,018 tokens | 448.82 | 26.62 |
| DGX Spark GB10 128GB(参考) | q2 | 7,047 tokens | 343.81 | 13.75 |
硬数値 3 つ。① M5 Max 128GB でも q2 短文 prefill は 463 t/s、ノートとしては破格。② 512GB M3 Ultra で q4 + 12k トークンは 448.82 t/s で、現時点 Mac 最強の V4 Flash 体験。③ DGX Spark GB10 の generate は 13.75 t/s 止まり、M3 Ultra の 36.86 t/s に大差——これがユニファイドメモリの構造的優位です。
05. Mac Studio M3 Ultra で ds4 を動かす 5 ステップ
クリーン macOS から初トークンまで概ね 30〜45 分(律速は DL)。
- クローン + ビルド:
git clone https://github.com/antirez/ds4 && cd ds4 && make。macOS は Metal を自動選択、CUDA 不要。 - 重み DL:128GB は
./download_model.sh q2、256GB+ は./download_model.sh q4、mtpは speculative decoding 用オプション。 - スモーク:
./ds4 -p "Explain Redis streams in one paragraph."でロード / tokenizer / Metal を確認。 - サーバ起動:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192、既定で127.0.0.1:8080。 - 基準計測:12k トークン実コードで generate、prefill / generate t/s と GPU メモリピークを baseline 化。
06. KV キャッシュの永続化と 1M コンテキストの安全圏
ds4 で最も過小評価されている設計が KV キャッシュの SSD 永続化です。高速 NVMe があれば再 prefill 不要、再起動後でも 100k 文脈を数秒で復元できます。境界線は 3 つ。
- 満載 1M は GPU メモリ約 26 GB を消費(compressed indexer 単体で 22 GB)。128GB で 81 GB の q2 を積んだ状態で 1M はほぼ確実に OOM。
- 128GB は
--ctx 100000〜300000推奨。96GB で 250k 成功例もありますが、Chrome / Xcode を先に落とす前提です。 --kv-disk-space-mbは最小 8192、長セッションや並列利用なら 16384 以上。
--ctx 100000 から開始し、アクティビティモニタ で GPU と swap を見つつ 200k へ段階的に引き上げ、wired が物理上限に近づいたら即時巻き戻し。07. ds4-server を OpenAI バックエンドとして Cursor / opencode に接続
ds4-server は /v1/chat/completions、/v1/models、Function Calling を実装し、外形は完全な OpenAI 互換 endpoint です。Cursor / opencode / Continue は変更なしで接続できます。
- Cursor 設定で「カスタムモデルプロバイダ」を追加、
baseURL=http://127.0.0.1:8080/v1、apiKeyは空でない任意の文字列。 - モデル名は
deepseek-v4-flash(/v1/models返却 id)。 - リモートは Tailscale メッシュに参加させ、
baseURLをメッシュ IP に。8080 を公開してはいけません。 - ファイル編集、コマンド実行、git diff 取得などのツール呼び出しは Function Calling 経由で自動協調されます。
- デバッグは ds4-server のログを吐かせ、Cursor 側 payload と diff で tool schema 不整合を即特定。
08. 自前購入 vs 日次レンタル:損益分岐点はどこか
頂上構成 V4 Flash の自前購入は値段が重いです。
- MacBook Pro M5 Max 128GB:約 60 万円。q2 入門。
- Mac Studio M4 Ultra 256GB:約 120 万円。q4 中コンテキスト。
- Mac Studio M3 Ultra 512GB 最上位:約 220 万円。q4 + 長コンテキストを快適に。
一方、日次レンタル相場は M3 Ultra 512GB で 1 日数千円。判断ルールは 3 点。
- 年間 200 日が分岐点。これ未満ならレンタルが安く、減価償却リスクも回避。
- チーム共有でさらに有利。5 人 1 台で実効単価は 1/5。
- 世代交代リスク:M5 Ultra / M6 Max 発表の瞬間、最上位中古は 20〜30% 下落。レンタルは無傷。
09. macOS で踏みやすい 2 つの罠:CPU パニックと熱・電力の壁
antirez 氏が README で警告する 2 点を先に押さえます。
- CPU バックエンドはカーネルパニックします。現行 macOS の VM バグで再起動を強いられます。結論:macOS は必ず Metal、
make cpu禁止。CPU パスは Linux 上の正当性検査専用です。 - 熱と電力の壁:MacBook Pro は長時間フル負荷で 90°C 超え、ファン全開。電源接続、底面リフト、冷却台推奨。Mac Studio は機構上のエアフローが優秀で長時間に強いです。
もう 1 つ、推論中は Time Machine を走らせないこと。I/O 競合で KV 永続化スループットが激減し generate 速度が半減します。
10. ローカル推論 vs 商用 API:プライバシー・コンプライアンス・制御性
ローカル化の本当の動機は「データを端末から出さないこと」です。
- プライバシー:egress ゼロ。社内コード、ユーザーログ、医療・金融データが第三者サーバに渡らない。
- コンプライアンス:GDPR や業界規制が要求する「重みの所在」と「データ滞留」を自然に満たす。
- 制御性:API 側のレート、重み、プロトコルは随時変わる。ds4 + V4 Flash 固定 snapshot は再現性と監査性が担保。
- コスト予測性:トークン課金の請求スパイクを避け、固定費(償却・レンタル・電気代)構造で予算化が容易。
11. 1〜3 日レンタル日程:ds4 ビルドから Cursor 接続までの実務テーブル
「動かしてから判断したい」チーム向け 3 日プラン。
- 0 日目 夜:macdate.com で M3 Ultra 512GB を 1〜3 日窓で予約、ds4 / SSH 鍵 / Tailscale 認証を事前準備。
- 1 日目 午前:SSH →
brew install git→ ds4 クローン →make(Metal) →./download_model.sh q4(153 GiB、1 Gbps で 1.5〜3 時間)。 - 1 日目 午後:
ds4 -pでスモーク →ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384→ 12k トークンで baseline。 - 2 日目:Tailscale 参加 → Cursor / opencode の
baseURLをメッシュ IP に → 半日実作業で t/s と体感記録。 - 3 日目 午前:MTP を重ねて speculative decoding 測定、
--ctx 400000から 1M 限界を探索。 - 3 日目 午後:baseline CSV を export、
/tmp/ds4-kv削除、SSH 鍵と Tailscale を整理して返却。実稼働日数で精算。
数値 3 つ。① ds4 q4 は約 153 GiB、1 Gbps で 30〜40 分。② 1〜3 日レンタル 1 回で意思決定完結。③ 自前 220 万円との回収分岐点は年間 約 200 日。日次レンタル Mac 完全ガイド と Mac mini M4 レンタル vs 購入試算 もどうぞ。
12. 現方式の限界と、より良い選択肢
ds4 + DeepSeek V4 Flash のローカル運用は「最上位 Mac は消費機向けフロンティア MoE 推論の最良プラットフォーム」を受け入れることを意味しますが、3 つの制約は避けられません。
- ハードウェア底:q2 でも 96〜128 GB UMA、q4 は 256 GB、PRO は 512 GB が前提。
- メイン機の汚染:80 GiB 重み + 100 GB 超の永続 KV + 長時間高温運転がエディタ / Xcode / 会議の余裕を削る。
- 減価償却:M5 Ultra / M6 Max が近く、最上位の 3 年後中古はレンタル 1095 日分を確実に下回る。
より経済的なのは 日次レンタル の物理 Mac Studio M3 Ultra 512GB で ds4 を動かす構成です。q4 + 長コンテキスト最上位体験、独立帯域、隔離キーチェイン、専用 KV を手にしつつ、シャットダウンで減価償却から解放。Cursor / opencode は Tailscale 越しで「コードはローカル、推論はクラウド」、メイン機はクリーンに。モデルは ds4 + V4 Flash、推論ハードウェアは macdate.com の物理 Mac に任せる——現時点で最も実用的な布陣です。