ds4 2026 Mac で DeepSeek V4 Flash をローカル推論する完全ガイド | antirez 製エンジン + 128/256/512GB ベンチ + Mac Studio 日次レンタル

2026 年 5 月、Redis 作者 antirez 氏が一週間で公開した ds4（DwarfStar 4）は、DeepSeek V4 Flash 専用の C 製ローカル推論エンジンです。Metal は 96GB Mac から、CUDA は DGX Spark まで、KV を SSD に永続化、OpenAI 互換 API を内蔵。本記事は最先端 OSS を Mac で試したい開発者、Cursor / opencode をローカル化したいユーザー、頂上構成 Mac を即決できない小規模チーム向けに、設計思想、q2 / q4 / MTP の量子化、96〜512GB Mac の t/s 実測表、5 ステップ手順、自前 vs 日次レンタルの分岐点まで一気に整理します。

目次 · TABLE OF CONTENTS

01 ds4 とは何か：antirez が一週間で書き、Star 1 万超えの V4 Flash 専用エンジン
02 ds4 vs llama.cpp / Ollama：「狭く深く」という工学的賭け
03 3 階層の量子化レシート：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）
04 Mac メモリ別実測対照表：96 / 128 / 256 / 512 GB で何が動くか
05 Mac Studio M3 Ultra で ds4 を動かす 5 ステップ
06 KV キャッシュの永続化と 1M コンテキストの安全圏
07 ds4-server を OpenAI バックエンドとして Cursor / opencode に接続
08 自前購入 vs 日次レンタル：損益分岐点はどこか
09 macOS で踏みやすい 2 つの罠：CPU パニックと熱・電力の壁
10 ローカル推論 vs 商用 API：プライバシー・コンプライアンス・制御性
11 1〜3 日レンタル日程：ds4 ビルドから Cursor 接続までの実務テーブル
12 現方式の限界と、より良い選択肢

01. ds4 とは何か：antirez が一週間で書き、Star 1 万超えの V4 Flash 専用エンジン

ds4 の正式名称は DwarfStar 4、作者は Redis 原作者 Salvatore Sanfilippo（antirez）氏です。公開から数日で GitHub Star は 11,000 超え。理由は単純で、DeepSeek V4 Flash を「128GB Mac で実用的に動く」ラインまで押し上げた唯一のローカルエンジンだからです。V4 Flash は MoE 構造・約 284B パラメータ・F16 で 165GB ですが、antirez 氏は純 C で Metal / CUDA を書き直し、自製の 非対称 2/8-bit GGUF と組み合わせて、初回トークン出力までを「make & ./ds4 -p」の 2 ステップに収めました。

02. ds4 vs llama.cpp / Ollama：「狭く深く」という工学的賭け

llama.cpp と Ollama は 1 ランタイムで 100 モデルを支える「広い」設計、ds4 は逆に 1 ファミリーへ集中投資する設計です。差は 3 点。

抽象化の税金がない：モデル読み込み、プロンプト描画、KV、ツール呼び出しを V4 Flash 専用に直書き。
公式 logits と整合：DeepSeek 公式実装の logits と数値突き合わせ済みで、量子化劣化を回避。
ワンストップ：CLI、OpenAI 互換サーバ、coding agent、GGUF / imatrix ツールが同一リポジトリに揃います。

antirez 氏曰く「新モデルが速すぎて汎用ランタイムは追走するだけ。ds4 は 1 モデルに集中し、ハイエンド個人機で信頼できる体験を目指す」。実利は単純で、V4 Flash を Mac で安定動作させるために Issue を大量に漁る必要がなくなります。

03. 3 階層の量子化レシート：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

Hugging Face 上の antirez/deepseek-v4-gguf リポジトリは、メモリ階層に対応した 3 ファイルを公開しています。

量子化階層	ファイル容量	主要戦略	対象 Mac メモリ	想定用途
q2（IQ2_XXS + Q2_K）	80.8 GiB	ルーティング expert を 2bit、注意機構 / 共有 expert は Q8_0	96 / 128 GB	MacBook Pro M4/M5 Max エントリー
q4（Q4_K Experts）	153.3 GiB	全 expert を Q4_K、HC / Compressor / Indexer は F16	256 / 512 GB	Mac Studio Ultra の主力推論
MTP（speculative）	3.6 GiB	補助的な multi-token prediction	オプション追加	q2 / q4 と組合せて generate を加速

記憶ポイント 3 つ。① 80.8 GiB の q2 + 満載 26 GB KV は 128GB Mac で「ぎりぎり」、Chrome / Xcode を先に落としてください。② q4 は 153.3 GiB、256GB 機で余裕は数十 GB しか残りません。③ MTP は +3.6 GiB のオプションで、q2 / q4 に重ねるだけで generate を加速します。

04. Mac メモリ別実測対照表：96 / 128 / 256 / 512 GB で何が動くか

以下の数値は ds4 リポジトリの README とコミュニティ実測から整理した tokens/s（prefill / generate）です。エントリーから頂上構成まで、階段状に並べてあります。

ハードウェア	量子化	コンテキスト	Prefill t/s	Generate t/s
MacBook Pro M5 Max 128GB	q2	短文	463.0	34.0
Mac Studio M3 Ultra 512GB	q2	短文	384.43	36.86
Mac Studio M3 Ultra 512GB	q2	11,709 tokens	250.11	27.39
Mac Studio M3 Ultra 512GB	q4	短文	78.95	35.50
Mac Studio M3 Ultra 512GB	q4	12,018 tokens	448.82	26.62
DGX Spark GB10 128GB（参考）	q2	7,047 tokens	343.81	13.75

硬数値 3 つ。① M5 Max 128GB でも q2 短文 prefill は 463 t/s、ノートとしては破格。② 512GB M3 Ultra で q4 + 12k トークンは 448.82 t/s で、現時点 Mac 最強の V4 Flash 体験。③ DGX Spark GB10 の generate は 13.75 t/s 止まり、M3 Ultra の 36.86 t/s に大差——これがユニファイドメモリの構造的優位です。

05. Mac Studio M3 Ultra で ds4 を動かす 5 ステップ

クリーン macOS から初トークンまで概ね 30〜45 分（律速は DL）。

クローン + ビルド：git clone https://github.com/antirez/ds4 && cd ds4 && make。macOS は Metal を自動選択、CUDA 不要。
重み DL：128GB は ./download_model.sh q2、256GB+ は ./download_model.sh q4、mtp は speculative decoding 用オプション。
スモーク：./ds4 -p "Explain Redis streams in one paragraph." でロード / tokenizer / Metal を確認。
サーバ起動：./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192、既定で 127.0.0.1:8080。
基準計測：12k トークン実コードで generate、prefill / generate t/s と GPU メモリピークを baseline 化。

# 1. クローンとビルド（Metal） $ git clone https://github.com/antirez/ds4 && cd ds4 && make # 2. 重みのダウンロード（128GB Mac は q2 を選択） $ ./download_model.sh q2 # 3. OpenAI 互換サーバ + KV 永続化を起動 $ ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 # 4. 動作確認 $ curl -s http://127.0.0.1:8080/v1/models | jq .

06. KV キャッシュの永続化と 1M コンテキストの安全圏

ds4 で最も過小評価されている設計が KV キャッシュの SSD 永続化です。高速 NVMe があれば再 prefill 不要、再起動後でも 100k 文脈を数秒で復元できます。境界線は 3 つ。

満載 1M は GPU メモリ約 26 GB を消費（compressed indexer 単体で 22 GB）。128GB で 81 GB の q2 を積んだ状態で 1M はほぼ確実に OOM。
128GB は --ctx 100000〜300000 推奨。96GB で 250k 成功例もありますが、Chrome / Xcode を先に落とす前提です。
--kv-disk-space-mb は最小 8192、長セッションや並列利用なら 16384 以上。

実運用のコツ：128GB MacBook Pro は --ctx 100000 から開始し、アクティビティモニタ で GPU と swap を見つつ 200k へ段階的に引き上げ、wired が物理上限に近づいたら即時巻き戻し。

07. ds4-server を OpenAI バックエンドとして Cursor / opencode に接続

ds4-server は /v1/chat/completions、/v1/models、Function Calling を実装し、外形は完全な OpenAI 互換 endpoint です。Cursor / opencode / Continue は変更なしで接続できます。

Cursor 設定で「カスタムモデルプロバイダ」を追加、baseURL = http://127.0.0.1:8080/v1、apiKey は空でない任意の文字列。
モデル名は deepseek-v4-flash（/v1/models 返却 id）。
リモートは Tailscale メッシュに参加させ、baseURL をメッシュ IP に。8080 を公開してはいけません。
ファイル編集、コマンド実行、git diff 取得などのツール呼び出しは Function Calling 経由で自動協調されます。
デバッグは ds4-server のログを吐かせ、Cursor 側 payload と diff で tool schema 不整合を即特定。

08. 自前購入 vs 日次レンタル：損益分岐点はどこか

頂上構成 V4 Flash の自前購入は値段が重いです。

MacBook Pro M5 Max 128GB：約 60 万円。q2 入門。
Mac Studio M4 Ultra 256GB：約 120 万円。q4 中コンテキスト。
Mac Studio M3 Ultra 512GB 最上位：約 220 万円。q4 + 長コンテキストを快適に。

一方、日次レンタル相場は M3 Ultra 512GB で 1 日数千円。判断ルールは 3 点。

年間 200 日が分岐点。これ未満ならレンタルが安く、減価償却リスクも回避。
チーム共有でさらに有利。5 人 1 台で実効単価は 1/5。
世代交代リスク：M5 Ultra / M6 Max 発表の瞬間、最上位中古は 20〜30% 下落。レンタルは無傷。

09. macOS で踏みやすい 2 つの罠：CPU パニックと熱・電力の壁

antirez 氏が README で警告する 2 点を先に押さえます。

CPU バックエンドはカーネルパニックします。現行 macOS の VM バグで再起動を強いられます。結論：macOS は必ず Metal、make cpu 禁止。CPU パスは Linux 上の正当性検査専用です。
熱と電力の壁：MacBook Pro は長時間フル負荷で 90°C 超え、ファン全開。電源接続、底面リフト、冷却台推奨。Mac Studio は機構上のエアフローが優秀で長時間に強いです。

もう 1 つ、推論中は Time Machine を走らせないこと。I/O 競合で KV 永続化スループットが激減し generate 速度が半減します。

10. ローカル推論 vs 商用 API：プライバシー・コンプライアンス・制御性

ローカル化の本当の動機は「データを端末から出さないこと」です。

プライバシー：egress ゼロ。社内コード、ユーザーログ、医療・金融データが第三者サーバに渡らない。
コンプライアンス：GDPR や業界規制が要求する「重みの所在」と「データ滞留」を自然に満たす。
制御性：API 側のレート、重み、プロトコルは随時変わる。ds4 + V4 Flash 固定 snapshot は再現性と監査性が担保。
コスト予測性：トークン課金の請求スパイクを避け、固定費（償却・レンタル・電気代）構造で予算化が容易。

11. 1〜3 日レンタル日程：ds4 ビルドから Cursor 接続までの実務テーブル

「動かしてから判断したい」チーム向け 3 日プラン。

0 日目夜：macdate.com で M3 Ultra 512GB を 1〜3 日窓で予約、ds4 / SSH 鍵 / Tailscale 認証を事前準備。
1 日目午前：SSH → brew install git → ds4 クローン → make（Metal） → ./download_model.sh q4（153 GiB、1 Gbps で 1.5〜3 時間）。
1 日目午後：ds4 -p でスモーク → ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384 → 12k トークンで baseline。
2 日目：Tailscale 参加 → Cursor / opencode の baseURL をメッシュ IP に → 半日実作業で t/s と体感記録。
3 日目午前：MTP を重ねて speculative decoding 測定、--ctx 400000 から 1M 限界を探索。
3 日目午後：baseline CSV を export、/tmp/ds4-kv 削除、SSH 鍵と Tailscale を整理して返却。実稼働日数で精算。

数値 3 つ。① ds4 q4 は約 153 GiB、1 Gbps で 30〜40 分。② 1〜3 日レンタル 1 回で意思決定完結。③ 自前 220 万円との回収分岐点は年間 約 200 日。日次レンタル Mac 完全ガイドと Mac mini M4 レンタル vs 購入試算もどうぞ。

12. 現方式の限界と、より良い選択肢

ds4 + DeepSeek V4 Flash のローカル運用は「最上位 Mac は消費機向けフロンティア MoE 推論の最良プラットフォーム」を受け入れることを意味しますが、3 つの制約は避けられません。

ハードウェア底：q2 でも 96〜128 GB UMA、q4 は 256 GB、PRO は 512 GB が前提。
メイン機の汚染：80 GiB 重み + 100 GB 超の永続 KV + 長時間高温運転がエディタ / Xcode / 会議の余裕を削る。
減価償却：M5 Ultra / M6 Max が近く、最上位の 3 年後中古はレンタル 1095 日分を確実に下回る。

より経済的なのは日次レンタルの物理 Mac Studio M3 Ultra 512GB で ds4 を動かす構成です。q4 + 長コンテキスト最上位体験、独立帯域、隔離キーチェイン、専用 KV を手にしつつ、シャットダウンで減価償却から解放。Cursor / opencode は Tailscale 越しで「コードはローカル、推論はクラウド」、メイン機はクリーンに。モデルは ds4 + V4 Flash、推論ハードウェアは macdate.com の物理 Mac に任せる——現時点で最も実用的な布陣です。

2026 年 ds4（DwarfStar 4）で DeepSeek V4 Flash を Mac ローカル推論する完全ガイド：
antirez 製エンジン、q2/q4 量子化階層と Mac 96/128/256/512 GB 実測対照表

01. ds4 とは何か：antirez が一週間で書き、Star 1 万超えの V4 Flash 専用エンジン

02. ds4 vs llama.cpp / Ollama：「狭く深く」という工学的賭け

03. 3 階層の量子化レシート：q2（80.8 GiB）/ q4（153.3 GiB）/ MTP（3.6 GiB）

04. Mac メモリ別実測対照表：96 / 128 / 256 / 512 GB で何が動くか

05. Mac Studio M3 Ultra で ds4 を動かす 5 ステップ

06. KV キャッシュの永続化と 1M コンテキストの安全圏

07. ds4-server を OpenAI バックエンドとして Cursor / opencode に接続

08. 自前購入 vs 日次レンタル：損益分岐点はどこか

09. macOS で踏みやすい 2 つの罠：CPU パニックと熱・電力の壁

10. ローカル推論 vs 商用 API：プライバシー・コンプライアンス・制御性

11. 1〜3 日レンタル日程：ds4 ビルドから Cursor 接続までの実務テーブル

12. 現方式の限界と、より良い選択肢

関連記事