2026 DeepSeek V4 Flash lokal auf dem Mac mit ds4 (DwarfStar 4):
antirez-Engine, q2/q4 Quantisierungsstufen und Mac 96/128/256/512 GB Benchmark-Tabelle

Entwickler, Forschende und datenschutzsensible Teams, die DeepSeek V4 Flash auf Apple Silicon ausführen wollen, stellen dieselben Fragen: Was ist die ds4-Engine, die antirez in einer Woche veröffentlicht hat? Wie viel Arbeitsspeicher benötigen q2 und q4 wirklich? Welche Token-pro-Sekunde-Werte erreicht ein 128GB MacBook Pro im Vergleich zu einem 512GB Mac Studio? Und ab wann lohnt sich Tagesmiete gegenüber dem Kauf einer voll ausgestatteten Maschine?

ds4 DwarfStar 4 führt DeepSeek V4 Flash lokal auf einem Mac aus, abstrakte Schaltkreis-Visualisierung

Im Mai 2026 veröffentlichte Redis-Erfinder Salvatore „antirez" Sanfilippo nach einer Woche Entwicklungszeit eine kleine C-Engine, die genau eine Sache erledigt: ds4 (DwarfStar 4) ist ein nativer Inferenz-Backend ausschließlich für DeepSeek V4 Flash. Es handelt sich nicht um einen generischen GGUF-Runner, keinen Wrapper um llama.cpp oder Ollama und kein Framework. Der Metal-Backend richtet sich an Macs ab 96 GB, der CUDA-Pfad ist speziell auf NVIDIA DGX Spark optimiert. Durch die persistente KV-Cache-Speicherung auf SSD und die eingebaute OpenAI-kompatible API ist ds4 das erste Projekt, das Frontier-LLM-Inferenz auf einem Consumer-Mac wirklich produktionsreif wirken lässt. Dieser Artikel richtet sich an drei Zielgruppen: unabhängige Entwickler, die DeepSeek V4 Flash auf Apple Silicon laufen lassen wollen, Power-User, die Cursor oder opencode auf ein lokales Backend umstellen möchten, sowie kleine Studios und datenschutzsensible Teams, die sich keinen sechsstelligen Anschaffungsbetrag leisten können oder wollen. Sie erhalten die Engineering-Philosophie, die q2 / q4 / MTP Quantisierungsbilanz, eine 96/128/256/512 GB Benchmark-Tabelle, eine fünfstufige Setup-Anleitung sowie den Kreuzungspunkt zwischen Eigentum und Miete.

01. Was ds4 ist: antirez' Ein-Wochen-Engine mit 11k Stars für DeepSeek V4

ds4 steht für DwarfStar 4 und stammt vom Autor von Redis, Sentinel und Cluster. Innerhalb weniger Tage nach Veröffentlichung erreichte das Repository über 11.000 GitHub-Stars, und der Grund ist nüchtern: Es ist derzeit die einzige Engine, die DeepSeek V4 Flash auf die praktische Linie „läuft tatsächlich auf einem 128 GB Mac" gehoben hat.

Das Projekt löst ein unbequemes Problem. DeepSeek V4 Flash ist eine MoE-Architektur mit rund 284 Milliarden Parametern und 165 GB originalen F16-Gewichten. llama.cpp und Ollama kämpfen noch mit vollständigem Support; antirez hingegen hat einen Metal- und CUDA-Grafausführer in reinem C neu geschrieben und mit eigenem asymmetrischem 2/8-Bit-GGUF kombiniert. Die Zeit bis zum ersten generierten Token reduziert sich damit faktisch auf zwei Befehle: make und ./ds4 -p.

02. ds4 vs llama.cpp / Ollama: die Wette auf „schmal und tief"

llama.cpp und Ollama sind breite Engines: eine Laufzeit für hundert Modellfamilien. ds4 wettet entgegengesetzt und konzentriert sich auf eine einzige Familie. Daraus ergeben sich drei messbare Vorteile.

  • Keine Abstraktionssteuer. Modellladen, Prompt-Rendering, KV-State und Tool-Calling sind direkt für V4 Flash geschrieben. Es gibt keinen Mehraufwand für „eine Schnittstelle, die wir vielleicht für andere Modelle brauchen".
  • Validierung gegen offizielle Logits. antirez vergleicht ds4 numerisch gegen Logits der DeepSeek-Referenzimplementierung. So bleibt die quantisierte Ausgabe nah am Original statt in subjektive Qualitätsabwertung zu driften.
  • Ein Repository, alles enthalten. CLI (ds4), OpenAI-kompatibler Server (ds4-server), eingebauter Coding-Agent sowie GGUF- und imatrix-Tools liegen alle im selben Repo. Klebercode entfällt.

antirez formuliert die Philosophie im README klar: Neue Modelle erscheinen schneller, als jede generische Laufzeit hinterher kommen kann. Daher konzentriert sich ds4 auf jeweils ein Modell und macht es auf einer hochwertigen Privatmaschine glaubwürdig nutzbar. Für Entwickler heißt das: Sie müssen nicht mehr 200 Issues lesen, nur damit V4 Flash auf einem Mac nicht abstürzt.

03. Drei Quantisierungsstufen: q2 (80,8 GiB) / q4 (153,3 GiB) / MTP (3,6 GiB)

Das Repository antirez/deepseek-v4-gguf auf Hugging Face stellt genau drei Dateien bereit, eine je Speicherklasse:

Quant-Stufe Dateigröße Strategie Mac-Speicher Typischer Einsatz
q2 (IQ2_XXS + Q2_K) 80,8 GiB Routing-Experts auf 2 Bit, Attention / Shared-Experts auf Q8_0 96 / 128 GB MacBook Pro M4/M5 Max als Einstieg
q4 (Q4_K Experts) 153,3 GiB Alle Experts auf Q4_K, HC / Compressor / Indexer auf F16 256 / 512 GB Mac Studio Ultra als Hauptinferenz
MTP (speculative) 3,6 GiB Zusatzmodell für Multi-Token-Prediction Optionale Ergänzung Mit q2 oder q4 kombinieren, um generate t/s zu steigern

Drei Zahlen, die Sie sich merken sollten. Erstens passen die 80,8 GiB q2-Gewichte plus ein vollständig gefüllter 26 GB KV-Cache nur knapp in einen 128 GB Mac; vor dem Start sollten Chrome und Xcode beendet werden. Zweitens belegen die q4-Gewichte 153,3 GiB, sodass auf einem 256 GB Mac nur wenige Dutzend GB für Kontext übrig bleiben. Drittens ist MTP eine 3,6 GiB große Option, die zusätzlich zu q2 oder q4 geladen wird und die Generierungsgeschwindigkeit per spekulativem Decoding spürbar erhöht.

04. Mac-Speicher-Benchmark: was 96, 128, 256 und 512 GB tatsächlich liefern

Die folgenden Werte stammen aus dem ds4-README und Community-Messungen, ausgedrückt in Tokens pro Sekunde (Prefill / Generate):

Hardware Quant Kontext Prefill t/s Generate t/s
MacBook Pro M5 Max 128GB q2 kurz 463,0 34,0
Mac Studio M3 Ultra 512GB q2 kurz 384,43 36,86
Mac Studio M3 Ultra 512GB q2 11.709 Token 250,11 27,39
Mac Studio M3 Ultra 512GB q4 kurz 78,95 35,50
Mac Studio M3 Ultra 512GB q4 12.018 Token 448,82 26,62
DGX Spark GB10 128GB (Referenz) q2 7.047 Token 343,81 13,75

Drei Erkenntnisse. Ein 128 GB MacBook Pro mit M5 Max erreicht bei q2 und kurzem Prompt bereits 463 t/s Prefill, ein für ein Notebook ungewöhnlich hoher Wert. Ein 512 GB M3 Ultra mit q4 auf einem 12k-Token-Prompt liefert 448,82 t/s Prefill, das stärkste V4-Flash-Erlebnis, das man heute in einem einzigen Mac kaufen kann. Und der DGX Spark GB10 generiert nur mit 13,75 t/s, deutlich hinter den 36,86 t/s des M3 Ultra. Das ist der strukturelle Vorteil des Apple-Silicon-Unified-Memory bei MoE-Inferenz.

05. In fünf Schritten zu ds4 auf einem Mac Studio M3 Ultra

Der kürzeste Pfad von einer frischen macOS-Installation bis zum ersten generierten Token dauert rund 30 bis 45 Minuten; die Wartezeit dominiert der Modelldownload.

  1. Klonen und kompilieren. git clone https://github.com/antirez/ds4 && cd ds4 && make. macOS wählt Metal automatisch; eine CUDA-Toolchain wird nicht benötigt.
  2. Gewichte laden. Auf 128 GB Maschinen ./download_model.sh q2, ab 256 GB ./download_model.sh q4. Optional ./download_model.sh mtp für spekulatives Decoding.
  3. Rauchtest. ./ds4 -p "Explain Redis streams in one paragraph." prüft Loader, Tokenizer und Metal-Backend in einem Rutsch.
  4. OpenAI-kompatiblen Server starten. ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 lauscht standardmäßig auf 127.0.0.1:8080.
  5. Baseline aufnehmen. Ein echter 12k-Token-Engineering-Prompt liefert Prefill- und Generate-t/s sowie GPU-Speicherspitze als Referenz für spätere Optimierungen.
# 1. Klonen + Kompilieren (Metal) $ git clone https://github.com/antirez/ds4 && cd ds4 && make # 2. Gewichte herunterladen (128GB Mac: q2) $ ./download_model.sh q2 # 3. OpenAI-kompatiblen Server mit persistentem KV starten $ ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 # 4. Verifizieren $ curl -s http://127.0.0.1:8080/v1/models | jq .

06. KV-Cache auf SSD und der sichere Bereich des 1M-Kontextfensters

Die am stärksten unterschätzte Designentscheidung in ds4 ist die persistente KV-Cache-Ablage auf SSD. Mit der schnellen NVMe-SSD eines Macs entfällt zwischen Sitzungen das vollständige Prefill, und 100k Token an Kontext stehen nach einem Server-Neustart innerhalb von Sekunden wieder zur Verfügung. Drei Grenzwerte sollten Sie respektieren.

  • Ein vollständiger 1M-Kontext verbraucht rund 26 GB GPU-Speicher, allein der komprimierte Indexer ca. 22 GB. Auf einem 128 GB Mac mit bereits geladenen 81 GB q2-Gewichten führt 1M faktisch immer zu OOM.
  • 128 GB Maschinen starten mit --ctx 100000–300000. In der Community gibt es 250k-Kontext-Berichte auf 96 GB Macs, allerdings nur nach Beendigung speicherhungriger Prozesse wie Chrome oder Xcode.
  • --kv-disk-space-mb sollte mindestens 8192 betragen und für lange oder mehrbenutzerfähige Sitzungen auf 16384 oder mehr steigen.
Praxisempfehlung: Auf einem 128 GB MacBook Pro mit --ctx 100000 beginnen, GPU- und Wired-Memory in der Aktivitätsanzeige beobachten, dann schrittweise auf 200k erhöhen. Wenn Wired-Memory den physikalischen Grenzwert berührt, sofort zurückrollen, sonst friert das System ein.

07. ds4-server als OpenAI-Backend für Cursor und opencode

ds4-server implementiert /v1/chat/completions, /v1/models und das OpenAI-Function-Calling-Protokoll. Nach außen ist er ein vollwertiger OpenAI-kompatibler Endpunkt; Cursor, opencode und Continue lassen sich ohne Codeänderungen anbinden.

  1. In Cursor unter Einstellungen einen neuen Custom-Model-Provider anlegen. baseURL auf http://127.0.0.1:8080/v1 setzen, beim apiKey reicht eine beliebige nichtleere Zeichenkette.
  2. Als Modellname deepseek-v4-flash wählen (die von /v1/models zurückgegebene ID).
  3. Für den Fernzugriff den Mac Studio per Tailscale in ein Mesh einbinden und baseURL auf die Mesh-IP setzen. Port 8080 niemals ins öffentliche Internet exponieren.
  4. Tool-Calls für Datei-Edits, Befehlsausführung oder git-diff laufen über Function Calling; der eingebaute Coding-Agent von ds4 hat den Pfad end-to-end validiert.
  5. Beim Debuggen ds4-server-Requests in eine Datei loggen und mit Cursor-Payloads vergleichen. Tool-Schema-Abweichungen fallen sofort auf.

08. Kauf eines voll ausgestatteten Mac vs Tagesmiete: der Break-Even

Wer V4 Flash in Topausstattung will, aber nicht sechsstellig vorab investieren mag, denkt zuerst an einen Kauf. Die Preisliste ist nicht zimperlich:

  • MacBook Pro M5 Max 128GB: rund 4.500 EUR, läuft q2 und ist der Einstieg.
  • Mac Studio M4 Ultra 256GB: rund 9.000 EUR, q4 mit moderatem Kontext.
  • Mac Studio M3 Ultra 512GB als Topausstattung: rund 16.000 EUR, die einzige Konfiguration, die q4 mit langem Kontext komfortabel betreibt.

Die Tagesmiete eines 512 GB Mac Studio M3 Ultra liegt im Bereich weniger Dutzend Euro pro Tag. Drei Faustregeln:

  • Break-Even bei rund 200 Nutzungstagen pro Jahr. Darunter ist Miete günstiger und Sie tragen keine Wertverlustrisiken.
  • Team-Sharing potenziert die Ersparnis. Fünf Engineers, die sich einen gemieteten Studio teilen, senken die effektiven Kosten erneut um den Faktor fünf.
  • Hardware-Refresh-Risiko ist real. Bei Vorstellung von M5 Ultra oder M6 Max bricht der Restwert eines Top-Studios über Nacht um 20 bis 30 Prozent ein. Miete übernimmt dieses Risiko für Sie.

09. Zwei reale macOS-Fallstricke: CPU-Panic und thermisches Limit

antirez warnt im README vor zwei Stolperfallen, beide hart erkauft:

  • Der CPU-Backend ruft auf macOS Kernel-Panics hervor. Ein aktueller VM-Bug in macOS triggert beim ds4-CPU-Pfad einen Panic. Die saubere Schlussfolgerung lautet: auf macOS immer Metal nutzen und niemals make cpu aufrufen. Der CPU-Pfad ist nur für Korrektheitsprüfungen unter Linux gedacht.
  • Temperatur und Leistungswand greifen schnell. Ein MacBook Pro unter dauerhafter Inferenz erreicht 90 °C bei voll laufenden Lüftern. Netzbetrieb, erhöhter Aufstellwinkel und ein Kühlpad sind sinnvoll. Ein Mac Studio mit seinen Strömungskanälen läuft im Dauerbetrieb deutlich stabiler als jedes Notebook.

Ein weiterer leicht übersehener Punkt: Lassen Sie während laufender Inferenz keine Time-Machine-Sicherung mitlaufen. Der I/O-Wettstreit drückt den KV-Cache-Durchsatz und halbiert die Generate-Geschwindigkeit innerhalb von Sekunden.

10. Lokale Inferenz vs kommerzielle API: Datenschutz, DSGVO und Kontrolle

Die eigentliche Motivation, V4 Flash auf die eigene Hardware zu holen, ist selten Kostenersparnis; es geht darum, Daten auf der Maschine zu behalten. Im Vergleich zu gehosteten APIs gewinnen Sie:

  • Datenschutz. Kein Egress. Firmen-Quellcode, Nutzerprotokolle, medizinische oder finanzielle Daten verlassen die Maschine nicht.
  • DSGVO-Konformität. Vorgaben zu Modellgewichtsstandort und Datenresidenz erfüllt eine lokale Lösung naturgemäß; auch interne Compliance-Richtlinien werden vereinfacht abgedeckt.
  • Kontrolle. Anbieter ändern Rate-Limits, Modellgewichte und Protokolle nach Belieben. Ein gepinntes ds4-plus-V4-Flash-Snapshot bleibt reproduzierbar und auditierbar.
  • Berechenbare Kosten. Hosted-APIs rechnen per Token ab; Langkontext-Agents erzeugen Rechnungsspitzen. Lokale Inferenz besteht aus Abschreibung, Miete und Strom — Größen, die ein Finanzteam wirklich budgetieren kann.

11. 1–3 Tage Mietplan vom ds4-Build bis zur Cursor-Integration

Der folgende Dreitagesplan eignet sich für ein kleines Team, das ds4 ausprobieren möchte, bevor Hardware-Entscheidungen fallen:

  1. Tag 0, Abend. Bei macdate.com ein Ticket für einen Mac Studio M3 Ultra 512GB mit 1–3-Tages-Fenster anlegen. ds4-Fork, SSH-Schlüssel und Tailscale-Zugangsdaten vorbereiten.
  2. Tag 1, Vormittag. Per SSH einloggen, git via Homebrew installieren, ds4 klonen, mit make gegen Metal bauen, ./download_model.sh q4 starten (153 GiB; 1,5–3 Stunden bei 1 Gbit/s).
  3. Tag 1, Nachmittag. ds4 -p als Rauchtest, dann ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384. Mit einem 12k-Token-Workload Baselines aufnehmen.
  4. Tag 2. Per Tailscale in das Mesh einbinden, Cursor und opencode auf die Mesh-IP umstellen, einen halben Tag echte Codierarbeit erledigen und t/s sowie gefühlte Latenz protokollieren.
  5. Tag 3, Vormittag. MTP für spekulatives Decoding zuschalten und Generate-Gewinne vergleichen; die 1M-Grenze ausgehend von --ctx 400000 ausloten.
  6. Tag 3, Nachmittag. Benchmark-CSV exportieren, /tmp/ds4-kv löschen, SSH-Schlüssel und Tailscale-Knoten entfernen, Instanz freigeben. Abgerechnet wird nach tatsächlichen Tagen.

Drei zitierfähige Zahlen. Erstens umfasst der q4-Download rund 153 GiB, das entspricht 30–40 Minuten an einer 1-Gbit-Leitung. Zweitens genügt eine einzige 1–3-Tages-Miete für den vollen „erst testen, dann entscheiden"-Zyklus. Drittens liegt der Kreuzungspunkt Miete vs Kauf bei etwa 200 aktiven Tagen pro Jahr. Lesen Sie ergänzend den Leitfaden zur täglichen Mac-Miete und das Mac mini M4 Miete-vs-Kauf-Kostenmodell.

12. Ehrliche Grenzen und die bessere Alternative

Wer ds4 + DeepSeek V4 Flash lokal betreibt, akzeptiert den Konsens, dass ein voll ausgestatteter Mac 2026 die beste Consumer-Plattform für Frontier-MoE-Inferenz ist. Drei Einschränkungen bleiben unausweichlich:

  • Hardware-Untergrenze. Schon q2 verlangt 96–128 GB Unified Memory, q4 braucht 256 GB, PRO will 512 GB. Keine dieser Konfigurationen ist Standardware im MacBook-Sortiment.
  • Verschmutzung der Arbeitsmaschine. 80 GiB Gewichte, mehr als 100 GB persistenter KV-Cache und Dauerhitze entziehen Editor, Xcode und Videokonferenzen Spielraum, sobald sie auf der Haupt-Mac mitlaufen.
  • Abschreibungsrisiko. M5 Ultra und M6 Max sind absehbar. Der Drei-Jahres-Restwert eines Top-Studios fällt deutlich unter 1.095 Tage Mietkosten.

Die saubere Kombination besteht darin, ds4 + DeepSeek V4 Flash auf einem tageweise gemieteten physischen Mac Studio M3 Ultra 512GB zu betreiben. Sie erhalten das volle q4-plus-Langkontext-Erlebnis, eigene Bandbreite, isolierte Schlüsselbunde und ein dediziertes KV-Verzeichnis. Sobald Sie herunterfahren, übernimmt nicht mehr Sie das Abschreibungsproblem. Cursor und opencode erreichen die Box per Tailscale; Sie programmieren lokal und führen Inferenz in der Cloud aus, während Ihr Arbeits-Mac sauber bleibt. Wählen Sie ds4 + V4 Flash für das Modell und lassen Sie macdate.com die physische Mac-Hardware bereitstellen, die den Betrieb langweilig solide macht.

Weiterführende Lektüre