2026 ds4(DwarfStar 4)로 DeepSeek V4 Flash 를 Mac 로컬 추론하는 완전 가이드:
antirez 엔진, q2/q4 양자화 계층과 Mac 96/128/256/512 GB 벤치 대조표

Mac 에서 DeepSeek V4 Flash 를 돌리려는 개발자, 연구자, 프라이버시 민감 팀이 가장 궁금해하는 질문 — antirez 가 일주일 만에 내놓은 ds4 의 정체, q2/q4 양자화가 요구하는 메모리, 128GB MacBook Pro 와 512GB Mac Studio 의 t/s 차이, 그리고 풀스펙 자가 구매와 일일 대여의 손익 분기점을 한 번에 정리합니다.

ds4 DwarfStar 4 가 Mac 에서 DeepSeek V4 Flash 를 로컬 추론하는 추상 일러스트

2026 년 5 월, Redis 의 아버지 antirez 가 일주일 만에 공개한 ds4(DwarfStar 4)는 DeepSeek V4 Flash 전용 C 로컬 추론 엔진입니다. Metal 백엔드는 96GB MacBook 부터, CUDA 백엔드는 DGX Spark 까지 커버하며, KV 캐시를 SSD 에 영속화하고 OpenAI 호환 API 를 내장합니다. 이 글은 Mac 에서 프런티어 OSS 모델을 시도하려는 독립 개발자, Cursor / opencode 를 로컬 백엔드로 전환하려는 파워 유저, 그리고 천만 원대 풀스펙 Mac Studio 를 즉시 결제하기 어려운 소규모 스튜디오와 프라이버시 민감 팀을 위한 가이드입니다. 본문은 설계 철학, q2 / q4 / MTP 양자화 명세, 96 / 128 / 256 / 512GB Mac 의 t/s 벤치, 5 단계 셋업, 자가 구매 vs 일일 대여 분기점까지 한 번에 다룹니다.

01. ds4 의 정체: antirez 가 일주일 만에 만든 Star 1 만 + V4 Flash 전용 엔진

ds4 의 정식 명칭은 DwarfStar 4, 작자는 Redis / Sentinel / Cluster 원작자 Salvatore Sanfilippo(antirez) 입니다. 공개 며칠 만에 GitHub Star 가 11,000 개를 넘은 이유는 단순합니다 — 현재 유일하게 DeepSeek V4 Flash 를 「128GB Mac 에서 실제로 돌아가는」 라인까지 끌어올린 로컬 엔진이기 때문입니다. V4 Flash 는 MoE 구조, 약 284B 파라미터, F16 가중치 165GB 규모인데, antirez 가 순수 C 로 Metal / CUDA 그래프 실행기를 다시 쓰고 자체 비대칭 2/8-bit GGUF 와 결합해, 첫 토큰 출력까지를 make & ./ds4 -p 두 단계로 줄였습니다.

02. ds4 vs llama.cpp / Ollama: 「좁고 깊게」 라는 공학적 베팅

llama.cpp 와 Ollama 는 한 런타임으로 100 개 모델 패밀리를 떠받치는 「넓은」 설계입니다. ds4 는 반대로 한 패밀리에만 집중 투자합니다. 차이는 3 가지로 드러납니다.

  • 추상화 비용 0: 모델 로딩, 프롬프트 렌더링, KV, 툴 호출이 모두 V4 Flash 전용으로 직접 작성됨.
  • 공식 logits 정렬: DeepSeek 공식 구현에서 logits 를 추출해 ds4 출력과 수치적으로 맞춤. 「양자화 후 멍청해지는」 체감 열화를 회피.
  • 원스톱 구성: CLI, OpenAI 호환 서버, 코딩 Agent, GGUF / imatrix 도구가 한 리포에 모두 들어 있음.

antirez 는 README 에서 「새 모델이 너무 빠르게 나오니 범용 런타임은 늘 따라가기 바쁘다. ds4 는 한 모델만 잡고, 고급 개인 머신에서 신뢰 가능한 경험을 노린다」 고 명시했습니다. 개발자의 실리는 명확합니다 — V4 Flash 를 Mac 에서 안정 구동하려고 이슈 200 개를 뒤질 필요가 없어집니다.

03. 양자화 3 계층: q2(80.8 GiB) / q4(153.3 GiB) / MTP(3.6 GiB)

Hugging Face 의 antirez/deepseek-v4-gguf 리포는 메모리 계층에 맞춘 3 개 파일을 제공합니다.

양자화 계층 파일 크기 전략 대상 Mac 메모리 일반 용도
q2(IQ2_XXS + Q2_K) 80.8 GiB 라우팅 expert 2bit, 어텐션 / 공유 expert Q8_0 96 / 128 GB MacBook Pro M4/M5 Max 입문
q4(Q4_K Experts) 153.3 GiB 모든 expert Q4_K, HC / Compressor / Indexer F16 256 / 512 GB Mac Studio Ultra 주력 추론
MTP(speculative) 3.6 GiB 보조 multi-token prediction 옵션 추가 q2 / q4 와 결합해 generate 가속

꼭 기억할 3 가지. ① 80.8 GiB q2 가중치 + 만적 26 GB KV 는 128GB Mac 에서 「딱 맞는」 상태이며, Chrome / Xcode 를 먼저 종료해야 합니다. ② q4 는 153.3 GiB, 256GB 머신에서 컨텍스트용 잔여 메모리는 수십 GB 에 불과합니다. ③ MTP 는 3.6 GiB 옵션이며, q2 / q4 위에 얹기만 해도 generate 체감 속도가 한 단계 올라갑니다.

04. Mac 메모리별 실측 벤치: 96 / 128 / 256 / 512 GB 어디까지 가능한가

아래는 ds4 README 와 커뮤니티 측정에서 정리한 tokens/s(prefill / generate) 수치입니다. 입문부터 풀스펙까지 계단식으로 배치했습니다.

하드웨어 양자화 컨텍스트 Prefill t/s Generate t/s
MacBook Pro M5 Max 128GB q2 단문 463.0 34.0
Mac Studio M3 Ultra 512GB q2 단문 384.43 36.86
Mac Studio M3 Ultra 512GB q2 11,709 tokens 250.11 27.39
Mac Studio M3 Ultra 512GB q4 단문 78.95 35.50
Mac Studio M3 Ultra 512GB q4 12,018 tokens 448.82 26.62
DGX Spark GB10 128GB(참고) q2 7,047 tokens 343.81 13.75

꼭 기억할 3 가지 수치. ① M5 Max 128GB 노트북도 q2 단문 prefill 이 463 t/s, 노트북 기준 기대치를 한참 뛰어넘습니다. ② 512GB M3 Ultra 에서 q4 + 12k 토큰 prefill 은 448.82 t/s, 현재 Mac 에서 살 수 있는 최강 V4 Flash 경험입니다. ③ DGX Spark GB10 generate 는 13.75 t/s 에 그쳐 M3 Ultra 의 36.86 t/s 와 큰 격차 — 이것이 통합 메모리의 구조적 우위입니다.

05. Mac Studio M3 Ultra 에서 ds4 를 띄우는 5 단계

클린 macOS 에서 첫 토큰까지 최단 경로는 약 30~45 분(모델 다운로드가 율속).

  1. 클론 + 빌드: git clone https://github.com/antirez/ds4 && cd ds4 && make. macOS 는 Metal 백엔드 자동 선택, CUDA 툴체인 불필요.
  2. 가중치 다운로드: 128GB 는 ./download_model.sh q2, 256GB 이상은 ./download_model.sh q4. ./download_model.sh mtp 는 speculative decoding 옵션.
  3. 스모크 테스트: ./ds4 -p "Explain Redis streams in one paragraph." 로 로딩 / 토크나이저 / Metal 백엔드 동작 확인.
  4. OpenAI 호환 서버: ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192. 기본 127.0.0.1:8080 리슨.
  5. 기준선 측정: 12k 토큰 실코드로 generate, prefill / generate t/s 와 GPU 메모리 피크를 baseline 기록.
# 1. 클론 + 빌드(Metal) $ git clone https://github.com/antirez/ds4 && cd ds4 && make # 2. 가중치 다운로드(128GB Mac 은 q2) $ ./download_model.sh q2 # 3. OpenAI 호환 서버 + KV 영속화 $ ./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192 # 4. 검증 $ curl -s http://127.0.0.1:8080/v1/models | jq .

06. KV 캐시 영속화와 1M 컨텍스트 안전 구간

ds4 에서 가장 저평가된 설계가 KV 캐시 SSD 영속화입니다. 빠른 NVMe SSD 가 있는 Mac 에서는 세션 간 재 prefill 불필요, 서버 재시작 후에도 100k 토큰 컨텍스트를 수 초 안에 복원합니다. 경계선 3 가지.

  • 풀 1M 컨텍스트는 GPU 메모리 약 26 GB 를 소비(compressed indexer 만 22 GB). 128GB 머신에서 81 GB q2 가중치가 이미 적재된 상태로 1M 강행은 거의 확실히 OOM.
  • 128GB 권장 --ctx 100000~300000. 96GB Mac 에서 250k 성공 사례도 있으나, Chrome / Xcode 등 무거운 프로세스를 먼저 종료해야 합니다.
  • --kv-disk-space-mb 는 최소 8192(8 GB), 장기 세션 / 다중 사용자는 16384 이상.
실측 팁: 128GB MacBook Pro 는 --ctx 100000 으로 시작해 활성 상태 보기 의 GPU 메모리와 swap 을 모니터링하며 200k 로 단계적 상향. wired memory 가 물리 한계에 근접하면 즉시 되돌리기 — 그렇지 않으면 시스템이 얼어붙습니다.

07. ds4-server 를 OpenAI 백엔드로 Cursor / opencode 에 연결

ds4-server 는 /v1/chat/completions, /v1/models, OpenAI Function Calling 을 구현해 외형상 완전한 OpenAI 호환 엔드포인트입니다. Cursor / opencode / Continue 는 무수정 연결 가능합니다.

  1. Cursor 설정에서 「커스텀 모델 프로바이더」 추가, baseURL = http://127.0.0.1:8080/v1, apiKey 는 빈 값이 아닌 임의 문자열.
  2. 모델명은 deepseek-v4-flash(ds4-server /v1/models 반환 id).
  3. 원격 접근 시 Mac Studio 를 Tailscale 메시에 참여시키고 baseURL 을 메시 IP 로. 8080 포트를 공중망에 노출 금지.
  4. 파일 편집, 명령 실행, git diff 등의 툴 호출은 Function Calling 으로 자동 협상 — ds4 내장 coding agent 가 엔드 투 엔드 검증 완료.
  5. 디버깅은 ds4-server 로그를 파일로 출력해 Cursor payload 와 diff 하면 tool schema 불일치를 즉시 식별 가능.

08. 자가 구매 vs 일일 대여: 손익 분기점

풀스펙 V4 Flash 를 포기 못 하는 사람의 첫 본능은 「직접 산다」 입니다. 자가 구매 가격표.

  • MacBook Pro M5 Max 128GB: 약 600 만원. q2 입문 라인.
  • Mac Studio M4 Ultra 256GB: 약 1,200 만원. q4 중간 컨텍스트.
  • Mac Studio M3 Ultra 512GB 최상급: 약 2,200 만원. q4 + 장문 컨텍스트가 쾌적한 유일한 구성.

일일 대여 시세는 M3 Ultra 512GB 기준 하루 수만원대. 실무 판단 룰 3 가지.

  • 연간 200 일이 분기점. 미만이면 대여가 저렴하고 감가상각 리스크 회피.
  • 팀 공유 시 유리: 5 명이 1 대를 돌리면 실효 단가는 1/5.
  • 세대 교체 리스크: M5 Ultra / M6 Max 발표 순간 최상급 중고가는 20~30% 하락. 대여는 무 피해.

09. macOS 의 두 가지 함정: CPU 패닉과 발열·전력 벽

antirez 가 README 에서 경고하는 함정 두 가지를 먼저 짚어둡니다.

  • CPU 백엔드는 커널 패닉: 현행 macOS 의 VM 버그가 ds4 CPU 경로에서 재현되어 재부팅 강제. 결론: macOS 는 반드시 Metal, make cpu 금지. CPU 경로는 Linux 정합성 검사 전용입니다.
  • 발열 / 전력 벽: MacBook Pro 장시간 풀로드 추론 시 케이스 온도 90°C 이상, 팬 풀가동. 전원 연결, 본체 들기, 쿨링 패드 권장. Mac Studio 는 본체 에어플로가 우수해 장시간 운용 안정성 압도적.

또 하나, 추론 중 Time Machine 백업 동시 실행 금지 — I/O 경합으로 KV 영속화 스루풋이 급락, generate 속도가 반토막 납니다.

10. 로컬 추론 vs 상용 API: 프라이버시, 컴플라이언스, 통제력

V4 Flash 를 로컬로 끌어오는 진짜 동기는 비용 절감보다 「데이터가 기기 밖으로 나가지 않게」 입니다.

  • 프라이버시: egress 0. 사내 코드, 사용자 로그, 의료 / 금융 데이터가 제 3 자 서버로 가지 않음.
  • 컴플라이언스: GDPR, 산업 자율 규제, 사내 데이터 거주 정책의 「가중치 위치」 「데이터 잔류」 요구를 자연스럽게 충족.
  • 통제력: 상용 API 는 레이트, 가중치, 프로토콜을 수시 변경. 핀 고정된 ds4 + V4 Flash 스냅샷은 재현성·감사 가능성 확보.
  • 비용 예측성: API 토큰 과금은 장문 Agent 청구서 스파이크를 만들지만, 로컬은 감가상각 / 대여비 / 전기료 고정비 구조라 재무 측 예산화가 쉽습니다.

11. 1~3 일 대여 일정: ds4 빌드부터 Cursor 연결까지 실무 표

「먼저 돌려본 뒤 결정」 하려는 소팀용 3 일 플랜.

  1. D-0 저녁: macdate.com 에서 Mac Studio M3 Ultra 512GB 1~3 일 대여 티켓 발권, ds4 리포 / SSH 키 / Tailscale 자격을 사전 준비.
  2. D-1 오전: SSH 접속 → brew install git → ds4 클론 → Metal make./download_model.sh q4(153 GiB, 1 Gbps 회선에서 1.5~3 시간).
  3. D-1 오후: ds4 -p 스모크 → ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384 → 12k 토큰 실코드로 baseline 기록.
  4. D-2: Tailscale 메시 참여 → Cursor / opencode baseURL 을 메시 IP 로 → 반나절 실작업으로 t/s 와 체감 지연 기록.
  5. D-3 오전: MTP 결합 speculative decoding 측정, --ctx 400000 부터 1M 한계 탐색.
  6. D-3 오후: baseline CSV export, /tmp/ds4-kv 삭제, SSH 키와 Tailscale 노드 정리 후 인스턴스 반환. 실가동 일수로 정산.

인용할 수치 3 가지. ① ds4 q4 다운로드 약 153 GiB, 1 Gbps 에서 30~40 분. ② 1~3 일 대여 1 회로 「돌려보고 결정」 사이클 완결. ③ 자가 구매 2,200 만원 대비 회수 분기점은 연 약 200 일. 함께 보기: 일일 대여 Mac 완전 가이드Mac mini M4 대여 vs 구매 비용 시산.

12. 현재 방식의 한계와 더 나은 선택지

ds4 + DeepSeek V4 Flash 를 로컬에서 돌리는 것은 「최상급 Mac 이 컨슈머 등급 프런티어 MoE 추론의 최적 플랫폼」 이라는 컨센서스를 받아들이는 일이지만, 피할 수 없는 한계 3 가지가 있습니다.

  • 하드웨어 바닥: q2 도 96~128 GB UMA 가 전제, q4 는 256 GB, PRO 는 512 GB. 일반 MacBook 사양이 아닙니다.
  • 메인 머신 오염: 80 GiB 가중치 + 100 GB 이상 영속 KV + 장시간 고온 운전이 에디터 / Xcode / 화상 회의 여유를 깎습니다.
  • 감가상각 리스크: M5 Ultra / M6 Max 가 멀지 않습니다. 최상급 3 년 후 중고가는 대여 1095 일분을 확실히 밑돕니다.

더 경제적인 조합은 ds4 + V4 Flash 를 일일 대여 의 물리 Mac Studio M3 Ultra 512GB 에서 돌리는 것입니다. q4 + 장문 컨텍스트 최상급 경험, 독립 대역, 격리 키체인, 전용 KV 디렉터리를 손에 넣고, 셧다운 즉시 감가상각에서 해방. Cursor / opencode 는 Tailscale 로 접속해 「코딩은 로컬, 추론은 클라우드」, 메인 머신은 깨끗하게 유지. 모델은 ds4 + V4 Flash, 추론 하드웨어는 macdate.com 의 물리 Mac 노드에 맡기는 — 현시점에서 가장 실용적인 포지셔닝입니다.

관련 글