2026 ds4(DwarfStar 4)로 DeepSeek V4 Flash 를 Mac 로컬 추론하는 완전 가이드:
antirez 엔진, q2/q4 양자화 계층과 Mac 96/128/256/512 GB 벤치 대조표
Mac 에서 DeepSeek V4 Flash 를 돌리려는 개발자, 연구자, 프라이버시 민감 팀이 가장 궁금해하는 질문 — antirez 가 일주일 만에 내놓은 ds4 의 정체, q2/q4 양자화가 요구하는 메모리, 128GB MacBook Pro 와 512GB Mac Studio 의 t/s 차이, 그리고 풀스펙 자가 구매와 일일 대여의 손익 분기점을 한 번에 정리합니다.
2026 년 5 월, Redis 의 아버지 antirez 가 일주일 만에 공개한 ds4(DwarfStar 4)는 DeepSeek V4 Flash 전용 C 로컬 추론 엔진입니다. Metal 백엔드는 96GB MacBook 부터, CUDA 백엔드는 DGX Spark 까지 커버하며, KV 캐시를 SSD 에 영속화하고 OpenAI 호환 API 를 내장합니다. 이 글은 Mac 에서 프런티어 OSS 모델을 시도하려는 독립 개발자, Cursor / opencode 를 로컬 백엔드로 전환하려는 파워 유저, 그리고 천만 원대 풀스펙 Mac Studio 를 즉시 결제하기 어려운 소규모 스튜디오와 프라이버시 민감 팀을 위한 가이드입니다. 본문은 설계 철학, q2 / q4 / MTP 양자화 명세, 96 / 128 / 256 / 512GB Mac 의 t/s 벤치, 5 단계 셋업, 자가 구매 vs 일일 대여 분기점까지 한 번에 다룹니다.
목차 · TABLE OF CONTENTS
- 01 ds4 의 정체: antirez 가 일주일 만에 만든 Star 1 만 + V4 Flash 전용 엔진
- 02 ds4 vs llama.cpp / Ollama: 「좁고 깊게」 라는 공학적 베팅
- 03 양자화 3 계층: q2(80.8 GiB) / q4(153.3 GiB) / MTP(3.6 GiB)
- 04 Mac 메모리별 실측 벤치: 96 / 128 / 256 / 512 GB 어디까지 가능한가
- 05 Mac Studio M3 Ultra 에서 ds4 를 띄우는 5 단계
- 06 KV 캐시 영속화와 1M 컨텍스트 안전 구간
- 07 ds4-server 를 OpenAI 백엔드로 Cursor / opencode 에 연결
- 08 자가 구매 vs 일일 대여: 손익 분기점
- 09 macOS 의 두 가지 함정: CPU 패닉과 발열·전력 벽
- 10 로컬 추론 vs 상용 API: 프라이버시, 컴플라이언스, 통제력
- 11 1~3 일 대여 일정: ds4 빌드부터 Cursor 연결까지 실무 표
- 12 현재 방식의 한계와 더 나은 선택지
01. ds4 의 정체: antirez 가 일주일 만에 만든 Star 1 만 + V4 Flash 전용 엔진
ds4 의 정식 명칭은 DwarfStar 4, 작자는 Redis / Sentinel / Cluster 원작자 Salvatore Sanfilippo(antirez) 입니다. 공개 며칠 만에 GitHub Star 가 11,000 개를 넘은 이유는 단순합니다 — 현재 유일하게 DeepSeek V4 Flash 를 「128GB Mac 에서 실제로 돌아가는」 라인까지 끌어올린 로컬 엔진이기 때문입니다. V4 Flash 는 MoE 구조, 약 284B 파라미터, F16 가중치 165GB 규모인데, antirez 가 순수 C 로 Metal / CUDA 그래프 실행기를 다시 쓰고 자체 비대칭 2/8-bit GGUF 와 결합해, 첫 토큰 출력까지를 make & ./ds4 -p 두 단계로 줄였습니다.
02. ds4 vs llama.cpp / Ollama: 「좁고 깊게」 라는 공학적 베팅
llama.cpp 와 Ollama 는 한 런타임으로 100 개 모델 패밀리를 떠받치는 「넓은」 설계입니다. ds4 는 반대로 한 패밀리에만 집중 투자합니다. 차이는 3 가지로 드러납니다.
- 추상화 비용 0: 모델 로딩, 프롬프트 렌더링, KV, 툴 호출이 모두 V4 Flash 전용으로 직접 작성됨.
- 공식 logits 정렬: DeepSeek 공식 구현에서 logits 를 추출해 ds4 출력과 수치적으로 맞춤. 「양자화 후 멍청해지는」 체감 열화를 회피.
- 원스톱 구성: CLI, OpenAI 호환 서버, 코딩 Agent, GGUF / imatrix 도구가 한 리포에 모두 들어 있음.
antirez 는 README 에서 「새 모델이 너무 빠르게 나오니 범용 런타임은 늘 따라가기 바쁘다. ds4 는 한 모델만 잡고, 고급 개인 머신에서 신뢰 가능한 경험을 노린다」 고 명시했습니다. 개발자의 실리는 명확합니다 — V4 Flash 를 Mac 에서 안정 구동하려고 이슈 200 개를 뒤질 필요가 없어집니다.
03. 양자화 3 계층: q2(80.8 GiB) / q4(153.3 GiB) / MTP(3.6 GiB)
Hugging Face 의 antirez/deepseek-v4-gguf 리포는 메모리 계층에 맞춘 3 개 파일을 제공합니다.
| 양자화 계층 | 파일 크기 | 전략 | 대상 Mac 메모리 | 일반 용도 |
|---|---|---|---|---|
| q2(IQ2_XXS + Q2_K) | 80.8 GiB | 라우팅 expert 2bit, 어텐션 / 공유 expert Q8_0 | 96 / 128 GB | MacBook Pro M4/M5 Max 입문 |
| q4(Q4_K Experts) | 153.3 GiB | 모든 expert Q4_K, HC / Compressor / Indexer F16 | 256 / 512 GB | Mac Studio Ultra 주력 추론 |
| MTP(speculative) | 3.6 GiB | 보조 multi-token prediction | 옵션 추가 | q2 / q4 와 결합해 generate 가속 |
꼭 기억할 3 가지. ① 80.8 GiB q2 가중치 + 만적 26 GB KV 는 128GB Mac 에서 「딱 맞는」 상태이며, Chrome / Xcode 를 먼저 종료해야 합니다. ② q4 는 153.3 GiB, 256GB 머신에서 컨텍스트용 잔여 메모리는 수십 GB 에 불과합니다. ③ MTP 는 3.6 GiB 옵션이며, q2 / q4 위에 얹기만 해도 generate 체감 속도가 한 단계 올라갑니다.
04. Mac 메모리별 실측 벤치: 96 / 128 / 256 / 512 GB 어디까지 가능한가
아래는 ds4 README 와 커뮤니티 측정에서 정리한 tokens/s(prefill / generate) 수치입니다. 입문부터 풀스펙까지 계단식으로 배치했습니다.
| 하드웨어 | 양자화 | 컨텍스트 | Prefill t/s | Generate t/s |
|---|---|---|---|---|
| MacBook Pro M5 Max 128GB | q2 | 단문 | 463.0 | 34.0 |
| Mac Studio M3 Ultra 512GB | q2 | 단문 | 384.43 | 36.86 |
| Mac Studio M3 Ultra 512GB | q2 | 11,709 tokens | 250.11 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 단문 | 78.95 | 35.50 |
| Mac Studio M3 Ultra 512GB | q4 | 12,018 tokens | 448.82 | 26.62 |
| DGX Spark GB10 128GB(참고) | q2 | 7,047 tokens | 343.81 | 13.75 |
꼭 기억할 3 가지 수치. ① M5 Max 128GB 노트북도 q2 단문 prefill 이 463 t/s, 노트북 기준 기대치를 한참 뛰어넘습니다. ② 512GB M3 Ultra 에서 q4 + 12k 토큰 prefill 은 448.82 t/s, 현재 Mac 에서 살 수 있는 최강 V4 Flash 경험입니다. ③ DGX Spark GB10 generate 는 13.75 t/s 에 그쳐 M3 Ultra 의 36.86 t/s 와 큰 격차 — 이것이 통합 메모리의 구조적 우위입니다.
05. Mac Studio M3 Ultra 에서 ds4 를 띄우는 5 단계
클린 macOS 에서 첫 토큰까지 최단 경로는 약 30~45 분(모델 다운로드가 율속).
- 클론 + 빌드:
git clone https://github.com/antirez/ds4 && cd ds4 && make. macOS 는 Metal 백엔드 자동 선택, CUDA 툴체인 불필요. - 가중치 다운로드: 128GB 는
./download_model.sh q2, 256GB 이상은./download_model.sh q4../download_model.sh mtp는 speculative decoding 옵션. - 스모크 테스트:
./ds4 -p "Explain Redis streams in one paragraph."로 로딩 / 토크나이저 / Metal 백엔드 동작 확인. - OpenAI 호환 서버:
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192. 기본127.0.0.1:8080리슨. - 기준선 측정: 12k 토큰 실코드로 generate, prefill / generate t/s 와 GPU 메모리 피크를 baseline 기록.
06. KV 캐시 영속화와 1M 컨텍스트 안전 구간
ds4 에서 가장 저평가된 설계가 KV 캐시 SSD 영속화입니다. 빠른 NVMe SSD 가 있는 Mac 에서는 세션 간 재 prefill 불필요, 서버 재시작 후에도 100k 토큰 컨텍스트를 수 초 안에 복원합니다. 경계선 3 가지.
- 풀 1M 컨텍스트는 GPU 메모리 약 26 GB 를 소비(compressed indexer 만 22 GB). 128GB 머신에서 81 GB q2 가중치가 이미 적재된 상태로 1M 강행은 거의 확실히 OOM.
- 128GB 권장
--ctx 100000~300000. 96GB Mac 에서 250k 성공 사례도 있으나, Chrome / Xcode 등 무거운 프로세스를 먼저 종료해야 합니다. --kv-disk-space-mb는 최소 8192(8 GB), 장기 세션 / 다중 사용자는 16384 이상.
--ctx 100000 으로 시작해 활성 상태 보기 의 GPU 메모리와 swap 을 모니터링하며 200k 로 단계적 상향. wired memory 가 물리 한계에 근접하면 즉시 되돌리기 — 그렇지 않으면 시스템이 얼어붙습니다.07. ds4-server 를 OpenAI 백엔드로 Cursor / opencode 에 연결
ds4-server 는 /v1/chat/completions, /v1/models, OpenAI Function Calling 을 구현해 외형상 완전한 OpenAI 호환 엔드포인트입니다. Cursor / opencode / Continue 는 무수정 연결 가능합니다.
- Cursor 설정에서 「커스텀 모델 프로바이더」 추가,
baseURL=http://127.0.0.1:8080/v1,apiKey는 빈 값이 아닌 임의 문자열. - 모델명은
deepseek-v4-flash(ds4-server/v1/models반환 id). - 원격 접근 시 Mac Studio 를 Tailscale 메시에 참여시키고
baseURL을 메시 IP 로. 8080 포트를 공중망에 노출 금지. - 파일 편집, 명령 실행, git diff 등의 툴 호출은 Function Calling 으로 자동 협상 — ds4 내장 coding agent 가 엔드 투 엔드 검증 완료.
- 디버깅은 ds4-server 로그를 파일로 출력해 Cursor payload 와 diff 하면 tool schema 불일치를 즉시 식별 가능.
08. 자가 구매 vs 일일 대여: 손익 분기점
풀스펙 V4 Flash 를 포기 못 하는 사람의 첫 본능은 「직접 산다」 입니다. 자가 구매 가격표.
- MacBook Pro M5 Max 128GB: 약 600 만원. q2 입문 라인.
- Mac Studio M4 Ultra 256GB: 약 1,200 만원. q4 중간 컨텍스트.
- Mac Studio M3 Ultra 512GB 최상급: 약 2,200 만원. q4 + 장문 컨텍스트가 쾌적한 유일한 구성.
일일 대여 시세는 M3 Ultra 512GB 기준 하루 수만원대. 실무 판단 룰 3 가지.
- 연간 200 일이 분기점. 미만이면 대여가 저렴하고 감가상각 리스크 회피.
- 팀 공유 시 유리: 5 명이 1 대를 돌리면 실효 단가는 1/5.
- 세대 교체 리스크: M5 Ultra / M6 Max 발표 순간 최상급 중고가는 20~30% 하락. 대여는 무 피해.
09. macOS 의 두 가지 함정: CPU 패닉과 발열·전력 벽
antirez 가 README 에서 경고하는 함정 두 가지를 먼저 짚어둡니다.
- CPU 백엔드는 커널 패닉: 현행 macOS 의 VM 버그가 ds4 CPU 경로에서 재현되어 재부팅 강제. 결론: macOS 는 반드시 Metal,
make cpu금지. CPU 경로는 Linux 정합성 검사 전용입니다. - 발열 / 전력 벽: MacBook Pro 장시간 풀로드 추론 시 케이스 온도 90°C 이상, 팬 풀가동. 전원 연결, 본체 들기, 쿨링 패드 권장. Mac Studio 는 본체 에어플로가 우수해 장시간 운용 안정성 압도적.
또 하나, 추론 중 Time Machine 백업 동시 실행 금지 — I/O 경합으로 KV 영속화 스루풋이 급락, generate 속도가 반토막 납니다.
10. 로컬 추론 vs 상용 API: 프라이버시, 컴플라이언스, 통제력
V4 Flash 를 로컬로 끌어오는 진짜 동기는 비용 절감보다 「데이터가 기기 밖으로 나가지 않게」 입니다.
- 프라이버시: egress 0. 사내 코드, 사용자 로그, 의료 / 금융 데이터가 제 3 자 서버로 가지 않음.
- 컴플라이언스: GDPR, 산업 자율 규제, 사내 데이터 거주 정책의 「가중치 위치」 「데이터 잔류」 요구를 자연스럽게 충족.
- 통제력: 상용 API 는 레이트, 가중치, 프로토콜을 수시 변경. 핀 고정된 ds4 + V4 Flash 스냅샷은 재현성·감사 가능성 확보.
- 비용 예측성: API 토큰 과금은 장문 Agent 청구서 스파이크를 만들지만, 로컬은 감가상각 / 대여비 / 전기료 고정비 구조라 재무 측 예산화가 쉽습니다.
11. 1~3 일 대여 일정: ds4 빌드부터 Cursor 연결까지 실무 표
「먼저 돌려본 뒤 결정」 하려는 소팀용 3 일 플랜.
- D-0 저녁: macdate.com 에서 Mac Studio M3 Ultra 512GB 1~3 일 대여 티켓 발권, ds4 리포 / SSH 키 / Tailscale 자격을 사전 준비.
- D-1 오전: SSH 접속 →
brew install git→ ds4 클론 → Metalmake→./download_model.sh q4(153 GiB, 1 Gbps 회선에서 1.5~3 시간). - D-1 오후:
ds4 -p스모크 →ds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384→ 12k 토큰 실코드로 baseline 기록. - D-2: Tailscale 메시 참여 → Cursor / opencode
baseURL을 메시 IP 로 → 반나절 실작업으로 t/s 와 체감 지연 기록. - D-3 오전: MTP 결합 speculative decoding 측정,
--ctx 400000부터 1M 한계 탐색. - D-3 오후: baseline CSV export,
/tmp/ds4-kv삭제, SSH 키와 Tailscale 노드 정리 후 인스턴스 반환. 실가동 일수로 정산.
인용할 수치 3 가지. ① ds4 q4 다운로드 약 153 GiB, 1 Gbps 에서 30~40 분. ② 1~3 일 대여 1 회로 「돌려보고 결정」 사이클 완결. ③ 자가 구매 2,200 만원 대비 회수 분기점은 연 약 200 일. 함께 보기: 일일 대여 Mac 완전 가이드 와 Mac mini M4 대여 vs 구매 비용 시산.
12. 현재 방식의 한계와 더 나은 선택지
ds4 + DeepSeek V4 Flash 를 로컬에서 돌리는 것은 「최상급 Mac 이 컨슈머 등급 프런티어 MoE 추론의 최적 플랫폼」 이라는 컨센서스를 받아들이는 일이지만, 피할 수 없는 한계 3 가지가 있습니다.
- 하드웨어 바닥: q2 도 96~128 GB UMA 가 전제, q4 는 256 GB, PRO 는 512 GB. 일반 MacBook 사양이 아닙니다.
- 메인 머신 오염: 80 GiB 가중치 + 100 GB 이상 영속 KV + 장시간 고온 운전이 에디터 / Xcode / 화상 회의 여유를 깎습니다.
- 감가상각 리스크: M5 Ultra / M6 Max 가 멀지 않습니다. 최상급 3 년 후 중고가는 대여 1095 일분을 확실히 밑돕니다.
더 경제적인 조합은 ds4 + V4 Flash 를 일일 대여 의 물리 Mac Studio M3 Ultra 512GB 에서 돌리는 것입니다. q4 + 장문 컨텍스트 최상급 경험, 독립 대역, 격리 키체인, 전용 KV 디렉터리를 손에 넣고, 셧다운 즉시 감가상각에서 해방. Cursor / opencode 는 Tailscale 로 접속해 「코딩은 로컬, 추론은 클라우드」, 메인 머신은 깨끗하게 유지. 모델은 ds4 + V4 Flash, 추론 하드웨어는 macdate.com 의 물리 Mac 노드에 맡기는 — 현시점에서 가장 실용적인 포지셔닝입니다.