2026 Локальный инференс DeepSeek V4 Flash на Mac с ds4 (DwarfStar 4):
движок antirez, уровни квантования q2/q4 и таблица бенчмарков Mac 96/128/256/512 ГБ
Разработчики, исследователи и команды, серьёзно относящиеся к приватности, задают одни и те же вопросы. Что такое ds4, который antirez написал за неделю? Сколько памяти на самом деле требуют q2 и q4? Какие тыквоптокены в секунду показывают 128‑гигабайтный MacBook Pro и 512‑гигабайтный Mac Studio? И когда посуточная аренда выигрывает у покупки топовой конфигурации?
В мае 2026 года автор Redis Salvatore «antirez» Sanfilippo выкатил крошечный C‑движок, который делает ровно одну вещь: ds4 (DwarfStar 4) — это нативный backend инференса исключительно для DeepSeek V4 Flash. Это не универсальный GGUF‑runner, не обёртка над llama.cpp или Ollama и не фреймворк. Metal‑бэкенд ориентирован на Mac от 96 ГБ, путь CUDA — на NVIDIA DGX Spark. В сочетании с персистентным KV‑кэшем на SSD и встроенным OpenAI‑совместимым API ds4 — первый проект, благодаря которому фронтирная локальная инференция на потребительском Mac начинает ощущаться производственно. Эта статья адресована трём аудиториям: независимым разработчикам, которые хотят запустить DeepSeek V4 Flash на Apple Silicon, опытным пользователям, готовым перевести Cursor или opencode на локальный backend, а также небольшим студиям и приватностно‑чувствительным командам, которые не готовы выложить шестизначную сумму на покупку топовой машины. Вы получите инженерную философию, расклад весов q2 / q4 / MTP, таблицу бенчмарков 96/128/256/512 ГБ, пятишаговую инструкцию и точку, в которой аренда выгоднее покупки.
СОДЕРЖАНИЕ
- 01 Что такое ds4: недельный движок antirez с 11k звёзд под V4 Flash
- 02 ds4 vs llama.cpp / Ollama: ставка «узко и глубоко»
- 03 Три уровня квантования: q2 (80,8 GiB) / q4 (153,3 GiB) / MTP (3,6 GiB)
- 04 Бенчмарк по памяти Mac: что реально дают 96, 128, 256 и 512 ГБ
- 05 Пять шагов, чтобы запустить ds4 на Mac Studio M3 Ultra
- 06 KV‑кэш на диске и безопасный диапазон окна 1M
- 07 Подключение ds4‑server к Cursor и opencode как OpenAI‑бэкенд
- 08 Покупка топового Mac vs посуточная аренда: точка пересечения
- 09 Два реальных подводных камня macOS: CPU‑паника и тепловой барьер
- 10 Локальная инференция vs коммерческое API: приватность, комплаенс, контроль
- 11 Расписание 1–3 дней аренды: от сборки ds4 до интеграции с Cursor
- 12 Честные ограничения и более удачное решение
01. Что такое ds4: недельный движок antirez с 11k звёзд под V4 Flash
ds4 расшифровывается как DwarfStar 4, автор — создатель Redis, Sentinel и Cluster. За несколько дней после публикации репозиторий перешагнул отметку в 11 000 звёзд GitHub, и причина проста: на сегодня это единственный движок, который вывел DeepSeek V4 Flash на практическую линию «реально запускается на Mac с 128 ГБ».
Проект решает неудобную реальность. DeepSeek V4 Flash — это MoE‑архитектура примерно на 284 миллиарда параметров и 165 ГБ исходных F16‑весов. llama.cpp и Ollama всё ещё мучаются с полной поддержкой; antirez переписал исполнитель графа Metal / CUDA на чистом C и собрал собственный асимметричный 2/8‑битный GGUF. В итоге опыт «первого токена» сводится буквально к двум командам: make и ./ds4 -p.
02. ds4 vs llama.cpp / Ollama: ставка «узко и глубоко»
llama.cpp и Ollama — широкие движки: один runtime поддерживает сотню семейств моделей. ds4 делает противоположную ставку и фокусируется ровно на одном семействе. Это даёт три измеримых отличия.
- Нет налога на абстракцию. Загрузка модели, рендеринг prompt, состояние KV и tool‑calling написаны под V4 Flash напрямую — нет накладных расходов на «интерфейс, который пригодится для следующей модели».
- Сверка с официальными logits. antirez численно сравнивает выход ds4 с logits референсной реализации DeepSeek. Квантизация не «уплывает» в субъективное снижение качества.
- Всё в одном репо. CLI (
ds4), OpenAI‑совместимый сервер (ds4-server), встроенный coding agent, инструменты GGUF и imatrix — никаких «клеевых» скриптов писать не нужно.
antirez формулирует доктрину в README прямо: новые модели выходят быстрее, чем способен догнать любой универсальный runtime, поэтому ds4 концентрируется на одной модели и доводит её на топовой персональной машине до уровня «доверенного опыта». На практике это значит, что вам больше не нужно прочитать 200 issues только для того, чтобы V4 Flash не падал на Mac.
03. Три уровня квантования: q2 (80,8 GiB) / q4 (153,3 GiB) / MTP (3,6 GiB)
Репозиторий antirez/deepseek-v4-gguf на Hugging Face поставляет ровно три файла, по одному на уровень памяти:
| Уровень | Размер | Стратегия | Целевая RAM Mac | Типичный сценарий |
|---|---|---|---|---|
| q2 (IQ2_XXS + Q2_K) | 80,8 GiB | Маршрутизирующие эксперты — 2 бит; attention / общие эксперты — Q8_0 | 96 / 128 ГБ | MacBook Pro M4/M5 Max как стартовая точка |
| q4 (Q4_K Experts) | 153,3 GiB | Все эксперты Q4_K; HC / Compressor / Indexer — F16 | 256 / 512 ГБ | Основная инференция на Mac Studio Ultra |
| MTP (speculative) | 3,6 GiB | Вспомогательный multi‑token prediction | Опциональная надстройка | Сочетать с q2 или q4 ради ускорения generate |
Три числа стоит запомнить. Во‑первых, 80,8 GiB весов q2 плюс полностью заполненный KV‑кэш 26 ГБ «впритык» помещаются в 128‑гигабайтный Mac; перед запуском нужно закрыть Chrome и Xcode. Во‑вторых, q4 весит 153,3 GiB, и на 256 ГБ остаются лишь десятки гигабайт на контекст. В‑третьих, MTP — это 3,6 GiB дополнительной нагрузки, который накладывается поверх q2 или q4 и ощутимо ускоряет генерацию через спекулятивный декодинг.
04. Бенчмарк по памяти Mac: что реально дают 96, 128, 256 и 512 ГБ
Цифры ниже взяты из README ds4 и общественных прогонов, выражены в токенах в секунду (prefill / generate):
| Железо | Квант | Контекст | Prefill t/s | Generate t/s |
|---|---|---|---|---|
| MacBook Pro M5 Max 128ГБ | q2 | короткий | 463,0 | 34,0 |
| Mac Studio M3 Ultra 512ГБ | q2 | короткий | 384,43 | 36,86 |
| Mac Studio M3 Ultra 512ГБ | q2 | 11 709 токенов | 250,11 | 27,39 |
| Mac Studio M3 Ultra 512ГБ | q4 | короткий | 78,95 | 35,50 |
| Mac Studio M3 Ultra 512ГБ | q4 | 12 018 токенов | 448,82 | 26,62 |
| DGX Spark GB10 128ГБ (опорный) | q2 | 7 047 токенов | 343,81 | 13,75 |
Три вывода. MacBook Pro 128 ГБ на M5 Max уже выдаёт 463 t/s prefill на коротком prompt q2 — для ноутбука это исключительный результат. Mac Studio 512 ГБ на q4 с prompt в 12k токенов достигает 448,82 t/s prefill — самый сильный V4 Flash‑опыт, доступный сегодня в одной машине Mac. DGX Spark GB10 генерирует лишь 13,75 t/s, заметно отставая от 36,86 t/s M3 Ultra — это прямая иллюстрация структурного преимущества унифицированной памяти Apple Silicon для MoE‑инференции.
05. Пять шагов, чтобы запустить ds4 на Mac Studio M3 Ultra
Кратчайший путь от чистой macOS до первого сгенерированного токена — 30–45 минут, узкое место занимает загрузка модели.
- Клонировать и собрать.
git clone https://github.com/antirez/ds4 && cd ds4 && make. macOS выбирает Metal автоматически; цепочка CUDA не нужна. - Скачать веса. На 128 ГБ —
./download_model.sh q2, на 256 ГБ и выше —./download_model.sh q4. Опционально./download_model.sh mtpдля спекулятивного декодинга. - Дымовой тест.
./ds4 -p "Explain Redis streams in one paragraph."проверяет загрузчик, токенизатор и Metal‑бэкенд за один запуск. - Запустить OpenAI‑совместимый сервер.
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192по умолчанию слушает127.0.0.1:8080. - Зафиксировать базовую линию. Реальный engineering‑prompt на 12k токенов даст t/s prefill / generate и пик памяти GPU — это ваша точка отсчёта для последующих оптимизаций.
06. KV‑кэш на диске и безопасный диапазон окна 1M
Самое недооценённое архитектурное решение ds4 — персистентность KV‑кэша на SSD. На Mac с быстрым NVMe SSD между сессиями не нужно делать полный prefill, и контекст в 100k токенов восстанавливается за секунды после перезапуска сервера. Уважайте три границы.
- Полный контекст 1M съедает около 26 ГБ GPU‑памяти, причём один только compressed indexer занимает ~22 ГБ. На 128 ГБ Mac с уже загруженными 81 ГБ q2‑весов попытка форсировать 1M почти гарантированно даёт OOM.
- На 128 ГБ начинайте с
--ctx 100000–300000. Сообщество сообщает о контексте 250k на 96 ГБ Mac, но только после закрытия Chrome, Xcode и других прожорливых процессов. --kv-disk-space-mb— минимум 8192, для длинных сессий и многопользовательских сценариев — 16384 и выше.
--ctx 100000, следите за GPU‑памятью и wired memory в Системном мониторе и постепенно поднимайте до 200k. Если wired memory приближается к физическому пределу — немедленный откат, иначе система замёрзнет.07. Подключение ds4‑server к Cursor и opencode как OpenAI‑бэкенд
ds4‑server реализует /v1/chat/completions, /v1/models и OpenAI Function Calling. Снаружи это полноценный OpenAI‑совместимый endpoint, поэтому Cursor, opencode и Continue подключаются без правок кода.
- В настройках Cursor добавьте «кастомный провайдер модели»,
baseURL=http://127.0.0.1:8080/v1, вapiKeyподойдёт любая непустая строка. - Имя модели —
deepseek-v4-flash(тот id, который возвращает/v1/models). - Для удалённого доступа подключите Mac Studio в Tailscale‑mesh и направьте
baseURLна mesh‑IP. Не выставляйте порт 8080 в публичный интернет. - Вызовы инструментов — правка файлов, запуск команд, чтение git diff — идут через Function Calling. Встроенный coding agent ds4 проходит этот путь сквозным тестом.
- При отладке логируйте запросы ds4‑server в файл и сравнивайте с payload‑ами Cursor — несовпадения в схеме инструментов становятся очевидны мгновенно.
08. Покупка топового Mac vs посуточная аренда: точка пересечения
Первая реакция тех, кто хочет V4 Flash в максимальной конфигурации, — «куплю сам». Ценник суров:
- MacBook Pro M5 Max 128 ГБ: около 4 500 USD; стартовая позиция, q2 запускается.
- Mac Studio M4 Ultra 256 ГБ: около 9 000 USD; q4 при умеренном контексте.
- Mac Studio M3 Ultra 512 ГБ в топе: около 16 000 USD; единственная конфигурация, в которой q4 с длинным контекстом ощущается комфортно.
Посуточная аренда Mac Studio M3 Ultra 512 ГБ — в диапазоне десятков долларов в сутки. Три практических правила:
- Точка безубыточности — около 200 рабочих дней в год. Меньше — аренда дешевле и снимает риск амортизации.
- Командное использование усиливает экономию. Пять инженеров на одной арендованной машине ещё раз делят эффективную стоимость впятеро.
- Риск смены поколения реален. С выходом M5 Ultra или M6 Max остаточная стоимость топового Studio падает на 20–30% за ночь. Аренда полностью переносит этот риск на провайдера.
09. Два реальных подводных камня macOS: CPU‑паника и тепловой барьер
antirez выделяет в README две вещи, заработанные опытом:
- CPU‑бэкенд вызывает kernel panic. Актуальный VM‑баг macOS воспроизводится именно на CPU‑пути ds4 и перезагружает машину. Чёткий вывод: на macOS всегда использовать Metal, никогда не запускать
make cpu. CPU‑путь предназначен только для проверок корректности под Linux. - Тепловой и энергетический барьер бьёт быстро. MacBook Pro под длительной инференцией прогревается выше 90 °C, вентиляторы воют. Сетевое питание, приподнятое шасси и охлаждающая подставка обязательны. У Mac Studio собственные воздушные каналы, и долгие сессии он держит ощутимо стабильнее любого ноутбука.
Ещё одна легко упускаемая деталь: не разрешайте Time Machine делать бэкап во время инференции. Конкуренция за I/O давит пропускную способность KV‑кэша и буквально за секунды режет скорость генерации вдвое.
10. Локальная инференция vs коммерческое API: приватность, комплаенс, контроль
Настоящий мотив переноса V4 Flash на локальную машину — почти никогда не экономия, а удержание данных внутри устройства. По сравнению с хостовым API вы получаете:
- Приватность. Нулевой egress. Корпоративный исходный код, пользовательские логи, медицинские и финансовые данные не уходят на сторонний сервер.
- Комплаенс. Требования по локализации весов и резидентности данных GDPR / FZ‑152 / отраслевых регуляторов выполняются естественно.
- Контроль. Хостовые провайдеры меняют лимиты, веса и протоколы по своему усмотрению. Запиннованный snapshot ds4 + V4 Flash остаётся воспроизводимым и аудируемым.
- Предсказуемые расходы. Тарификация по токенам у API создаёт пики счетов на длинном контексте. Локальная инференция — это амортизация, аренда и электричество, то есть статьи, которые финансовый отдел действительно умеет бюджетировать.
11. Расписание 1–3 дней аренды: от сборки ds4 до интеграции с Cursor
План на три дня, готовый к копированию для команды, которая хочет «попробовать, а потом решить»:
- День 0, вечер. Через macdate.com оформите тикет на аренду Mac Studio M3 Ultra 512 ГБ с окном 1–3 дня. Подготовьте форк ds4, SSH‑ключи и учётные данные Tailscale.
- День 1, утро. SSH,
brew install git, клонирование ds4, сборка Metal черезmake, затем./download_model.sh q4(153 GiB; 1,5–3 часа на 1 Gbit/s). - День 1, после полудня.
ds4 -pкак дымовой тест, затемds4-server --ctx 200000 --kv-disk-dir ~/kv --kv-disk-space-mb 16384. Прогоните реальный workload на 12k токенов и зафиксируйте baseline. - День 2. Присоединитесь к mesh через Tailscale, направьте Cursor и opencode на mesh‑IP, проведите полдня реальной работой и запишите t/s с ощущениями по задержке.
- День 3, утро. Подключите MTP и измерьте прирост от спекулятивного декодинга; начните прощупывать предел 1M с
--ctx 400000. - День 3, после полудня. Выгрузите CSV бенчмарка, удалите
/tmp/ds4-kv, уберите SSH‑ключи и узел Tailscale, верните инстанс. Оплата по фактическому числу дней.
Три цифры, которые стоит цитировать. Загрузка q4 — около 153 GiB, 30–40 минут на 1 Gbit/s. Одной аренды 1–3 дня хватает, чтобы пройти полный цикл «попробовать → решить». Точка пересечения «аренда vs покупка» — около 200 активных дней в году. См. также полное руководство по аренде Mac посуточно и расчёт стоимости Mac mini M4 — аренда vs покупка.
12. Честные ограничения и более удачное решение
Запуск ds4 + DeepSeek V4 Flash локально означает принятие консенсуса: топовый Mac в 2026 году — лучшая потребительская платформа для фронтирной MoE‑инференции. Три ограничения избежать не получится:
- Высокий порог железа. Даже q2 требует 96–128 ГБ унифицированной памяти; q4 — 256 ГБ; PRO — 512 ГБ. Ни одна из этих конфигураций не относится к стандартному MacBook.
- Загрязнение основной машины. 80 GiB весов, более 100 ГБ персистентного KV‑кэша и долгие сессии на пределе мощности отнимают ресурсы у редактора, Xcode и видеоконференций, если всё это крутится на повседневной машине.
- Риск амортизации. M5 Ultra и M6 Max не за горами. Кривая остаточной стоимости топового Studio за три года выглядит куда хуже, чем 1 095 дней аренды.
Более чистая комбинация — запускать ds4 + DeepSeek V4 Flash на физическом Mac Studio M3 Ultra 512 ГБ в посуточной аренде. Вы получаете полноценный q4 + длинный контекст, выделенный канал, изолированный keychain и собственную KV‑директорию. После выключения проблема амортизации перестаёт быть вашей. Cursor и opencode подключаются через Tailscale: код пишется локально, инференция выполняется в облаке, основная машина остаётся чистой. Берите ds4 + V4 Flash как модель и доверяйте macdate.com поставку физического Mac‑железа, благодаря которой эксплуатация становится скучно надёжной.