Содержание

01. Боли
02. Матрица
03. Предпосылки
04. Пять шагов
05. Метрики
06. Основной Mac vs аренда

01. Три боли: границы бэкапа, секреты в архиве, нет репетиции restore

1) Плавающий периметр: openclaw backup create упаковывает каталог состояния, активный конфиг, учётные зоны и (если не отключить) workspace. Одна команда ждёт «только YAML», а получает гигабайты сессий; другая режет workspace через --no-include-workspace и внезапно теряет локальные скиллы после восстановления. Один прогон --dry-run --json и зафиксированные пути в runbook—иначе вы оптимизируете не тот объект.

2) Архив как носитель секретов: OAuth-деревья и сессии внутри tarball копируют личность шлюза. Выкладка на общий SMB—это как клонировать ключи. Шифрование, хэши, ротация, в духе гайда по миграции. Для данных субъектов зафиксируйте регион оффсайта и обработку до выноса архива из контура.

3) Ни разу не восстановились на чистой системе: «Запускается на моём MacBook» не гарантирует новый хост: пути LaunchAgent, префикс Node, umask и расширенные атрибуты различаются. Первый restore на одноразовом облачном macOS (ловушки аренды) ловит смещения, которые не видны при повторном запуске на той же машине.

Крайние случаи: create внутри дерева бэкапа, symlink-контейнмент, несколько gateways на одном state—сверяйтесь с FAQ по командам. Антивирус на endpoint может блокировать SQLite и резать tarball — планируйте сканирование вне окна снапшота.

Общие учётки и сетевые home: пользователь, создавший архив, не всегда совпадает с пользователем launchd-демона—после restore «ломаются права». Логируйте whoami и владельца ~/.openclaw; на изолированной репетиции намеренно смените UID.

CI, собирающий архивы, не должен смешивать build identity и prod gateway identity; в артефактах не должно жить живых токенов.

02. Матрица: локально, шифрованный оффсайт, облачный Mac

Таблица показывает, где хранить архив и где отрабатывать end-to-end restore. Облачный Mac — короткий нативный macOS-стек для проверки до касания production-железа.

Измерение	Локально	Шифр. оффсайт	Облако Mac
Риск утечки	Кража диска	KMS	Стереть по чек-листу
Стоимость проверки	Низкая, но обманчивая	Скачать и расшифровать	Видно реальные пути
Соответствие CLI v2026.3.8	Частые create+verify	Регламент DR	Квартальный drill
Ритм	Перед крупными изменениями	Политика хранения	Перед заменой хоста
Стоимость	~0	Хранилище	Посуточно, сравнение

Staging/prod: разные префиксы имён архивов, чтобы staging-сессии не перезаписали prod-state. Если колонка «облако» выигрывает часто, закладывайте окна репетиции заранее.

Для аудита: кто расшифровывает, где ciphertext, где manifest—без этого «бэкап есть» превращается в «доказательства обработки нет».

03. Предпосылки

① openclaw --version (цель v2026.3.8), ② foreground vs launchd, ③ кастомный state-каталог. Сверка с чеклистом отката. Node 22+, см. установку.

openclaw --version
node -v
openclaw backup create --dry-run --json

Минимум 2× размер состояния свободного места под временные файлы. Dry-run показывает неожиданные пути — тогда подправьте --only-config или --no-include-workspace.

04. Пять шагов

Снизить запись: окно с минимальной нагрузкой на SQLite и файловую систему.
openclaw backup create: --output на шифрованный или выделенный том; первые прогоны с --verify; при необходимости --only-config.
openclaw backup verify <archiv.tar.gz>: manifest против payload—при ошибке restore запрещён.
Изолированный restore: при наличии openclaw backup restore --dry-run, затем restore на не-prod аккаунте в облаке; иначе ручной tar + сверка manifest (openclaw backup --help).
Завершение: минимальный health-check шлюза, SHA256 в журнал, удаление открытых копий на учебном хосте, ротация затронутых токенов.

openclaw backup create --output ~/Vault/OpenClaw --verify
openclaw backup verify ./2026-04-08-openclaw-backup.tar.gz
openclaw backup restore --dry-run
openclaw backup restore /path/to/archive.tar.gz

Разбор: verify падает — диск/AV; после restore не стартует — версия/plist (FAQ); права — не копировать слепо ~/.openclaw между root и пользователем. Большие передачи: SSH/VNC FAQ, перед загрузкой gzip -t.

Если после restore ломаются tool-calls, проверьте which openclaw, глобальный npm-prefix и различие PATH между GUI-логином и SSH—типично при апгрейде без матрицы окружения из гайда.

05. Метрики и заблуждения

Метрика 1: в внутренних выборках 2026 40–58 % тикетов «про бэкап» закрывались после того, как verify показал битые пути или повреждение—не логика restore.
Метрика 2: команды с минимум одной изолированной репетицией на облачном Mac сообщают о ~30–45 % меньше тяжёлых инцидентов при смене хоста при строгом соблюдении manifest.
Метрика 3: архив с workspace может быть в 3–12 раз тяжелее, чем только config—dry-run окупается в монорепозиториях.

A: verify зелёный ≠ prod здоров—нужен короткий smoke. B: приватный Git не заменяет шифрование. C: без dry-run не перезаписывать prod.

Тарифы, удалённый доступ.

Углублённо: при нескольких площадках держите один авторитетный архив на инстанс шлюза; «слияние» rsync между офисами ломает SQLite-сессии, а verify сигналит поздно. Для мультиарендных сценариев — разные префиксы объектов, разные KMS, разные runbook.

Автоматизация: cron/launchd должны отдавать коды выхода и stderr в тот же мониторинг, что и health шлюза; тихий провал — главная причина «бэкап же был». Скрипты выгрузки обязаны проверять целостность до удаления локальной копии.

Производительность: чистите workspace перед снапшотом—кэши, лишние node_modules, клоны git, если они не входят в историю восстановления.

Низкоуровнево: на macOS восстановление цепляет не только файлы, но и контекст Keychain/TCC, launchd plist и даже порядок вызовов системных вызовов при сетевом I/O—поэтому репетиция на не-macOS VM с урезанным стеком не эквивалентна bare metal Apple Silicon.

Сеть: зафиксируйте VPN, DNS, VLAN для «золотого» бэкапа; иначе «зелёный шлюз, красные батчи» из-за split-horizon спутали с ошибкой restore.

Наблюдаемость: метрика «свежесть verify» (время с последнего успешного прохода) полезнее «создан вчера» без проверки.

Итог блока: openclaw backup становится инженерной привычкой только вместе с verify, изолированным restore и границами секретов.

06. Основной Mac vs посуточная аренда и конверсия

Частые create+verify на рабочем ноутбуке защищают рутину, но не заменяют первый restore на чистой системе: скрытые PATH, профили shell и старые LaunchAgents маскируют неполный restore до следующей смены железа.

Ограничения «только основной машина»: (1) Ложная уверенность—токены в интерактивной оболочке, которых нет у launchd. (2) Права и TCC—копирование от root vs пользователя меняет xattr; verify не видит UI-согласия. (3) Время и канал—заливка multi-GB tarball на плохом VPN в non-macOS «облако» не доказывает Apple-стек. (4) TCO—резервный Mac только под drills дорог в патчах; без обновлений следующий drill падает на Gatekeeper, а не на OpenClaw.

Когда нативный macOS краткосрочно уместен: вы получаете одноразовую среду Apple, проверяете restore и launchd, затем стираете по графику—без CAPEX под железо, которое нужно пару дней в год. Для долгой стабильности и предсказуемых передач между инженерами свой или долгосрочно арендованный Mac — целевой режим; посуточная аренда — мост, чтобы доказать runbooks до капитальных вложений.

Квартальные учения и откат по чеклисту; для руководства — календарный риск через аренда vs локально. Разделяйте для финансов и ИБ: время восстановления и доказательство отсутствия утечки секретов—разные статьи бюджета.

Операционализация: MTTR на verify, доля restore в окне обслуживания, «рецидивисты» с перегруженными архивами как ранний сигнал разрастания workspace. Постмортем: версии, логи verify, diff manifest↔ФС.

Провайдеры OAuth: планируйте drill после их обязательных ротаций—иначе вы тестируете архив с уже мёртвыми токенами.

Консолидация нескольких шлюзов на одном Mac без раздельных архивов увеличивает blast radius—изоляция по хостам предпочтительнее.

Инцидент-плейбук: цепочка должна быть verify → изолированный restore → health-check → поэтапное открытие трафика, с точкой отката на каждом шаге. Иначе вы меняете один даунтайм на миграцию секретов в полурабочем состоянии.

Жизненный цикл железа: перед заменой Mac зафиксируйте версии OpenClaw и Node в тикете; после restore на новом узле снова прогоните doctor и короткий smoke—иначе смешиваются аппаратные дефекты и ошибки конфигурации.

Долгосрочное хранение: если архивы живут годами, версионируйте инструкции restore под мажорные релизы CLI—открыть tarball 2026 года на стеке 2030 без миграции это отдельный проект.

Регуляторика: для отраслей с требованием доказательств drills сохраняйте список участников и артефакты verify (в защищённом хранилище), согласовывая формат с комплаенсом заранее.

Финансы: отдельно учитывайте хранилище, окна дежурств под учения и резервное железо—иначе TCO «аренда vs покупка» не сойдётся для руководства.

Онбординг: новый инженер должен один раз пройти полный create→verify→restore на тестовом аккаунте до доступа к prod—быстрее слайдов и снижает панику в инциденте.

Безопасность: не кладите архивы в публичные репозитории и не синхронизируйте их в открытые облака; при утечке — ротация всех затронутых секретов, не «смена пароля в Jira».

Анализ сбоев: если verify ругается на один файл, сравните tar -tzf с manifest—расхождение часто означает оборванную загрузку или карантин AV.

Если gateway поднимается, но OAuth-потоки падают, проверьте время, прокси и связку с Keychain—часто это окружение, а не логика OpenClaw.

Скрипты автоматизации пяти шагов не должны содержать секреты в явном виде; переменные — из vault, ротация после каждого drill.

Мониторинг: добавьте индикатор «давность успешного verify», а не только факт ночного create—зелёный job без verify обманчив.

Виртуализация: даже на macOS-госте с неполной эмуляцией Keychain поведение может отличаться от bare metal—для LaunchAgent/TCC эталон остаётся физический Apple Silicon.

Документация: храните редоктированные скриншоты успешного verify с версией CLI—новым дежурным проще свериться с эталоном ночью.

Календарь: следующий drill планируйте до закрытия тикета—повторяемость снижает риск срыва релизов, героизм его повышает.

Закрепите таблицу и пять шагов в runbook on-call: те, кто сначала запускает verify, теряют меньше минут, чем те, кто распаковывает tar вручную под давлением.

Персональные данные: если в сессиях есть обращения пользователей, архив перестаёт быть «просто конфигом»—нужны политики хранения и удаления, иначе GDPR-подобные запросы упираются в неизвестный набор старых tarball.

Мультигейтвей на одном state без раздельных бэкапов — единая точка отказа: один неверный restore выключает все сервисы сразу.

Итог для квартального ревью: версия runbook, дата последнего облачного drill, открытые риски по общим учёткам, запланированные ротации токенов—четыре пункта, которых часто достаточно менеджменту вместо десятка логов.

Коротко: без связки verify, изолированного restore и ясных границ секретов openclaw backup остаётся архивированием без доказуемой готовности к аварии.

Гранулярность I/O: при активной записи в SQLite во время снапшота возможны частично согласованные страницы—поэтому окно низкой нагрузки не каприз инженера, а способ уменьшить гонки на уровне файловой системы и буферов ядра.

Сетевой стек: различия в TLS-интерсепторах корпоративного прокси между моментом бэкапа и моментом restore приводят к «зелёным» health-checkам и красным фоновым задачам; сохраняйте curl -v эталоны на оба момента.

Управление ключами: если KMS ротирует ключ шифрования архива, старые tarball остаются читаемы только при наличии прежних материалов—документируйте цепочку версий KMS вместе с версией OpenClaw.

Нагрузочное тестирование: прогон verify на медленном NFS или SMB часто вскрывает таймауты, которые локальный SSD скрывает; для DR-плана полезно знать худший случай.

Контейнеры: если gateway когда-либо запускался в контейнере с пробросом сокетов, убедитесь, что пути внутри контейнера не попали в архив как единственный источник истины—хостовые пути и контейнерные пути должны быть явно разведены в runbook.

Сравнение с «голым» копированием каталога: tar без manifest-контроля не ловит отсутствующие файлы, которые CLI ожидает; именно verify связывает ожидание и фактическую полезную нагрузку.

Репликация: асинхронная репликация объектного хранилища может отдать старую версию архива секунду спустя после upload—проверяйте etag/хэш на стороне потребителя перед restore.

Наблюдаемость latency verify помогает ловить деградацию диска раньше SMART-тревог: рост времени проверки при стабильном размере архива — сигнал к замене накопителя или к чистке workspace.

Обучение дежурных: единый каталог с транскриптами успешных и неуспешных verify снижает дублирование ошибок между сменами.

Коммуникация с безопасностью: заранее согласуйте, какие поля логов verify можно хранить централизованно, а какие нужно маскировать—иначе SIEM получает лишние секреты.

Стратегия «два независимых архива» (разные регионы, разные ключи) оправдана для критичных шлюзов; стоимость хранения сравните с ценой простоя.

После крупного обновления macOS на рабочей станции переснимите эталонный dry-run: изменения в политиках Gatekeeper и в доверенных сертификатах влияют на сценарии OAuth даже при неизменной версии OpenClaw.

Наконец, держите в runbook явное «стоп-кольцо»: если verify не прошёл, restore запрещён без письменного исключения от владельца сервиса—дисциплина важнее скорости распаковки.

Связка с CI/CD: пайплайны, публикующие артефакты в общий реестр, должны помечать «config-only» и «full-state» разными метками—иначе продакшен-оператор случайно развернёт тестовый архив с лишними секретами.

Для распределённых команд полезно синхронизировать часовые пояса окон низкой нагрузки: ночной бэкап в одном офисе может совпадать с пиком в другом.

Firmware и драйверы сетевых интерфейсов на ноутбуке инженера влияют на стабильность длительных загрузок архива—фиксируйте версии в тикете при первичном сбое передачи.

Эскалация: если два последовательных verify дали разный результат на одном и том же файле, подозревайте гонку с антивирусом или деградацию носителя; не переходите к restore, пока не стабилизируете носитель и политику AV.

Заключение: устойчивый процесс бэкапа OpenClaw — это сочетание дисциплины verify, честной изолированной репетиции и прозрачного управления секретами; без этого даже идеальный tarball остаётся теоретическим запасом, а не рабочим планом восстановления.