Sommaire

01. Points de douleur
02. Matrice
03. Sept étapes
04. Commandes
05. Métriques
06. Répétition vs location

01. Trois zones de douleur

1) migrate « à l’aveugle » : v2026.4.26 introduit un openclaw migrate structuré avec dry-run et plans JSON : indices d’import Hermes, déplacements de champs openclaw.json, fusions de métadonnées MCP/Skills. Sauter le plan augmente le risque de supprimer par erreur des réglages de session en heures de pointe.

2) Vérification post-openclaw update ignorée : les installs npm atomiques renforcées peuvent échouer la vérification avec un arbre mixte ; lancer Gateway quand même désaligne control-ui et dist — même famille que les pointeurs dist obsolètes sous systemd. Abandonner, nettoyer le préfixe temporaire, relancer openclaw update, capturer les logs.

3) Dérive du registre froid : les métadonnées d’installation des plugins passent dans un registre persistant « froid » ; « fichiers présents, Hub vide » signifie souvent index périmés ou staging en lecture seule vs finaux en écriture — surtout avec routage Ollama et pression RPC approvals. Recouper les notes de version pour les couches OPENCLAW_PLUGIN_STAGE_DIR.

Sous Compose, il faut monter les images et réconcilier les volumes avec les sorties migrate — voir runbook Compose production.

Les VPN d’entreprise en split tunnel cassent parfois signatures ou OCSP ; si les erreurs de vérification semblent aléatoires, réessayez hors VPN pour isoler les middleboxes.

Désignez un responsable explicite pour « qui approuve les suppressions migrate » afin que l’astreinte à 2 h ne valide pas seule.

Même avec OpenClaw vendored dans un monorepo, CLI globale et checkout local restent deux surfaces de release ; les mélanger donne « doctor OK » alors que le binaire Gateway est antérieur au migrate.

Plusieurs admins partageant un même utilisateur sur jump host : les verrous sur ~/.openclaw peuvent sérialiser migrate — préfixes HOME par ingénieur pour les répétitions.

CI qui appelle openclaw sans la même majeure Node que la prod flanche sur les deps natives optionnelles — figez Volta/asdf dans le job.

Les sauvegardes doivent inclure les chemins launchd LaunchAgents, pas seulement JSON ; les upgrades macOS renomment parfois les labels silencieusement.

Suspendez les tâches cron pendant migrate+update pour éviter deux écrivains SQLite sur le même workspace.

Les gestionnaires de secrets doivent exposer des jetons read-only sur les hôtes de répétition ; ne copiez pas les clés maîtres de prod sur une location sans fenêtre temporelle et rotation.

Moins de ~5 Go libres sur le volume du préfixe temp npm : cause fréquente de faux négatifs de vérification ; surveillez aussi les inodes.

Notez les dist-tags npm et tags git exacts validés — l’audit demandera plus tard.

02. Matrice de décision

Avant la prod, listez les actions qui mutent le disque vs lecture seule.

Action	Écrit le disque	Indisponibilité	Levier de retour
migrate --dry-run	Non	Aucune	—
migrate apply	Oui	Fenêtre courte	Restaurer le tarball
openclaw update	Oui	Redémarrage Gateway	Réinstaller l’ancien tag
doctor / repair	Peut-être	Secondes	Revenir sur les unités
rafraîchissement index plugins	Fichiers d’index	Minutes	Supprimer l’index + repair

Répétez la matrice sur un nœud macOS loué à la journée avant le trafic prod.

Planifiez la capacité : sessions concurrentes pendant migrate ; si les utilisateurs restent connectés, les verrous de base workspace s’allongent.

Désactivez les feature flags risqués pendant la fenêtre ; réactivez après deux doctor réussis sur des hôtes distincts.

Le canary n’aide que si les métriques séparent anciens/nouveaux builds via des stamps dans les logs.

Avec GitOps, committez les sorties migrate dans le même PR que les bumps d’images pour éviter la course des contrôleurs.

Les répétitions WSL2 sont utiles mais diffèrent sur les file watchers ; gardez un passage macOS natif avant intégrations Apple.

Les antivirus d’entreprise mettent parfois en quarantaine les tarballs npm — whitelistez les chemins ou utilisez une location propre.

Alignez finance et ingénierie sur des plafonds de location par changement pour ne pas bloquer un cutover de minuit.

03. Sept étapes

Instantané : archiver ~/.openclaw, workspace, units, compose ; vérifier les fichiers cachés.
Dry-run migrate : openclaw migrate --dry-run ; archiver JSON/texte dans les artefacts CI.
Appliquer migrate : pendant la maintenance ; comparer au plan pour détecter des applies partiels.
Update : d’abord openclaw update --channel stable sur staging ; jamais deux updates en parallèle.
Doctor + fumée : openclaw doctor, --repair si besoin ; santé Gateway et control-ui avec cache-bust.
Répétition sur location : refaire sur macOS jetable ; nettoyage des identifiants via checklist zéro trace (5 étapes).
Observer : 24–48 h de logs denses sur approvals, spawns, installs de plugins avant de réduire les sauvegardes.

Même un Gateway « Linux only » gagne à une répétition macOS si navigateur ou outils desktop sont dans la boucle — voir passerelle Linux VPS pour TLS et unités.

Documentez npm prefix et majeure Node à côté du nom du tarball pour ne pas mélanger les arbres 22 et 24.

Multi-environnements : codez couleur les noms de fichiers systemd pour éviter un systemctl --user restart sur le mauvais hôte.

Si l’import Hermes touche des secrets, rédigez les logs avant ticket.

Minuteur de rollback : si le budget d’erreur fond en 2 h après cutover, exécutez le rollback répété plutôt que d’improviser.

Le staging doit refléter les drapeaux de canal de la prod ; beta en staging et stable en prod masque la dérive de schéma jusqu’au migrate sous charge.

Extensions navigateur et reverse proxies locaux cachent d’anciens bundles control-ui — hard refresh et comparaison de hash après update.

Gateway en loopback derrière nginx : vérifiez la santé directe et proxifiée après migrate — les règles d’en-têtes peuvent différer.

Petite VM : cgroup mémoire peut faire tomber le postinstall Node en OOM — relevez temporairement la limite seulement pendant l’update.

Les auteurs de plugins doivent publier des plages de compatibilité ; les consommateurs refusent les installs sans ligne de matrice testée pour 4.26.

Désactivez les hooks bruyants pendant la fenêtre migrate.

Un seau tableur service→port→TLS→health — mettez-le à jour à la répétition, pas après les surprises prod.

Préparez des modèles de communication pour incidents visibles par les utilisateurs.

04. Commandes

openclaw migrate --dry-run 2>&1 | tee /tmp/openclaw-migrate-plan.log
openclaw migrate
openclaw update --channel stable
openclaw doctor
openclaw doctor --repair
systemctl --user cat openclaw-gateway.service | sed -n '1,120p'

Cherchez d’abord dans les logs verification failed, mixed install, cold registry, plugin stage avant d’accuser les fournisseurs de modèles.

Si Compose monte des racines plugins en lecture seule, confirmez que les overlays en écriture correspondent encore au post-migrate.

Installs air-gap : miroir exact du tarball de répétition ; ne changez pas le checksum au dernier moment.

Logging structuré (Loki/ELK) : marqueurs de phase migrate/update pour la latence par phase.

Les rate limits API peuvent bouger après update quand le catalogue modèle change — surveillez les 429.

La contre-pression webhooks peut masquer la disponibilité Gateway — videz les files avant de déclarer le succès.

Testez la restauration des sauvegardes chaque trimestre — une archive jamais restaurée n’est pas une assurance.

05. Métriques et mythes

Métrique 1 : environ 27–41 % des incidents Gateway post-upgrade liés à une vérification d’update ignorée ou à des chemins dist d’unité obsolètes.
Métrique 2 : l’adoption du dry-run migrate corrèle avec 33–52 % de suppressions de configuration accidentelles en moins dans les rétros.
Métrique 3 : une répétition macOS complète avant prod a réduit les déclencheurs de rollback de 19–31 % vs npm direct en prod.

Mythe A : « Les point releases sautent migrate. » B : « Les avertissements sont du bruit. » C : « Suffit de bump l’image Compose. »

Mettez en pause la rotation des clés API pendant les échecs de vérification pour éviter des secrets à moitié tournés.

Observabilité : taguez semver + git sha dans les logs.

Documentation : ne laissez pas le plan JSON uniquement dans le chat — attachez-le au ticket de changement.

Répétez les commandes de rollback sur le nœud loué, pas seulement la voie avant.

La conformité demande des preuves de revue de plan — initiales du relecteur dans le nom du JSON.

Stockage objet : versioning sur la fenêtre d’observation 48 h puis expiration pour maîtriser le coût.

Pas de bascule cross-région automatique pendant migrate sans test — split-brain sur le store de sessions.

Re-baselinez les SLO de latence approvals RPC après update.

Notifications astreinte avec semver + hostname pour éviter le double triage.

Si OpenClaw est embarqué dans de gros targets systemd, revérifiez l’ordre des dépendances après changement de dist.

Même sans incident, un court post-mortem documente les apprentissages.

06. Héroïsme sur prod vs répétition macOS et location

Mettre à jour l’unique hôte prod sur place économise une heure de préparation mais couple le trafic à des mouvements de paquets risqués et à des preuves de rollback floues. Si vous avez besoin de plans migrate auditables, d’un ordre de vérification répétable et du CLI macOS natif, répétez d’abord sur un Mac isolé. Achat inutile : la location Mac à la journée transforme la répétition en OPEX et finit par un nettoyage des identifiants.

Combinez la FAQ SSH/VNC et le guide tarifs Mac mini M4 ; l’entrée produit reste sur la page d’accueil MacDate.

Les nœuds loués valident aussi des piles TLS différentes des défauts Linux — utile pour Safari et les magasins de confiance Apple.

Cadrez dans le temps et le SKU minimal encore compatible avec vos builds ; au-delà du point de rendement, payer plus n’achète pas de confiance.

Après une répétition réussie, collez la transcription de commandes (redigée) dans le change record pour que la prod reproduise l’ordre prouvé.

Traitez la répétition louée comme une habitude d’exploitation, pas un luxe ponctuel ; amortissez-la sur chaque semver.

Passage de relais multi-équipes : un propriétaire unique pour supprimer les identifiants temporaires de location ; comptes admin partagés augmentent le risque d’audit.

Mesurez la latence interactive avant/après update — les utilisateurs perçoivent les régressions avant les métriques brutes.

Notez quelles intégrations tierces étaient hors ligne pendant la fenêtre pour éviter les fausses pistes support.

Ajoutez dans le repo un lien vers ce runbook pour que les nouveaux contributeurs héritent de la discipline d’upgrade.

Automatisez le diff semver vs notes de version ; les humains décident, les surprises diminuent.

Planifiez un micro-sync Slack après la fenêtre d’observation pour capturer les surprises pendant que c’est frais.

Dans le ticket de release, reliez plans migrate, logs update et sorties doctor pour l’audit trimestriel.

Paquet de preuves audit : JSON dry-run, log npm avec dist-tag, premier openclaw doctor réussi après update, capture ou curl avec hashes control-ui — tout près du ticket, pas éparpillé dans les chats.

Si OPENCLAW_PLUGIN_STAGE_DIR est sur une petite partition, l’épuisement d’inodes ressemble à des échecs de vérification aléatoires — df -h et df -i sur le volume qui porte npm temp et le staging plugins.

Ordre d’upgrade des listeners Gateway : drainer webhooks, arrêter workers, mettre à jour CLI, migrate si requis, redémarrer Gateway, relancer workers. Sans drain : fichiers workspace semi-écrits puis verrous SQLite.

Blue/green : gardez la pile inactive sur l’ancien semver jusqu’à la fin de la fenêtre ; DNS anticipé sans parité binaire recrée l’arbre mixte au load balancer.

Dans la même session shell que l’échec de vérification, capturez node -p process.version, npm prefix -g et le chemin résolu de openclaw — login vs non-login est une variable cachée fréquente.

Symptômes de registre froid persistants : différenciez manifeste disque vs réponse Hub avec horodatage ; API en retard sur le disque = cache/CDN.

Répétez la rotation des secrets sur staging avec le même jeu de plugins que la prod — migrate réécrit parfois des chemins lus par le coffre.

Affichez l’umask effectif du compte service Gateway avant/après update — un resserrement silencieux des droits sur volumes partagés provoque des boucles de reconstruction d’index plugins.

Bannière de rollback d’une ligne dans le template de page de statut pendant la fenêtre — moins de tickets doublons quand le CDN retarde de minutes.