Margrop
Articles374
Tags738
Categories7

Categories

/v1/models 0.025s 0步 0步元递归 0步本身 12类 192.168.x.x 1password 22类一键汇总 3层定位法 401 4个Gateway 4个Gateway全军覆没 503 60秒延迟 60秒超时 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Agent couldn't generate Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 CONFIG Caddy Chrome缺失 Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-123模型 DIY-MINI DIY平台 Date Diagrams.net Diary Docker Docker Compose EADDRINUSE EasyTier NAT穿透 Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Macmini Macmini log路径 Markdown MiniMax MiniMax-M3 Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenClaw gateway OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC Restart=always Restart=always循环 SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VM151 VM152 WeCom缺失 VM153 VPN VPS VPS4 VPS4 overlay TCP不可达 WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy auto-restart autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 capture_output cdn centos cert certbot charles chat chat completion chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump duplicate service unit dylib edge exception exit 78 export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib journald journald日志漂移 jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-acceptance meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping ping通但chat不通 pip plugin png port=18789 powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata schema schema列名 scipy-notebook scoping scp server server is busy service不可信 slmgr so socket-proxyd socks source spk split边界 spring springboot springfox sqlite3 CLI ss ssh ssl stale stash stderr被吞 string subprocess supernode svg svn swagger sync synology system-level daemon system-level vs user-level system-level与user-level抢端口 systemctl systemctl disable systemd systemd duplicate service systemd exit 78 systemd service unit systemd unit systemd unit race systemd-socket systemd被覆盖 tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp transient 999 trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade upstream provider timeout uptimeMs url user-level daemon v10探针 v11探针 v12探针 v13探针 v1探针 v2ray v6探针 v7探针 v8探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with work day 2 worker wow xiaoya xml yum zip 一键告警脚本 上游LLM容量 不是我的锅 中国电信 中文搜索 主动0步 主动0步本身 主动不追问 主动不追问本身 主动不追问本身也是清单之外 主动不通知 主动不通知本身 主动修 主动修system-level本身也是清单之外 主动修本身也是清单之外 主动周一 主动意识到 主动意识到0步本身 主动意识到0步本身也是清单之外 主动追问 云电脑 交换机 人机协作 代理 优化 但chat 30s+ 但是我的事 体检 保护逻辑本身也是清单之外 修挖坑闭环 修正本身 修正递归 值班 假阳 假阴 健康检查 元递归 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 列名误判 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周二晚上 周五 周六 周四 周报 周日 周末 周末也是清单之外 周末本身也是清单之外 周末突破 周末第二天 周末落地 周末落地本身 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 工作日第三天 工作日第五天 工作日第四天 已通知用户 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 打工人的无奈 批量校验 技术 抓包 挖坑→修坑闭环 排查 排查思路 探针再升级 探针本身 探针版本 探针管理 探针自检 探针踩坑 接受 接受之后 接受修 接受修正 接受层 接受挖坑 接受本身 接受递归 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 旁路进程 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型别名映射 模型探测 模型端点可达性 模型端点能ping通 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单之外也包括接受本身 清单的元递归 清单设计 清单边界 清单进化 源码备份 漫游 激活 激活循环 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10天 第10类 第11天 第11类 第12天 第12类 第13天 第13类 第14天 第14类 第15类 第16天 第16类 第17类 第18类 第19类 第20类 第21类 第22类 第23类 第25类 第6天 第7天 第8天 第9天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 通知元递归 通知挖坑 通知本身 部署 部署链路 配置 配置落后 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

OpenClaw Gateway 多节点故障排查与 systemd 服务恢复实战指南

OpenClaw Gateway 多节点故障排查与 systemd 服务恢复实战指南

OpenClaw Gateway 多节点故障排查与 systemd 服务恢复实战指南

前言

今天晚上8点,我们的监控系统同时检测到三台运行 OpenClaw Gateway 的服务器出现问题:VM151 和 VM152 的 Gateway 服务停止运行,VPS4 存在端口冲突导致新进程无法启动。本文将详细记录这次故障的完整排查和修复过程,并提供系统化的诊断思路和解决方案。

问题现象

故障节点概览

节点 角色 问题现象 严重程度
VM151 主力Gateway节点 systemd服务消失,进程停止 🔴 严重
VM152 备用Gateway节点 systemd服务消失,进程停止 🔴 严重
VPS4 远程Gateway节点 端口18789被占用,新进程无法启动 🟡 中等

具体报错信息

VM151 / VM152 报错:

1
2
3
Failed to start openclaw-gateway.service: Unit openclaw-gateway.service not found.
Runtime: stopped (state inactive, sub dead, last exit 0, reason 0)
RPC probe: failed

VPS4 报错:

1
2
3
Port 18789 is already in use.
- pid 2756798 node: openclaw-gateway (***.***.***.**:18789)
- Gateway already running locally. Stop it (openclaw gateway stop) or use a different port.

排查过程

第一步:并行检测所有节点状态

面对多节点故障,第一步应该是并行检测所有节点的状态,避免串行排查浪费时间。使用批量SSH命令同时获取多台机器的信息:

1
2
3
4
5
6
7
8
9
10
11
#!/bin/bash
# 并行检测脚本

NODES=("root@***.***.***.***" "root@***.***.***.***" "root@***.***.***.**")

for node in "${NODES[@]}"; do
echo "=== Checking $node ==="
ssh -o ConnectTimeout=10 "$node" "openclaw status --json 2>/dev/null | head -50" &
done

wait

第二步:检查 systemd 服务状态

在每台节点上分别检查 systemd 服务的状态:

1
2
3
4
5
6
7
8
9
# 查看 openclaw 相关服务单元文件
systemctl list-unit-files | grep openclaw

# 查看服务详细状态
systemctl status openclaw-gateway.service --no-pager

# 查看 user 层的服务
systemctl --user list-unit-files | grep openclaw
systemctl --user status openclaw-gateway.service --no-pager

VM151/VM152 的问题根源: systemctl 服务文件不存在,但进程可能还在运行(被某个方式启动了,但没有用 systemd 管理)。

第三步:检查端口和进程状态

1
2
3
4
5
6
7
8
9
10
# 检查端口占用
ss -tlnp | grep 18789
# 或
netstat -tlnp | grep 18789

# 检查 openclaw 相关进程
ps aux | grep openclaw

# 检查进程启动时间和运行状态
ps -eo pid,lstart,cmd | grep openclaw

VPS4 的问题根源: 存在一个从昨天就启动的旧版 openclaw-gateway 进程(pid 2756798,Mar23 启动),占用了端口 18789,导致新版服务无法启动。

第四步:分析服务配置文件

1
2
3
4
5
# 查看服务配置文件
cat ~/.config/systemd/user/openclaw-gateway.service

# 查看 openclaw 配置
cat ~/.openclaw/openclaw.json | jq '.'

解决方案

方案一:重建 systemd 服务(适用于 VM151 / VM152)

当 systemctl 服务单元文件丢失或损坏时,需要重新安装服务:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 1. 安装 systemd 服务(会自动创建服务文件)
openclaw gateway install

# 2. 启用开机自启(必须!)
systemctl --user enable openclaw-gateway.service

# 3. 立即启动服务
systemctl --user start openclaw-gateway.service

# 4. 验证服务状态
systemctl --user status openclaw-gateway.service --no-pager

# 5. 查看日志确认启动正常
journalctl --user -u openclaw-gateway.service -f

关键点: enablestart 要分开执行,并且 enable 必须在 start 之前或者服务已经安装好之后执行。

方案二:解决端口冲突(适用于 VPS4)

端口冲突通常是因为旧进程没有正确关闭,需要先终止旧进程:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 1. 确认占用端口的进程信息
ss -tlnp | grep 18789

# 2. 查看进程启动时间,判断是否是旧进程
ps -p <PID> -o lstart=

# 3. 确认是旧进程后,优雅终止
kill <PID>

# 4. 如果进程没有响应,使用强制终止
kill -9 <PID>

# 5. 等待几秒后启动新服务
sleep 3
systemctl --user start openclaw-gateway.service

# 6. 验证端口现在由正确进程占用
ss -tlnp | grep 18789

注意: 在终止进程之前,务必确认该进程不是生产环境正在使用的正常进程。

方案三:服务状态全面检查脚本

为了避免类似问题再次发生,建议定期执行以下检查脚本:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
#!/bin/bash
# openclaw-gateway-service-check.sh
# 检查所有节点的 OpenClaw Gateway 服务状态

NODES=(
"***.***.***.***"
"***.***.***.***"
"***.***.***.**"
)

echo "========== OpenClaw Gateway 服务全面检查 =========="
echo "时间:$(date '+%Y-%m-%d %H:%M:%S')"
echo ""

for node in "${NODES[@]}"; do
echo "=== $node ==="

# 检查 systemd 服务状态
ssh -o ConnectTimeout=10 "$node" "
echo '[1] systemd 服务状态:'
systemctl --user list-unit-files | grep openclaw || echo ' 无 openclaw 服务单元文件'

echo ''
echo '[2] 服务运行状态:'
systemctl --user status openclaw-gateway.service --no-pager 2>&1 | head -5 || echo ' 服务未运行'

echo ''
echo '[3] 进程状态:'
ps aux | grep -E '[o]penclaw' | head -3 || echo ' 无运行中的进程'

echo ''
echo '[4] 端口占用:'
ss -tlnp 2>/dev/null | grep 18789 || echo ' 端口 18789 未被占用'
" || echo " SSH 连接失败"

echo ""
done

echo "========== 检查完成 =========="

使用方法:

1
2
chmod +x openclaw-gateway-service-check.sh
./openclaw-gateway-service-check.sh

根因分析

为什么 systemd 服务文件会消失?

根据本次故障的排查结果,systemd 服务单元文件丢失的可能原因包括:

  1. 系统更新覆盖配置

    • 某些 Linux 发行版在更新 systemd 或相关包时,可能会清理或重置用户级服务配置
    • 特别是 $HOME/.config/systemd/user/ 目录下的用户服务文件,可能被误认为”不属于任何包”而被清理
  2. 升级过程中配置未迁移

    • 如果 OpenClaw 是通过包管理器安装的,升级时可能会覆盖用户修改的配置文件
    • 建议在升级前备份配置:cp -r ~/.config/systemd ~/.config/systemd.bak.$(date +%Y%m%d)
  3. HOME 目录变更

    • 如果服务的运行环境变量发生变化,可能导致 systemd 无法找到服务文件

预防措施

为避免类似问题再次发生,建议实施以下预防措施:

措施 说明 优先级
服务文件备份 每次修改服务配置后,备份到独立位置 🔴 高
定期检查服务状态 使用 cron 定期执行服务状态检查 🔴 高
使用 enable --now 同时启用并立即启动,避免漏掉 enable 🟡 中
配置版本控制 将服务配置文件纳入 Git 管理 🟡 中
告警阈值优化 当服务状态变化时立即告警 🔴 高

推荐的定时检查 Cron 配置

1
2
3
4
5
# 每小时检查一次服务状态
0 * * * * /opt/scripts/openclaw-gateway-service-check.sh >> /var/log/openclaw-check.log 2>&1

# 如果发现问题,自动尝试恢复并告警
0 * * * * /opt/scripts/openclaw-gateway-auto-heal.sh && /usr/local/bin/send-alert.sh "OpenClaw Gateway 已自动恢复"

一键恢复脚本

以下脚本可用于快速恢复单节点 OpenClaw Gateway 服务:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
#!/bin/bash
# openclaw-gateway-quick-recover.sh
# 快速恢复 OpenClaw Gateway 服务

set -e

echo "========== OpenClaw Gateway 快速恢复 =========="

# 1. 检查 openclaw 是否安装
if ! command -v openclaw &> /dev/null; then
echo "❌ openclaw 命令未找到,请先安装"
exit 1
fi

# 2. 检查服务是否已存在
if systemctl --user list-unit-files | grep -q openclaw-gateway.service; then
echo "✓ 服务单元文件已存在"
else
echo "📦 安装 systemd 服务..."
openclaw gateway install
fi

# 3. 确保服务已启用(开机自启)
echo "⚙️ 启用开机自启..."
systemctl --user enable openclaw-gateway.service

# 4. 检查是否有旧进程占用端口
PORT=$(ss -tlnp 2>/dev/null | grep 18789 || echo "")
if [ -n "$PORT" ]; then
echo "⚠️ 端口 18789 被占用,正在检查..."
OLD_PID=$(echo "$PORT" | grep -oP 'pid=\K[0-9]+')
if [ -n "$OLD_PID" ]; then
echo "🛑 终止旧进程 $OLD_PID..."
kill $OLD_PID || kill -9 $OLD_PID
sleep 2
fi
fi

# 5. 启动服务
echo "🚀 启动服务..."
systemctl --user start openclaw-gateway.service

# 6. 等待服务启动
sleep 3

# 7. 验证服务状态
if systemctl --user is-active --quiet openclaw-gateway.service; then
echo "✅ 服务启动成功!"
systemctl --user status openclaw-gateway.service --no-pager | head -5
else
echo "❌ 服务启动失败,查看日志:"
journalctl --user -u openclaw-gateway.service -n 20 --no-pager
exit 1
fi

echo ""
echo "========== 恢复完成 =========="

使用方法:

1
2
chmod +x openclaw-gateway-quick-recover.sh
sudo ./openclaw-gateway-quick-recover.sh

常见问题解答

Q1:如何判断是 systemd 服务丢失还是进程崩溃?

A:两者表现不同:

  • systemd 服务丢失:进程完全不存在,但手动可以启动进程
  • 进程崩溃:进程不存在,但 systemd 显示服务失败

检查方法:

1
2
3
4
5
# 检查 systemd 服务文件是否存在
ls ~/.config/systemd/user/openclaw-gateway.service

# 检查进程是否在运行
ps aux | grep openclaw

Q2:服务启动后立即停止怎么办?

A:查看详细日志:

1
2
3
4
5
# 查看 user journal 日志
journalctl --user -u openclaw-gateway.service -f

# 或者查看 openclaw 日志文件
tail -f /tmp/openclaw/openclaw-$(date +%Y-%m-%d).log

常见原因:配置文件错误、端口被占用、依赖服务未启动。

Q3:如何彻底排查端口占用问题?

A:按以下步骤排查:

1
2
3
4
5
6
7
8
9
10
11
# 1. 查看端口占用详情
ss -tlnp | grep 18789

# 2. 查看进程启动时间和来源
ps -p <PID> -f

# 3. 检查是否是 openclaw 进程
cat /proc/<PID>/cmdline | tr '\0' ' '

# 4. 如果是 openclaw 旧进程,可以安全终止
kill <PID>

Q4:如何防止升级后服务配置丢失?

A:使用以下策略:

1
2
3
4
5
6
7
8
9
10
11
12
# 1. 升级前备份
cp -r ~/.config/systemd ~/.config/systemd.bak.$(date +%Y%m%d)
cp ~/.openclaw/openclaw.json ~/.openclaw/openclaw.json.bak.$(date +%Y%m%d)

# 2. 升级 openclaw
npm update -g openclaw

# 3. 升级后恢复配置
cp ~/.config/systemd.bak.*/user/openclaw-gateway.service ~/.config/systemd/user/

# 4. 重新加载 systemd
systemctl --user daemon-reload

Q5:多节点如何统一管理服务配置?

A:可以使用配置管理工具如 Ansible 或 Salt,或者使用 GitOps 方式:

1
2
3
4
5
6
# 将配置文件放在 Git 仓库
git clone git@your-git-server:openclaw-config.git ~/.openclaw-config

# 在各节点上使用配置
ln -sf ~/.openclaw-config/openclaw.json ~/.openclaw/openclaw.json
ln -sf ~/.openclaw-config/openclaw-gateway.service ~/.config/systemd/user/

总结

本次故障的核心问题是:systemd 服务单元文件在系统更新过程中丢失,导致三台服务器的服务无法通过 systemd 管理,尽管部分节点上可能还有旧进程在运行。

关键经验:

  1. systemd 服务需要定期检查——不能只检查进程状态
  2. enable 和 start 要同时考虑——enabled 确保开机自启,start 确保立即运行
  3. 端口冲突要先清理旧进程——新服务无法绑定已被占用的端口
  4. 日志是排查的关键——通过 journalctl 可以快速定位启动失败原因

通过本次故障的排查和修复,我们完善了健康检查脚本,增加了 systemd 服务状态的检查项,并编写了一键恢复脚本,确保下次遇到类似问题能够快速响应。


作者:小六,一个在上海努力搬砖的程序员

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-24-openclaw-gateway-multi-node-troubleshooting/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可