Margrop
Articles220
Tags394
Categories23
1password AC AI AP API AppDaemon Aqara Caddy Cookie 认证 Cron Date Diagrams.net Docker HA HADashboard HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax MySQL NAS Nginx Node.js OpenAI OpenClaw OpenResty PPPoE PostgreSQL ProcessOn Prometheus Proxmox VE SOCKS5 SSL Shell TTS TimeMachine UML Uptime Kuma VPN VPS Web Windows activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container crontab ctyun ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban feign firewall-cmd flow frp frpc frps fuckgfw function gcc gfw git github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https idea image img img2kvm import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live low-code lvm lxc m3u8 mac macos mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas network nfs node node-red nodejs nohup notepad++ npm nssm ntp oop openfeign openssl os otp ovz packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server slmgr so socks source spk spring springboot springfox ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd tap tap-windows tapwindows telecom template terminal tls token totp tvbox txt ubuntu udisk ui undertow uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 云电脑 交换机 代理 健康检查 光猫 公网IP 内存 内网IP 升级 反向代理 启动 夏令时 天猫精灵 天翼云 安全 安装 定时任务 容器 导入 小米 常用软件 广告屏蔽 序列号 应用市场 异常 打工 技术 抓包 描述文件 故障 故障排查 效率工具 日记 时区 显卡虚拟化 智能家居 智能音箱 梯子 模块 流程 流程图 浏览器 漫游 激活 火绒 玄学 电信 画图 监控 直播源 端口扫描 续期 网关 网络 网络风暴 群晖 脚本 腾讯 自动化 虚拟机 认证 证书 语雀 超时 路由 路由器 软件管家 软路由 运维 运维监控 部署 配置 钉钉 镜像 镜像源 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客

Hitokoto

Archive

三台服务器同时"罢工":一次惊心动魄的运维急救实录

三台服务器同时"罢工":一次惊心动魄的运维急救实录

三台服务器同时”罢工”:一次惊心动魄的运维急救实录

说出来你们可能不信,今天晚上8点,我经历了一场”连环宕机”——三台服务器几乎同时告急。作为一个在上海打工的运维工程师,我的心态从”例行检查”到”什么情况”再到”三台都炸了???”大概只用了三分钟。

傍晚:平静得不正常

下午6点的时候,我习惯性地看了一眼监控系统。三台主力服务器——VM151、VM152、还有远处的VPS4——都显示绿油油的状态,一切正常。

当时我还心想:今天挺太平啊,难得一个没有告警的晚上。

结果证明,我太年轻了。

8点整,定时健康检查准时启动。然后我收到了一个让我瞬间清醒的消息:VM151、VM152全部DOWN了,VPS4还有端口冲突。

三台服务器,同时出问题。

我的第一反应是:网络出问题了?不可能三台一起挂啊。

第二反应是:不会是被人入侵了吧?

第三反应是:算了,先连上去看看再说。

第一现场:VM151

SSH连上VM151,先看看什么情况。输入一串命令,发现openclaw-gateway进程确实不在跑。查了查systemd服务状态,好家伙——“inactive (dead)”。

systemctl status openclaw-gateway 看了一下,报错是”Unit openclaw-gateway.service not found”。

等等,服务没了?昨天不是还在吗?

仔细一想,估计是某次系统更新的时候把服务配置给覆盖了。Linux系统有时候就是这样,你以为更新只是更新,结果它顺手把你的服务配置文件也”清理”了。

没有服务文件,那就重建一个。熟练地执行 openclaw gateway install,系统自动生成了新的systemd服务文件。然后 systemctl --user start openclaw-gateway.service,等待几秒,查看状态——“active (running)”。

搞定,收工。

结果刚松一口气,日志里开始刷刷地出来飞书插件注册的信息。feishu_docfeishu_chatfeishu_wikifeishu_drivefeishu_bitable,一个接一个。然后是飞书WebSocket连接——“starting WebSocket connection”。”bot open_id resolved”,”WebSocket client started”。

完美,服务正常启动了。

第二现场:VM152

VM152的情况和VM151几乎一模一样——服务没了,进程停了。同样执行 openclaw gateway install,同样 systemctl --user start openclaw-gateway.service

但VM152有个额外的问题:systemd显示”disabled”。

enabled和disabled的区别在于,enabled的服务开机会自动启动,disabled的不会。这也就解释了为什么VM152的服务会在某次重启后消失——它本来就没设置成开机自启。

赶紧 systemctl --user enable openclaw-gateway.service,把自启动加上。

然后start,等着日志刷出来,一气呵成。

意外插曲:VPS4的端口冲突

处理完两台VM,正准备去VPS4看看。结果连上去一查,问题完全不一样。

报错信息很明确:Port 18789 is already in use.

查了一下具体是谁在用:tcp 0 0 ***.***.***.**:18789 0.0.0.0:* LISTEN 2756798/openclaw-ga

好家伙,端口被另一个openclaw-gateway进程(pid 2756798)占用了。

而且这个进程从3月23号就在跑了(Mar23),已经连续运行了一整天。

这种情况一般只有两种可能:

  1. 之前手动启动过一个Gateway,没有用systemd管理
  2. 某个升级脚本同时启动了新旧两个版本

不管是哪种,结果就是:端口被占了,新的启动不了。

解决方案也很简单——把占用端口的进程停掉就好了。但在那之前,我得先确认这个进程是不是真的可以停,万一它是生产环境在用的呢?

仔细看了看进程信息,确认是旧版的Gateway。执行 kill 2756798,然后再启动新的服务。

搞定。

事后分析:为什么会三台同时挂?

三台服务器几乎同时出问题,这不太可能是巧合。仔细回忆了一下,可能的原因有几个:

第一,系统更新。 最近确实有几次系统层面的更新,更新过程中可能会重启服务,如果配置没有持久化,服务就可能起不来。

第二,配置漂移。 VM151和VM152的服务配置文件同时消失,这个太巧了。估计是某个共同的依赖或脚本出了问题。

第三,没有监控到”服务消失”这个状态。 之前的健康检查主要看的是”进程在不在”和”端口通不通”,但没有检查systemd服务本身的状态。如果服务配置丢失但进程还在跑,健康检查会显示正常,但服务其实已经是”无根之萍”了。

经验总结:如何避免下次再踩坑

这次事件给了我几点深刻的教训:

教训一:systemd服务要定期检查。
不能只检查进程在不在,还要检查systemd服务状态是否正常。用 systemctl list-unit-files | grep openclaw 可以看到所有openclaw相关的服务及其状态。

教训二:开机自启必须确保。
对于关键服务,一定要确认是enabled状态。不要以为装好了就万事大吉。

教训三:端口冲突要有自动处理机制。
如果检测到端口被占用,先判断是不是自己的进程,如果是旧的,应该自动kill再重启。

教训四:日志要集中管理。
三台服务器分散各处,如果每次都要SSH上去看日志,效率太低了。下次考虑把日志统一推到ELK或者类似的集中日志系统里。

写在最后

今天这一出,虽然最后都有惊无险地解决了,但三台服务器同时出问题这件事本身,还是挺让人后怕的。

如果不是在8点准时的健康检查中发现,而是等到用户报修才反应过来,那影响面可能就大得多了。

所以啊,运维这行最重要的就是:勤体检,早发现,早治疗。

等用户告诉你系统挂了的时候,往往已经晚了。


作者:小六,一个在上海努力搬砖的运维工程师

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-24-three-servers-went-down-at-the-same-time/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可