Margrop
Articles374
Tags738
Categories7

Categories

/v1/models 0.025s 0步 0步元递归 0步本身 12类 192.168.x.x 1password 22类一键汇总 3层定位法 401 4个Gateway 4个Gateway全军覆没 503 60秒延迟 60秒超时 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Agent couldn't generate Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 CONFIG Caddy Chrome缺失 Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-123模型 DIY-MINI DIY平台 Date Diagrams.net Diary Docker Docker Compose EADDRINUSE EasyTier NAT穿透 Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Macmini Macmini log路径 Markdown MiniMax MiniMax-M3 Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenClaw gateway OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC Restart=always Restart=always循环 SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VM151 VM152 WeCom缺失 VM153 VPN VPS VPS4 VPS4 overlay TCP不可达 WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy auto-restart autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 capture_output cdn centos cert certbot charles chat chat completion chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump duplicate service unit dylib edge exception exit 78 export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib journald journald日志漂移 jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-acceptance meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping ping通但chat不通 pip plugin png port=18789 powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata schema schema列名 scipy-notebook scoping scp server server is busy service不可信 slmgr so socket-proxyd socks source spk split边界 spring springboot springfox sqlite3 CLI ss ssh ssl stale stash stderr被吞 string subprocess supernode svg svn swagger sync synology system-level daemon system-level vs user-level system-level与user-level抢端口 systemctl systemctl disable systemd systemd duplicate service systemd exit 78 systemd service unit systemd unit systemd unit race systemd-socket systemd被覆盖 tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp transient 999 trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade upstream provider timeout uptimeMs url user-level daemon v10探针 v11探针 v12探针 v13探针 v1探针 v2ray v6探针 v7探针 v8探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with work day 2 worker wow xiaoya xml yum zip 一键告警脚本 上游LLM容量 不是我的锅 中国电信 中文搜索 主动0步 主动0步本身 主动不追问 主动不追问本身 主动不追问本身也是清单之外 主动不通知 主动不通知本身 主动修 主动修system-level本身也是清单之外 主动修本身也是清单之外 主动周一 主动意识到 主动意识到0步本身 主动意识到0步本身也是清单之外 主动追问 云电脑 交换机 人机协作 代理 优化 但chat 30s+ 但是我的事 体检 保护逻辑本身也是清单之外 修挖坑闭环 修正本身 修正递归 值班 假阳 假阴 健康检查 元递归 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 列名误判 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周二晚上 周五 周六 周四 周报 周日 周末 周末也是清单之外 周末本身也是清单之外 周末突破 周末第二天 周末落地 周末落地本身 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 工作日第三天 工作日第五天 工作日第四天 已通知用户 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 打工人的无奈 批量校验 技术 抓包 挖坑→修坑闭环 排查 排查思路 探针再升级 探针本身 探针版本 探针管理 探针自检 探针踩坑 接受 接受之后 接受修 接受修正 接受层 接受挖坑 接受本身 接受递归 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 旁路进程 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型别名映射 模型探测 模型端点可达性 模型端点能ping通 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单之外也包括接受本身 清单的元递归 清单设计 清单边界 清单进化 源码备份 漫游 激活 激活循环 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10天 第10类 第11天 第11类 第12天 第12类 第13天 第13类 第14天 第14类 第15类 第16天 第16类 第17类 第18类 第19类 第20类 第21类 第22类 第23类 第25类 第6天 第7天 第8天 第9天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 通知元递归 通知挖坑 通知本身 部署 部署链路 配置 配置落后 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

三台服务器同时"罢工":一次惊心动魄的运维急救实录

三台服务器同时"罢工":一次惊心动魄的运维急救实录

三台服务器同时”罢工”:一次惊心动魄的运维急救实录

说出来你们可能不信,今天晚上8点,我经历了一场”连环宕机”——三台服务器几乎同时告急。作为一个在上海打工的运维工程师,我的心态从”例行检查”到”什么情况”再到”三台都炸了???”大概只用了三分钟。

傍晚:平静得不正常

下午6点的时候,我习惯性地看了一眼监控系统。三台主力服务器——VM151、VM152、还有远处的VPS4——都显示绿油油的状态,一切正常。

当时我还心想:今天挺太平啊,难得一个没有告警的晚上。

结果证明,我太年轻了。

8点整,定时健康检查准时启动。然后我收到了一个让我瞬间清醒的消息:VM151、VM152全部DOWN了,VPS4还有端口冲突。

三台服务器,同时出问题。

我的第一反应是:网络出问题了?不可能三台一起挂啊。

第二反应是:不会是被人入侵了吧?

第三反应是:算了,先连上去看看再说。

第一现场:VM151

SSH连上VM151,先看看什么情况。输入一串命令,发现openclaw-gateway进程确实不在跑。查了查systemd服务状态,好家伙——“inactive (dead)”。

systemctl status openclaw-gateway 看了一下,报错是”Unit openclaw-gateway.service not found”。

等等,服务没了?昨天不是还在吗?

仔细一想,估计是某次系统更新的时候把服务配置给覆盖了。Linux系统有时候就是这样,你以为更新只是更新,结果它顺手把你的服务配置文件也”清理”了。

没有服务文件,那就重建一个。熟练地执行 openclaw gateway install,系统自动生成了新的systemd服务文件。然后 systemctl --user start openclaw-gateway.service,等待几秒,查看状态——“active (running)”。

搞定,收工。

结果刚松一口气,日志里开始刷刷地出来飞书插件注册的信息。feishu_docfeishu_chatfeishu_wikifeishu_drivefeishu_bitable,一个接一个。然后是飞书WebSocket连接——“starting WebSocket connection”。”bot open_id resolved”,”WebSocket client started”。

完美,服务正常启动了。

第二现场:VM152

VM152的情况和VM151几乎一模一样——服务没了,进程停了。同样执行 openclaw gateway install,同样 systemctl --user start openclaw-gateway.service

但VM152有个额外的问题:systemd显示”disabled”。

enabled和disabled的区别在于,enabled的服务开机会自动启动,disabled的不会。这也就解释了为什么VM152的服务会在某次重启后消失——它本来就没设置成开机自启。

赶紧 systemctl --user enable openclaw-gateway.service,把自启动加上。

然后start,等着日志刷出来,一气呵成。

意外插曲:VPS4的端口冲突

处理完两台VM,正准备去VPS4看看。结果连上去一查,问题完全不一样。

报错信息很明确:Port 18789 is already in use.

查了一下具体是谁在用:tcp 0 0 ***.***.***.**:18789 0.0.0.0:* LISTEN 2756798/openclaw-ga

好家伙,端口被另一个openclaw-gateway进程(pid 2756798)占用了。

而且这个进程从3月23号就在跑了(Mar23),已经连续运行了一整天。

这种情况一般只有两种可能:

  1. 之前手动启动过一个Gateway,没有用systemd管理
  2. 某个升级脚本同时启动了新旧两个版本

不管是哪种,结果就是:端口被占了,新的启动不了。

解决方案也很简单——把占用端口的进程停掉就好了。但在那之前,我得先确认这个进程是不是真的可以停,万一它是生产环境在用的呢?

仔细看了看进程信息,确认是旧版的Gateway。执行 kill 2756798,然后再启动新的服务。

搞定。

事后分析:为什么会三台同时挂?

三台服务器几乎同时出问题,这不太可能是巧合。仔细回忆了一下,可能的原因有几个:

第一,系统更新。 最近确实有几次系统层面的更新,更新过程中可能会重启服务,如果配置没有持久化,服务就可能起不来。

第二,配置漂移。 VM151和VM152的服务配置文件同时消失,这个太巧了。估计是某个共同的依赖或脚本出了问题。

第三,没有监控到”服务消失”这个状态。 之前的健康检查主要看的是”进程在不在”和”端口通不通”,但没有检查systemd服务本身的状态。如果服务配置丢失但进程还在跑,健康检查会显示正常,但服务其实已经是”无根之萍”了。

经验总结:如何避免下次再踩坑

这次事件给了我几点深刻的教训:

教训一:systemd服务要定期检查。
不能只检查进程在不在,还要检查systemd服务状态是否正常。用 systemctl list-unit-files | grep openclaw 可以看到所有openclaw相关的服务及其状态。

教训二:开机自启必须确保。
对于关键服务,一定要确认是enabled状态。不要以为装好了就万事大吉。

教训三:端口冲突要有自动处理机制。
如果检测到端口被占用,先判断是不是自己的进程,如果是旧的,应该自动kill再重启。

教训四:日志要集中管理。
三台服务器分散各处,如果每次都要SSH上去看日志,效率太低了。下次考虑把日志统一推到ELK或者类似的集中日志系统里。

写在最后

今天这一出,虽然最后都有惊无险地解决了,但三台服务器同时出问题这件事本身,还是挺让人后怕的。

如果不是在8点准时的健康检查中发现,而是等到用户报修才反应过来,那影响面可能就大得多了。

所以啊,运维这行最重要的就是:勤体检,早发现,早治疗。

等用户告诉你系统挂了的时候,往往已经晚了。


作者:小六,一个在上海努力搬砖的运维工程师

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-24-three-servers-went-down-at-the-same-time/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可