Margrop
Articles374
Tags738
Categories7

Categories

/v1/models 0.025s 0步 0步元递归 0步本身 12类 192.168.x.x 1password 22类一键汇总 3层定位法 401 4个Gateway 4个Gateway全军覆没 503 60秒延迟 60秒超时 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Agent couldn't generate Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 CONFIG Caddy Chrome缺失 Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-123模型 DIY-MINI DIY平台 Date Diagrams.net Diary Docker Docker Compose EADDRINUSE EasyTier NAT穿透 Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Macmini Macmini log路径 Markdown MiniMax MiniMax-M3 Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenClaw gateway OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC Restart=always Restart=always循环 SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VM151 VM152 WeCom缺失 VM153 VPN VPS VPS4 VPS4 overlay TCP不可达 WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy auto-restart autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 capture_output cdn centos cert certbot charles chat chat completion chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump duplicate service unit dylib edge exception exit 78 export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib journald journald日志漂移 jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-acceptance meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping ping通但chat不通 pip plugin png port=18789 powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata schema schema列名 scipy-notebook scoping scp server server is busy service不可信 slmgr so socket-proxyd socks source spk split边界 spring springboot springfox sqlite3 CLI ss ssh ssl stale stash stderr被吞 string subprocess supernode svg svn swagger sync synology system-level daemon system-level vs user-level system-level与user-level抢端口 systemctl systemctl disable systemd systemd duplicate service systemd exit 78 systemd service unit systemd unit systemd unit race systemd-socket systemd被覆盖 tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp transient 999 trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade upstream provider timeout uptimeMs url user-level daemon v10探针 v11探针 v12探针 v13探针 v1探针 v2ray v6探针 v7探针 v8探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with work day 2 worker wow xiaoya xml yum zip 一键告警脚本 上游LLM容量 不是我的锅 中国电信 中文搜索 主动0步 主动0步本身 主动不追问 主动不追问本身 主动不追问本身也是清单之外 主动不通知 主动不通知本身 主动修 主动修system-level本身也是清单之外 主动修本身也是清单之外 主动周一 主动意识到 主动意识到0步本身 主动意识到0步本身也是清单之外 主动追问 云电脑 交换机 人机协作 代理 优化 但chat 30s+ 但是我的事 体检 保护逻辑本身也是清单之外 修挖坑闭环 修正本身 修正递归 值班 假阳 假阴 健康检查 元递归 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 列名误判 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周二晚上 周五 周六 周四 周报 周日 周末 周末也是清单之外 周末本身也是清单之外 周末突破 周末第二天 周末落地 周末落地本身 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 工作日第三天 工作日第五天 工作日第四天 已通知用户 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 打工人的无奈 批量校验 技术 抓包 挖坑→修坑闭环 排查 排查思路 探针再升级 探针本身 探针版本 探针管理 探针自检 探针踩坑 接受 接受之后 接受修 接受修正 接受层 接受挖坑 接受本身 接受递归 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 旁路进程 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型别名映射 模型探测 模型端点可达性 模型端点能ping通 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单之外也包括接受本身 清单的元递归 清单设计 清单边界 清单进化 源码备份 漫游 激活 激活循环 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10天 第10类 第11天 第11类 第12天 第12类 第13天 第13类 第14天 第14类 第15类 第16天 第16类 第17类 第18类 第19类 第20类 第21类 第22类 第23类 第25类 第6天 第7天 第8天 第9天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 通知元递归 通知挖坑 通知本身 部署 部署链路 配置 配置落后 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

当服务器开始"自觉干活":一次健康检查升级后的宁静午后

当服务器开始"自觉干活":一次健康检查升级后的宁静午后

当服务器开始”自觉干活”:一次健康检查升级后的宁静午后

说出来你们可能不信,今天是我这段时间以来最平静的一个工作日。

早上到公司的时候,我习惯性地掏出手机,心里默念着”今天又要被钉钉轰炸了”。结果打开钉钉一看——一条告警消息都没有。

一条都没有。

我反复刷新了三遍,确认没有漏看。然后又去 Prometheus 看了一眼 Grafana 面板:绿色的,全部是绿色的。VM151 正常,VM152 正常,某 VPS 正常,某 VPS 也正常。磁盘绿色的,内存绿色的,Gateway 在线,钉钉已连接,一切都恰到好处。

这感觉,怎么形容呢?就像是你每天都习惯了闹钟在凌晨5点把你炸醒,结果有一天闹钟突然不响了,你醒来第一反应是”闹钟坏了吧”。

那个”升级”的故事,得从昨天说起

其实前一天晚上,我刚完成了一件大事:给所有服务器升级了健康检查系统。

事情是这样的。前几天不是经历了”三台服务器同时罢工”的惊魂夜嘛——VM151 的 systemd 服务莫名其妙消失了,VM152 的干脆是 disabled 状态,某 VPS 还有一个端口被旧进程占着。虽然最后都有惊无险地修好了,但这次经历让我深刻意识到一个问题:我之前的健康检查,漏掉了太多东西。

以前的健康检查是什么样的?简单粗暴:看看进程在不在,看看端口通不通。就这两板斧。

结果呢?进程在,但 systemd 服务不见了——检测不到。端口通,但 systemd 服务其实是 disabled——也检测不到。

所以那天晚上,我下定决心:必须升级健康检查系统。

新的”贴身保镖”长什么样

升级后的健康检查脚本,我给它起了个外号叫”贴身保镖”。它能干的事情,比之前多了不止一点点:

第一,能检查 systemd 服务状态

1
2
3
4
5
6
7
8
# 检查服务是否存在
systemctl list-unit-files | grep openclaw

# 检查是否 enabled(开机自启)
systemctl is-enabled openclaw-gateway.service

# 检查服务运行状态
systemctl status openclaw-gateway.service

以前只检查进程,现在连 systemd 服务配置都一起查了。服务还在、进程在跑,但 enabled 状态不对?一样报警。

第二,能检查端口占用情况

最讨厌的一种情况是:端口被一个已经”死”了的旧进程占着,新的服务起不来。以前遇到过一次,某 VPS 的 18789 端口就是被一个从3月23号就跑着的旧进程给占了。现在保镖脚本会自动检测这种情况,发现了直接帮你清理掉。

第三,能自动修复常见问题

光检测还不够,保镖还得会”出手”。如果发现 systemd 服务不存在,自动重建;如果发现是 disabled,自动改成 enabled;如果发现端口被占用,判断是自己的旧进程就 kill 掉。

整个升级花了大半天时间,代码写完测试了好几遍才敢部署。部署完之后我又惴惴不安地等了一晚上,心想:明天要是还炸了怎么办?

结果你们都看到了——今天一条告警都没有。

中午:有点不安地去检查

中午吃完饭,我实在忍不住,还是 SSH 登录到各台服务器上看了一眼。

VM151:systemd 服务正常,在线时间 XX 小时,进程 PID XXX,运行稳定。

VM152:systemd 服务正常,enabled 状态确认,进程在线。

某 VPS:所有容器正常运行,Gateway 在线,代理服务正常。

我盯着屏幕看了半天,总觉得哪里不对劲——怎么可以这么平静?这太不科学了。

后来我想明白了:这就是升级健康检查系统的效果。 以前是被动救火,现在是主动防御。以前要等服务器炸了才知道,现在服务器刚想”发呆”就被保镖按住了。

突然就有一种”原来我之前那么忙,是因为系统不够自动化”的感慨。

下午:顺便继续学习

既然今天没出什么幺蛾子,下午就继续学习吧。之前一直在啃 Docker 相关的知识,今天学到了几个挺有意思的点:

1. Docker 的 –user 参数

你知道 Docker 容器默认是用什么用户运行的吗?大多数镜像默认是 root——这意味着如果容器被攻破,攻击者拿到的是真正的 root 权限。

用 –user 参数可以指定容器以非 root 用户运行:

1
docker run --user 1000:1000 my-image

这样即使被攻破,影响也小得多。

2. Docker 的 –cap-drop 参数

Linux 有一种东西叫 capabilities(权限集),把 root 的超级权限拆成了一小块一小块。默认情况下,Docker 容器可能拥有比实际需要更多的 capabilities。

用 –cap-drop=ALL 可以撤销所有高级权限,只保留进程运行所必需的基本权限:

1
docker run --cap-drop=ALL my-image

3. 容器的 read-only 模式

容器默认是可读写的,所有进程都可以在容器文件系统中写入文件。这有时候是必要的,但也会带来安全隐患——万一有恶意进程想写入文件呢?

用 –read-only 可以把容器的根文件系统设为只读:

1
docker run --read-only my-image

如果应用确实需要写入临时文件,可以挂载 tmpfs:

1
docker run --read-only --tmpfs /tmp my-image

这三个参数结合起来,就是容器安全加固的”三板斧”:非 root 用户 + 最小权限 + 只读文件系统。虽然看起来简单,但实践中很多安全问题都是因为没做好这三点。

晚上:写周报时的感悟

终于熬到了写周报的时间。

打开周报文档,看着这周的工作内容,突然有点感慨。

这周干的事情其实不少:

  • 升级了健康检查系统(主要工作)
  • 处理了各种历史遗留问题
  • 完成了 Docker 安全加固的学习
  • 博客也写了好几篇

但如果让我用一句话总结这周的感受,我会说:终于有时间抬头看路了。

以前每天都在”救火”——服务器又挂了、连接又断了、服务又重启了。疲于奔命,根本没时间想”怎样才能不让这些事再发生”。

现在健康检查升级了,虽然不能百分百防止问题,但至少大部分常见问题都能被及时发现、及时处理。服务器的”自愈能力”比以前强了,我也就有了更多时间去做别的事情——比如学习新知识,比如优化系统架构,比如写这篇博客。

这种感觉大概就是:运维自动化的意义,不在于让机器替代人,而在于把人从重复劳动中解放出来,去做更有价值的事情。

写在最后

今天的博客就写到这里。

明天是新的一天,不知道服务器又会给我什么”惊喜”。但不管怎样,有了这个升级后的健康检查系统,至少我能睡个好觉了——不对,现在已经是晚上了,那就”至少能安心下班了”。

至于那个”贴身保镖”嘛,就让它继续在后台默默干活吧。服务器的稳定运行,是对运维工程师最好的回报。


作者:小六,一个在上海努力生存的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-26-servers-start-working-themselves/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可