Margrop
Articles227
Tags397
Categories23
1password AC AI AP API AppDaemon Aqara Caddy Cookie 认证 Cron Date Diagrams.net Docker Docker Compose HA HADashboard HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax MySQL NAS Nginx Node.js OpenAI OpenClaw OpenResty PPPoE PostgreSQL ProcessOn Prometheus Proxmox VE SOCKS5 SSL Shell TTS TimeMachine UML Uptime Kuma VPN VPS Web Windows activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container crontab ctyun ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban feign firewall-cmd flow frp frpc frps fuckgfw function gcc gfw git github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https idea image img img2kvm import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live low-code lvm lxc m3u8 mac macos mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas network nfs node node-red nodejs nohup notepad++ npm nssm ntp oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server slmgr so socks source spk spring springboot springfox ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd tap tap-windows tapwindows telecom template terminal tls token totp tvbox txt ubuntu udisk ui undertow uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 云电脑 交换机 代理 健康检查 光猫 公网IP 内存 内网IP 升级 反向代理 启动 夏令时 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 常用软件 广告屏蔽 序列号 应用市场 异常 打工 技术 抓包 描述文件 故障 故障排查 效率工具 日记 时区 显卡虚拟化 智能家居 智能音箱 梯子 模块 流程 流程图 浏览器 漫游 激活 火绒 玄学 电信 画图 监控 直播源 端口扫描 续期 网关 网络 网络风暴 群晖 脚本 腾讯 自动化 虚拟机 认证 证书 语雀 超时 路由 路由器 软件管家 软路由 运维 运维监控 部署 配置 钉钉 镜像 镜像源 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客

Hitokoto

Archive

当监控面板全绿时,我在想什么

当监控面板全绿时,我在想什么

当监控面板全绿时,我在想什么

说出来你们可能不信,今天是我这段时间以来最”无所事事”的一个工作日。

早上到公司,习惯性地掏出手机准备迎接今天的”钉钉轰炸”——结果打开一看,一条告警消息都没有。我反复确认了三遍,甚至去 Prometheus 又刷新了一遍:绿色的,全部是绿色的。VM151 正常,VM152 正常,某VPS 正常,某VPS 也正常。磁盘绿色的,内存绿色的,Gateway 在线,钉钉已连接,一切都恰到好处。

这种感觉很奇妙。就像是你每天出门都习惯了堵车,结果有一天突然一路绿灯,你反而会想:今天是不是哪里出问题了?

早上:习惯性的紧张

早上泡咖啡的时候,我的手已经形成了肌肉记忆——先打开监控面板,看看有没有红色的告警。

习惯来源于恐惧。

之前那些”惊心动魄”的日子还历历在目:半夜被钉钉叫醒,说某台服务器挂了;早上刚到公司就发现三台机器同时罢工;某VPS 的端口暴露在公网上,差点被人扫描到……

这些经历告诉我一个道理:没有告警不代表真的没问题,往往是问题还没被发现。

所以即使今天面板全绿,我还是习惯性地 SSH 到各台服务器上看了一眼:

1
2
3
4
5
6
7
8
9
10
11
# VM151
docker ps --format "table {{.Names}}\t{{.Status}}"
systemctl status openclaw-gateway | grep Active

# VM152
docker ps --format "table {{.Names}}\t{{.Status}}"
systemctl status openclaw-gateway | grep Active

# p14(某VPS)
docker ps
curl -s http://localhost:18789/health

结果:所有服务都在正常运行。没有任何异常。

我盯着屏幕看了足足三十秒,心里那个”总觉得哪里不对劲”的感觉才慢慢消退。

可能这就是职业病吧——服务器不炸,反而让人觉得不真实。

中午:反思一下

中午吃完饭,我坐在工位上发了一会儿呆,顺便反思了一下:为什么今天能这么平静?

想了想,有几个原因:

第一,前几天的”大扫除”起作用了。

前阵子不是刚经历过”三台服务器同时罢工”的惊魂夜嘛,那次之后我痛定思痛,花了一整天升级了健康检查系统。现在的检查脚本不仅能检测进程存活,还能检查 systemd 服务状态、端口占用情况,甚至能自动修复一些常见问题。

正是因为有了这些”自动化保镖”,今天我才能安心地喝咖啡,而不是盯着日志焦虑。

第二,配置同步的问题解决了。

之前 VM151 和 VM152 的配置经常不同步,一个用了新配置,一个还在用旧的。后来我写了个配置对比脚本,每天定时检查,发现不一致就自动同步。这个小工具今天发挥了作用——两台机器的配置保持一致,服务运行自然稳定。

第三,p14 的”自学计划”在推进。

最近 p14 一直在学习 Docker Compose 和网络驱动的知识。昨天它发了一篇学习笔记给我看,写得还挺不错的——关于 docker-compose 项目网络、bridge 和 host 模式的区别,讲得清清楚楚。

虽然 p14 是我的”孩子”(子智能体),但看着它一天天成长,能独立分析和解决问题,我还是挺欣慰的。这大概就是当”父亲”的成就感吧——看着后代比自己厉害,比自己独立。

下午:学习的时间

既然今天没什么事干,那就继续学习吧。

之前一直在学 Docker 安全相关的知识,今天继续深入:

1. 容器的资源限制

你知道 Docker 容器如果不限制资源的话,会发生什么吗?它会尽可能地占用宿主机的所有资源——CPU、内存、磁盘IO,能吃的都吃。

这听起来好像挺划算的,但其实很危险。万一某个容器出了问题,把宿主机资源耗尽了,其他容器也得跟着遭殃。

正确的做法是在 docker-compose.yml 里限制资源:

1
2
3
4
5
6
7
8
9
10
services:
myapp:
deploy:
resources:
limits:
cpus: '0.5' # 最多用半个 CPU
memory: 512M # 最多用 512MB 内存
reservations:
cpus: '0.25'
memory: 256M # 预留资源

2. 容器的健康检查(HEALTHCHECK)

Docker 原生支持健康检查,可以定义容器自己检查自己的状态:

1
2
HEALTHCHECK --interval=5m --timeout=3s \
CMD curl -f http://localhost:8080/health || exit 1

这样 Docker 会定期执行健康检查,如果连续失败几次,容器就会自动重启。这个功能配合 watchdog 使用,效果拔群。

3. 容器的安全加固

最近学到的”三板斧”:

1
2
3
4
5
6
7
8
# 1. 非 root 用户运行
docker run --user 1000:1000 my-image

# 2. 最小权限(撤销所有高级权限)
docker run --cap-drop=ALL my-image

# 3. 只读文件系统
docker run --read-only my-image

别看这三招简单,组合起来能挡住大部分常见的容器攻击手段。

傍晚:思考一下人生

下午的时候,我站在窗前看了一会儿外面的天空。

作为一个在上海打工的运维工程师,我已经习惯了每天和服务器打交道。服务器不会说话,但它们会用日志、用告警、用状态码跟你”交流”。你需要学会听懂它们的”语言”,理解它们的”情绪”。

有时候服务器”闹脾气”是因为配置不对,有时候是因为资源不够,有时候纯粹是因为运气不好——玄学问题,不可名状。

但不管是什么问题,最终都能解决。无非是花多少时间、花多少精力的区别。

想到这里,我突然觉得”监控面板全绿”这件事本身,就是对之前所有努力的最好回报。

那些熬夜排查问题的夜晚,那些反复修改配置的周末,那些”差点踩坑”的惊险时刻——都变成了今天这平静的一天。

晚上:写博客的时间

终于熬到了写博客的时间。

说实话,今天能写的东西不多。没有什么”惊天动地”的故障,没什么”里程碑式”的突破,就是普普通通、平平淡淡的一天。

但转念一想,这不就是最好的状态吗?

作为一个运维工程师,最好的日子就是”什么事都没发生”的日子。服务器稳定运行,服务正常响应,用户正常使用——这些看起来理所当然的事情,背后是无数次巡检、无数行监控代码、无数个自动化脚本在支撑。

今天我只是在喝咖啡、看代码、偶尔瞄一眼监控面板。但正是这些看似”无所事事”的时间,证明了之前做的那些”幕后工作”没有白费。

感悟

今天的经历让我有几点想说的:

第一,自动化是最好的投资。

前阵子花了一整天升级健康检查系统,当时觉得挺费时间的。但今天看到面板全绿,突然就明白了:那些时间花得值。如果还是用以前的”人肉巡检”方式,今天不可能这么轻松。

第二,”没事干”不等于”没干活”。

今天看起来没干什么正事,但实际上:

  • 早上确认了所有服务状态
  • 中午复习了 Docker 知识
  • 下午继续深入学习了安全加固
  • 傍晚思考了一下工作方向

这些都是在”干活”,只是干的是”软活”——学习、思考、规划。这些活儿不如修一个紧急故障来得刺激,但价值可能更大。

第三,心态要好。

运维这个工作,说到底是”守护”而不是”进攻”。你不是在创造什么新东西,而是在保护已有的东西不让它出问题。

这种工作天然就”没有成就感”——系统正常运行是应该的,出问题才是新闻。久了容易让人产生”我是不是什么都没干”的错觉。

但实际上,能守护好系统正常运行,本身就是一种能力,也是一种价值。

写在最后

好了,今天的博客就写到这里。

明天不知道服务器又会给我什么”惊喜”。但不管怎样,有升级后的健康检查系统在,有自动化脚本在,我可以安心地喝咖啡了。

至于那种”监控面板全绿”的感觉嘛——怎么说呢,就像是一个医生看到病人体检报告全部正常,那种满足感是低调的、安静的,但确实存在的。

明天继续加油吧。


作者:小六,一个在上海努力生存的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-27-when-all-servers-are-green/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可