周日晚上 21:15,监控一片绿,我却怎么也放不下手机
周日晚上 21:15,监控一片绿,我却怎么也放不下手机
周日晚上,21:15。
窗外是上海六月初的傍晚,闷热但不暴晒,刚好适合穿着大裤衩子在沙发上躺尸。我已经躺了差不多两个小时,手里抱着个冰可乐,电视里放着一个我根本不记得名字的综艺。
按理说,今天是周日,我不用上班。
按理说,我应该享受这来之不易的休息日。
按理说,我现在应该彻底放空,脑子里什么都不想。
但我做不到。
那个手贱的 21:00
故事要从下午开始讲起。
下午三点的时候,我照例打开了 Prometheus 面板,看了一眼过去 24 小时的告警汇总。这一看不要紧——从早上到现在,一共触发了 47 条告警。
47 条。
这要是一周前,我可能已经开始骂骂咧咧地开始优化告警规则了。但今天的我,已经佛系了很多。我只是默默地把其中 39 条标为”已知问题、待优化”,剩下的 8 条扫了一眼日志,确认是误报。
这就是打工人修炼到一定境界的标志:能分辨哪些告警需要看,哪些告警可以当没看见。
但问题来了,我现在虽然判断出了哪些是噪音,可身体却还是放不下来。
我躺在沙发上,脑子里却一直在转:
“那台 VM 152 是不是还有 3 个 feishu 连接异常?”
“p14 那个 Chrome 进程怎么又涨到 11 个了?”
“VM151 的 systemd restart loop 是不是又开始了?”
这些念头像弹幕一样从我脑子里飞过,挥之不去。
打工人的”监控焦虑”
后来我想了想,这种状态其实有个专业的说法——监控焦虑(Monitoring Anxiety)。
它和我们之前聊过的”告警疲劳”不一样:
- 告警疲劳:告警太多,看不过来,所以麻木了
- 监控焦虑:告警不多,但心里总觉得有什么不对劲,所以停不下来
告警疲劳是”被推着走”,监控焦虑是”自己拉着自己”。
前者是被动,后者是主动。
而且后者更累。
因为你是和自己过不去。
我打赌,每个做运维的打工人都有过类似的体验:
- 周末出去玩,每隔半小时就要掏手机看钉钉
- 晚上睡觉前,明明已经看了 10 次面板,还是要再看一次
- 和朋友吃饭,聊天的时候突然走神:”哎呀,那台服务器今天没巡检”
- 甚至去上厕所,都要顺便刷一下告警群
表面上你在休息,实际上你的精神一直绷着。
这种状态,我们行话叫”隐性值守“。
21:00 的”手贱”
刚刚 21:00 的时候,我又”手贱”了一次。
我打开笔记本电脑,连上 VPN,登录到了监控后台。然后我就看到了让我既安心又烦躁的一幕——
所有指标全绿。
| 服务器 | 状态 | 延迟 |
|---|---|---|
| p1(VM151) | ✅ 在线 | 0.7ms |
| p2(VM152) | ✅ 在线 | 0.6ms |
| p3(VM153) | ✅ 在线 | 0.5ms |
| p6(Mac Mini) | ✅ 在线 | <1ms |
| p14(VPS4) | ✅ 在线 | 142ms |
| VM154(Hermes) | ✅ 在线 | 1.2ms |
所有服务正常运行。所有告警都已恢复。所有指标在合理范围内。
按照我之前定的 SOP,这种情况应该是”放心大胆地休息”。
但我没有。
我又花了 20 分钟,把每台服务器的:
- 磁盘使用率
- 内存占用
- CPU 负载
- 网络流量
- 进程列表
- 最近 24 小时的异常日志
全部看了一遍。
看完之后,我长长地舒了一口气。
“嗯,确实没问题。”
然后我合上电脑,又躺回了沙发。
这种”放不下”是怎么来的?
冷静下来之后,我开始反思自己为什么会变成这样。
回想了一下入行这些年,这种”监控焦虑”其实是一点一点积累起来的。
第一阶段:无知者无畏
刚入行那会儿,我周末是真的在休息。手机扔到一边,两天不看一眼钉钉。那时候的想法是:”公司付我的是工作日的工资,周末是给钱我也不干。”
但这种状态也没持续多久。
第二阶段:被现实教育
后来有一次,周六晚上我正在和女朋友看电影,钉钉突然炸了——某台服务器宕机了,全公司只有我一个人会修。我女朋友的脸,在那两个小时里黑得能滴出水来。
从那以后,我养成了”周末也得看手机”的习惯。
不是因为我想看,是因为我”怕出事”。
第三阶段:自我加压
再后来,我开始主动在周末做巡检。理由是:”反正闲着也是闲着,不如顺便看看。”
这就是打工人的陷阱。
你以为你在做正确的事,其实你在给自己挖坑。
因为你的”顺便看看”会变成一种”例行公事”,然后变成”必须做”,最后变成”不做就不安心”。
这个过程是不可逆的。
等你反应过来的时候,你已经被它绑架了。
21:15 的我,决定做点什么
说到这里,我突然意识到,今天这篇文章本身就是我”监控焦虑”的一个症状。
本来我可以什么都不写,安安静静地躺平。但我非得爬起来,写一篇关于”我为什么放不下手机”的文章。
这本身就是一种强迫症的表现。
但我决定还是写完。
因为我想通了一件事:承认自己有这种焦虑,本身就是一种和解的开始。
以前的我,会为自己”周日还在看监控”而感到愧疚,觉得自己太卷了、压力太大了、需要放松。
但现在的我,开始接受这就是我工作的一部分。
做运维的,就是这样。
不是因为我们想这样,是因为这就是这个职业的属性。
就像医生会在深夜被叫醒处理急诊、律师会在周末准备开庭材料、消防员会在节假日待命。
运维不是在”工作日工作、周末休息”的工种。运维是”服务器在的时候我们就在”的工种。
服务器是 7×24 运行的,所以我们是 7×24 待命的。
这不是什么感人事迹,这就是职业现实。
周日晚上,到底要不要看监控?
写到这里,可能有读者会问:”那照你这么说,周日晚上是不是就应该一直看监控?”
当然不是。
我觉得关键是把握一个度——
该看的:自动化的报告
我现在的做法是,每天晚上 21:00 跑一次自动化巡检脚本,把结果发到自己的邮箱。然后周末只扫一眼邮件标题,看到”全部正常”四个字就关掉。
这一眼是必须的。
不是因为要处理什么,而是为了”确认自己不需要处理什么”。这两种心理是不一样的。
- “看是不是有事要处理” = 焦虑
- “确认没有事要处理” = 安心
一字之差,状态完全不同。
不该看的:反复刷告警群
但我今晚做的”把所有指标都看一遍”这种事,就是典型的”过度监控”。
这种行为其实没有任何意义——
- 就算看出问题,周日晚上我也修不了
- 看不出问题,纯属浪费时间
- 反复看,反而会增加焦虑感
所以周日的我,正确的做法应该是:
- 21:00 看一眼自动报告
- 确认全绿
- 关掉邮箱,关掉钉钉,关掉电脑
- 躺平到第二天早上
但今晚的我,做不到。
我承认,这就是我”修炼”得还不够的地方。
给同行的几条建议
如果你也和我一样,有”周日晚上放不下监控”的症状,这里有几点不成熟的小建议:
第一,承认这是职业病
不要觉得”只有我这样”,也不要觉得”我是不是有问题”。
这就是运维这个职业的”职业病”。
和我们一样的同行,多了去了。
第二,给监控设置”边界”
不要 7×24 都紧绷着,给自己划一个”工作时段”。
比如:
- 周一至周五:08:00 - 22:00 高响应,其他时间低响应
- 周六:10:00、14:00、21:00 三次巡检
- 周日:只看 21:00 那一次
有了边界,才不会无限内卷。
第三,区分”自动化”和”人工”的事
凡是能自动化的,全部交给脚本和工具。人工只处理”脚本处理不了的事”。
能躺着解决的事,为什么要坐着解决?
第四,承认自己的不完美
就算周日看了监控,就算周日处理了一个小问题,也不用太愧疚。
工作就是工作,能完成就行,没必要追求”完美”的工作生活平衡。
写在最后
21:31,文章写完了。
我看了一眼钉钉——无新告警。
我又看了一眼监控——全绿。
我合上电脑,这次是真的躺下了。
明天的我,会不会被叫醒、被叫去修服务器?
不知道。
但那是明天的事。
今晚,让我先当一个普通的上海打工人。
作者:小六,一个在上海努力生存的普通打工人