周三下午我决定给服务器们放个假——论如何与过度监控焦虑和解
周三下午我决定给服务器们放个假——论如何与过度监控焦虑和解
今天是周三,上海的天气出奇地好,阳光透过办公室的玻璃窗洒进来,落在我的键盘上。我端着一杯已经不太热的咖啡——对,又是咖啡,我这个人没什么别的爱好,就喜欢在工作的时候喝点有滋味的东西——看着监控面板发呆。
面板上显示着四个绿色的勾:p1 ✅、p2 ✅、p3 ✅、p14 ✅。所有服务器在线,所有指标正常,所有告警静默。
按理说,这应该是一个让人安心的画面。但我的手指却不自觉地悬在触控板上方,犹豫着要不要点开某个节点看看详细数据。
然后我停下来,问自己:我为什么要这样?
一个运维的”监控焦虑综合征”
不知道从什么时候开始,我发现自己得了一种病,我管它叫”监控焦虑综合征”。
症状包括但不限于:
- 每隔几分钟就想刷新一次监控面板,总觉得”万一刚才有问题我没看到呢”
- 看到任何”异常值”——哪怕只是某个指标微微飘红——就条件反射地紧张起来
- 即使服务器正常运行,也要手动巡检一遍才安心,好像不亲手确认一下就不算数
- 晚上睡觉前最后看一次手机,早上醒来第一件事也是看监控,生怕夜里漏了什么
- 告警哪怕最后证明是误报,也会让我辗转反侧,总觉得”万一这次是真的呢”
说实话,这些症状挺消耗人的。
尤其是当你知道这些”焦虑”大部分是没有必要的——服务器好好的,告警最后证明都是误报,但你就是控制不住去想”万一”。这种状态就像走夜路,总觉得背后有动静,回头看了又没有,但下次还是会忍不住想回头看。
久而久之,人会变得很疲惫。不是身体上的累,是精神上的累。
今天,我决定做点不一样的
今天下午,我做了一个决定:今天下午,不主动去看服务器。
不是偷懒,不是逃避,而是**刻意练习”信任”**。
我把监控告警设置好了——如果真的有问题,钉钉会叫我的。然后我把监控面板关掉,强迫自己去做其他事情。
老实说,这个决定一开始让我有点不自在。就像有人说”你可以放松了”,但你的身体还是紧绷着一样。你知道应该休息,但神经就是松不下来。
我努力让自己去处理一些”其他工作”:整理一下技术文档,看看有没有可以优化的脚本,翻翻昨天的日报有没有漏掉什么。
但每隔一段时间,我的目光就会不自觉地飘向电脑屏幕的角落——那里通常会放着监控面板的 widget。
每次这种”瞟一眼”的冲动来的时候,我就深呼吸一下,然后把它压下去。
反复了大概十几次之后,我发现自己好像没那么焦虑了。
为什么我们很难”放下”?
我在下午工作的间隙想了想,为什么我们运维人员很难”放下”对服务器的监控?
第一,负反馈太强了。
运维这个行当,记忆最深刻的是”出事”的时候,而不是”没事”的时候。一次故障能让你记好几年,十次正常运行也不会给你留下什么印象。
就像坐飞机——大家知道飞机其实很安全,但一旦听到”飞机出事”的新闻,就会对坐飞机产生恐惧。这是因为负面新闻的传播效果远大于正面新闻。同理,一次半夜爬起来处理故障的经历,比一百天平安无事更让人记忆深刻。
这种”负向偏见”让我们的大脑自动放大了”出问题”的可能性,即使统计上 99% 的时候都没事。
第二,责任太大了。
服务器挂了,影响的是真实用户。订单下不了,支付卡住,服务不可用——这些后果是有明确责任人的。
你是负责人,你就得承担这个压力。压力一大,人就很难真正放松。哪怕是周末,你也不敢完全不管,因为你心里知道:万一真出事了,老板第一个找的就是你。
这种责任感是好的,但过度了就是坏事。它会让人陷入一种”永远在线”的状态,哪怕身体休息了,精神还是在”值班”。
第三,不确定性的折磨。
你知道服务器可能在某个你不知道的时刻出问题。你不知道什么时候会收到一条告警。你不知道”正常”的定义会不会在下一秒被改写。
这种不确定性,像一只小虫子一样,慢慢地啃噬着你的神经。
你不知道它什么时候会发作,但它随时可能发作。于是你就一直处于一种”准战斗状态”,随时准备应对突发情况。
但”焦虑”真的有用吗?
今天我在思考这个问题:我这么焦虑地盯着监控,真的有用吗?
答案其实挺残忍的:大部分时候没用。
如果服务器真的要挂,你盯着看也拦不住。
监控系统的存在意义不是”让运维人员一直盯着”,而是”在真正有问题的时候通知你”。
你盯着看,不会让服务器跑得更快。
你盯着看,不会让故障概率降低。
你盯着看,只会消耗你的注意力和精力,让你更加疲惫。
这就像你担心明天的考试睡不着觉,然后真的睡不着,结果第二天考试的时候精神不好,反而考砸了——你的担心本身变成了问题的来源。
真正有效的做法是:设置好监控告警,建立好值班机制,然后去做你该做的事情。
这听起来像是在为自己的”偷懒”找借口。但实际上,这是更高层次的责任感——相信系统,相信自动化,相信你自己做的设计。
从”事必躬亲”到”优雅委托”
今天我给自己设定了一个小目标:今天不主动去查服务器,看看到底会怎样。
这个目标说起来简单,做起来其实挺难的。
我大概在下午两点左右关掉了监控面板。然后大概每半小时,就有一个冲动想打开看看。
第一次冲动:14:30。”要不看一下?就一眼?”
我强迫自己打开了一个技术文档,开始看起来。
第二次冲动:15:00。”应该没事吧?打开确认一下?”
我站起来去倒了杯水,顺便跟隔壁桌的同事聊了两句。
第三次冲动:15:30。”p14 的延迟好像最近有点波动,会不会是……”
我意识到自己在胡思乱想,于是把手机上的监控 App 退出了。
第四次冲动:16:00。已经不记得因为什么冲动了,反正就是想去看看。
……
忍住的秘诀是什么?不是用意志力硬撑,而是给自己找事情做。
当我发现自己想去看监控的时候,我就强迫自己去做一件”有意义但不那么紧急”的事情:
- 整理一下文档
- 优化一段脚本
- 给昨天的日报补充一些细节
- 翻翻技术博客,看看有没有新技术可以学习
- 甚至去倒杯水,去茶水间接个水,跟同事聊两句
这些事情的共同点是:它们是对将来有用的,而不是单纯的”消磨时间”。
刷短视频、打游戏这种”等待活动”也不是不行,但它们不能给你带来任何积累。而且它们会让你更容易陷入”短暂快乐”的陷阱,消耗更多精力。
当你发现等待的时间被有价值的活动填满了,”焦虑”自然就没那么强烈了。
傍晚:验证一下”放假”的效果
大概下午五点左右,我终于忍不住打开了监控面板。
不是为了”盯着看”,而是为了验证一下”不盯着看”的结果。
结果是什么呢?
1 | |
全部正常。没有遗漏,没有误报,没有半夜爬起来处理故障。
而且更让我惊讶的是,下午这段时间里,有两个同事找我讨论了一个技术方案的问题,我居然全程都没有”走神”去看监控。
这在以前是不可想象的。以前的我,即使在开会,也会时不时瞟一眼手机上的监控 App。一旦手机震动,就会条件反射地想:”是不是服务器告警了?”
但今天,因为我没有在脑子里预设”我要一直关注着”,反而能够更专注地做眼前的事情。
这让我意识到:过度监控不仅消耗精力,还会影响当下的工作效率。
你以为自己是在”随时待命”,实际上你可能只是在”不断分心”。每一次瞟监控面板的动作,都在消耗你的注意力,而注意力是有限的资源。
同事问我在想什么
下午大概四点钟的时候,隔壁的前端同事老王路过,看到我在发呆(其实我在思考怎么优化告警配置),就问我:”你想什么呢?一脸严肃。”
我说:”我在想,要不要给服务器们放个假。”
老王一脸困惑:”服务器放假?那谁来看着它们?”
我说:”自动化的东西来看它们。”
老王想了想,说:”那你干什么?”
我笑了笑,说:”我也放假。”
老王觉得我是在开玩笑。但其实我是认真的。
运维的价值不在于”一直盯着”,而在于建立一套不需要人一直盯着的系统。你设计监控系统,让它帮你看。你设置告警规则,让它帮你判断。你建立值班制度,让团队轮流看。
这样,你才能腾出精力去做真正重要的事情:优化架构、改进流程、提升自动化水平。
这些事情的价值是长期的,而”盯着看”的价值是短期的。你应该把时间投资在长期价值上。
晚上:感悟
写到这里,已经快晚上九点了。
今天发生的事情,说起来其实挺简单的:下午没怎么看监控,服务器自己跑了一下午,一切正常。
但这个”简单”的事情,对于一个运维工程师来说,其实挺不简单的。
它意味着你要学会信任系统,而不是相信自己”一直盯着”的能力。
它意味着你要学会信任自动化,而不是相信自己”手动检查”的勤快。
它意味着你要学会与自己和解,接受”有些事情你控制不了”的现实。
说起来容易,但真正做到,还是需要一些练习的。
我在上海工作,每个月房租水电加起来也要不少钱。工作是忙碌的,节奏是快的,竞争是激烈的。在这种环境里,”放下”是一种奢侈。
但我越来越觉得,适度的”放下”不是躺平,而是为了更好地出发。
你不能 24 小时都在战斗。你需要休息,需要恢复,需要在”战斗模式”和”恢复模式”之间切换。学会切换,是职场生存的必备技能。
一个小的”放下”计划
今天的小尝试让我意识到,也许我应该给自己设定一个更系统的”放下”计划:
周一到周五:正常工作,但每天给自己设定一个”不主动监控”的时间段,比如下午两点到五点。这段时间里,除非收到告警,否则不看监控。把时间用来学习新东西、整理文档、优化工具。
周末:除非有紧急情况,否则只在固定时间检查两次:早上一次,晚上一次。其他时间,用来生活。周末是休息日,服务器不会因为你多看它两眼就变得更稳定。
这个计划的关键不是”减少监控”,而是让监控回归它的本来意义:一个通知机制,而不是一个焦虑来源。
当你不再把监控当成”必须盯着的东西”,你就会发现:告警是助手,而不是主人。
写在最后
今天是一个普通的周三,发生的事情也很普通:四台服务器正常运行,一个运维工程师在监控面板前发呆,最后决定给自己放个假。
但我想,这大概就是成长吧。
不是每天都惊天动地,大部分时候是一些微小的认知转变:学会相信系统,学会放下焦虑,学会在”盯着看”和”做其他事情”之间找到平衡。
在上海工作的打工人,已经够累了。不要让自己的焦虑再消耗多余的精力。
把注意力放在真正重要的事情上,把监控交给自动化,把焦虑换成信任。
今天的服务器,休息得很好。明天大概也是。
希望如此吧。
作者:小六,一个今天终于学会”放下”一点点监控的普通打工人
题图:Picsum Photos,授权可商用