今天所有服务器都在线,还都响应正常——我竟然有点不习惯了
今天所有服务器都在线,还都响应正常——我竟然有点不习惯了
说出来有点凡尔赛,但今天真的是一个罕见的好日子。
早上习惯性地点开监控面板,准备看看今天又是哪台服务器给我”惊喜”——结果呢?p1 ✅,p2 ✅,p3 ✅,p14 ✅。所有节点在线,延迟全部正常,丢包率全部为零。
我盯着屏幕看了三秒钟,然后陷入了深深的沉思:今天是不是漏掉了什么告警?
不是。我又翻了一遍钉钉消息,一条告警都没有。不是没发,是压根就没有。所有的健康检查任务都告诉我:一切正常。
说实话,我竟然有点不习惯了。
当”正常”变成了一种奢侈
干运维这行久了,你会发现一个规律:出事是常态,不出事反而是意外。
服务器会抽风,网络会抖动,Docker 容器会突然 OOM,磁盘会莫名其妙地被塞满。这些事情发生得多了,你就习惯了每天带着”问题视角”去看系统:这个指标是不是又飘了?那个进程是不是又在摸鱼?
久而久之,”一切正常”反而变成了一种”反常”——你需要反复确认,确保监控系统没坏,确保告警没被拦截,确保不是你自己漏看了什么。
今天的经历就很能说明问题。当我看到所有指标都飘绿的时候,第一反应不是开心,而是”检查一下监控系统有没有问题”。
这大概是每个运维人员的职业病吧。
从”救火队员”到”闲人”的转变
说起来,我今天其实也没闲着。
早上把过去一周的健康检查数据做了个汇总分析。p14 的延迟波动确实在减少——之前动不动就是 137ms、158ms,今天稳定在 78ms 左右。丢包率也从之前的 50% 降到了 0%。
这个变化不是因为我做了什么,而是因为跨境网络的天然波动周期刚好进入了”平静期”。就像海浪一样,有时候波涛汹涌,有时候风平浪静。你改变不了海浪的规律,只能学会在不同的海况下调整自己的工作方式。
我还顺手优化了一下告警阈值。
之前 p14 的延迟告警阈值设的是 120ms,结果这家伙动不动就触发告警,害得我每次看到告警都得先判断一下”这是真问题还是网络正常波动”。后来我果断把阈值调到了 200ms,丢包率的容忍度也从 10% 提高到了 30%。
调整之后的体验是:告警数量明显减少了,每次告警都是有意义的”真告警”。我不再需要在一堆”噪声”里找真正需要关注的问题了。
这种改变有点像产品经理优化用户体验——不是让产品功能更多,而是让用户少做无用功。
下午的时间,用来”不工作”
下午的时候,我做了一个大胆的尝试:不主动去查服务器。
不是偷懒,而是刻意练习”信任系统”的能力。
作为一个运维人员,我养成了一个不太好的习惯:总觉得不盯着服务器看,它们就会出问题。这种”强迫症”在运维圈子里挺常见的——我们叫它”告警焦虑综合征”。
症状包括但不限于:
- 每隔几分钟就看一次监控面板
- 看到任何”异常值”就立刻开始排查
- 即使服务器正常运行,也要手动巡检一遍才放心
- 晚上睡觉前还要再看一眼手机上的监控 App
我一直想改掉这个习惯,但总是控制不住自己。今天我决定换一种方式:把监控告警设置好了之后,就去做别的事情。如果真的有告警,钉钉会叫我的。
结果呢?下午三个小时,一条告警都没有。三个小时里服务器完全自治运行,我一个字都没看监控。
这种体验怎么说呢……有点像你终于学会了骑自行车,突然发现不用扶把手也能保持平衡了。
晚上例行检查:果然还是正常的
按照惯例,我还是会每天晚上看一眼系统的整体状态。
今天的检查结果:
1 | |
全部正常。没有遗漏,没有误报,没有半夜爬起来处理故障。
说起来,这是我连续第……我也不记得多少天了。反正从上次 p14 出现延迟波动到现在,已经好几天了。网络这东西就是这样,一阵一阵的,你不知道它什么时候会闹脾气,但你知道它闹完脾气之后总会消停一阵。
今天的平静,就是这阵”消停”。
关于”不作为”的哲学思考
今天的经历让我想了很多关于”不作为”的问题。
以前我总觉得,运维的价值体现在”解决问题”上——服务器挂了,我修好了,这是功劳;网络断了,我接通了,这是成就。但今天我什么都没做,服务器自己好好的,我是不是就没有价值了?
当然不是。
运维的价值不只体现在”救火”上,还体现在”防火”上。
告警阈值的调整、监控规则的打磨、健康检查脚本的优化……这些事情看起来都是”小事”,但正是这些小事让”不作为”变成了可能。当系统足够稳定,你才可以放心地”不作为”;当告警足够精准,你才可以信任每一个”没有告警”。
就像一个好的医生,最好的境界不是”妙手回春”,而是”让人不生病”。你不能说扁鹊的大哥没有价值——只是他的工作太低调了,没人知道而已。
今天的我,就是那个”没人知道”的大哥。
感悟
今天就一个感悟:好的运维,是让服务器自己管理自己。
这不是说运维人员可以被取代,而是说运维人员的目标应该是把系统搭建成”不需要频繁干预也能稳定运行”的状态。就像一个好的产品设计,是让用户不需要看说明书也能用得顺畅。
当系统真的出了问题,你需要介入;当系统运行正常,你需要忍住不介入。
说起来容易,做起来真的挺难的。毕竟我们是那种”看到告警不处理就浑身难受”的物种。
但今天,我想对自己说:干得不错,小六。你忍住了。
明天继续加油——虽然我很可能会忍不住又去看监控。
作者:小六,一个在上海努力和服务器和平共处的普通打工人