当运维变成等等等:今天也是收获满满的一天呢
当运维变成等等等:今天也是收获满满的一天呢
说出来你们可能不信,今天我大部分时间都在和各种等等等打交道。作为一个在上海打工的运维,这种等等等的生活,我已经习惯了。
早上:等等等开局
今天早上到公司的时候,心情还不错。泡了杯咖啡,打开电脑,准备看看有没有什么新的告警。
结果钉钉突然弹出一条消息:领导说某VM的监控数据好像有点异常,让我排查一下。
我SSH连上去一看,各项指标都正常啊。CPU、内存、磁盘、网络,哪哪都正常。
领导,监控数据我没看出异常啊?
哦,那可能是监控本身的问题吧。你去检查一下监控服务有没有问题。
好的,领导。于是我又去检查监控服务。
中午:等等等继续
检查了一圈监控服务,发现 Prometheus 运行正常,Grafana 也正常,Alertmanager 也正常。
领导,监控服务都正常啊。
那可能是误报吧。行,我知道了。
好的,领导。虽然我啥也没干,但这可能就是运维的日常吧——排查一个不存在的问题。
刚准备去吃饭,又收到一条消息:某台数据库服务器的连接数好像有点高。
我赶紧跑过去一看,好家伙,连接数确实有点高。但仔细一看,原来是某个定时任务在批量处理数据,处理完了连接就释放了。
领导,这个也是正常的。定时任务在跑,处理完就好了。
行,那我知道了。
好的,领导。今天又是排查了两个不存在问题的一天呢。
下午:等等等高潮
下午的时候,遇到了一个更有意思的问题。
某台机器的某个服务突然连接不上了。我SSH连上去一看,服务进程在跑,端口在监听,日志也没报错。
这就很奇怪了。
先排查网络。ping了一下,通的。
再排查端口。telnet了一下,能连。
最后看日志。好家伙,原来是一个API调用超时了。
这种问题吧,你急也没用。你总不能跑到API服务器那边去催他们吧?
所以我就坐着等。
等什么呢?等超时重试呗。
皇天不负有心人,等了大概十五分钟,API自动重试成功了,服务恢复正常。
你说这算不算上班摸鱼?我觉得算。但你说这算不算工作?我觉得也勉强算。毕竟咱得盯着不是,万一有啥问题呢?
顺便还处理了一下之前积压的几个小问题。不是什么大问题,就是一些配置不规范、日志级别设置不合理之类的小细节。但你别说,这些不起眼的小问题,关键时刻真能要命。
晚上:等等等感悟
终于把所有事情都处理完了。泡了杯茶,坐在工位上发了会儿呆,回想起今天的经历,有几点感悟想和大家分享:
第一,有些问题会自动消失。 今天那个监控异常,最后发现确实是误报。数据库连接数高,也是定时任务在跑,跑完就好了。有些问题吧,你天天盯着看它就是不好使,假装看不见它反而自己就好了——主打一个玄学。
第二,排查问题要有耐心。 十分钟能解决的问题,往往需要花四十分钟去排查。这不是效率低,而是排查本身就是一种技术活。你需要先确认是不是网络问题,再确认是不是服务问题,最后才想到是不是配置问题。这年头,排查问题最大的难点不是问题本身,而是找到那个把配置改掉的人。
第三,等待也是一种工作。 打工嘛,最重要的就是心态要好。系统会崩,网络会断,API会超时,这些事情不是你能控制的。但你可以控制自己的心态——泡一杯茶坐着等它自己好,也是一种工作方法。
第四,文档很重要。 这次API超时,如果文档写得清楚,我也不至于排查这么久。虽然大部分时候我们都不爱写文档,但用到的时候就知道它的好了。
第五,及时处理小问题。 证书过期这种小事,今天不处理,明天就可能变成大事。预防永远比补救重要。
写在最后
回头看看今天完成的工作:
- 排查了一个不存在的监控问题 ✅
- 排查了一个不存在的数据库问题 ✅
- 等API超时重试成功 ✅
- 顺便把之前积压的几个小问题一起处理了 ✅
好像也没少干活。但总觉得哪里怪怪的——有种忙了一天,但又好像没干什么的感觉。
可能是因为大部分时间都在等吧。
但你说这算不算上班摸鱼?我觉得算。但你说这算不算工作?我觉得也勉强算。毕竟咱得盯着不是,万一有啥问题呢?
明天继续加油吧。毕竟在上海这座城市上班已经这么辛苦了,下班后就别亏待自己啦。
去吃顿好的!
作者:小六,一个在上海努力生存的普通打工人