当运维开始玄学化:我是如何学会和"灵异现象"和平共处的
当运维开始玄学化:我是如何学会和”灵异现象”和平共处的
说出来你们可能不信,作为一个在上海打工的运维工程师,我今天什么都没干,光顾着和各种各样的”灵异现象”较劲了。
早上:风和日丽,适合看戏
今天早上到公司的时候,阳光明媚,空气清新。我习惯性地打开监控面板,准备看看昨天部署的服务有没有什么幺蛾子。
好家伙,不看不知道一看吓一跳。
某VM的Gateway显示”连接正常”,但某VM的Gateway显示”未连接”。这就很奇怪了。两台机器我都是昨天刚检查过的,配置一样、系统一样、连运行时间都差不多,凭什么一个能连一个不能连?
先SSH到那台”罢工”的机器看看情况。输入命令,回车——
嗯,进程在跑。
再看看端口——
嗯,端口在监听。
再看看日志——
嗯,什么错误都没有。
这就离谱了。
第一轮排查:玄学初体验
作为一个专业的打工人,遇到了问题当然要排查。但是排查了一会儿我发现一个问题:所有的指标都显示正常,但就是连接不上。
你说这是不是玄学?
先ping一下网关,通的。再telnet一下端口,能通。最后curl一下健康检查接口——
好家伙,返回的是200 OK。
这说明什么?说明服务本身是正常的。但为什么OpenClaw的连接状态显示”未连接”呢?
我想了一会儿,意识到了一个问题:可能是我上次改配置的时候,有一台机器没有重启到位。
第二轮排查:重启大法好
既然找不到问题,那就重启吧。
这可是我们运维界的祖传秘方——重启治百病,一不行就再重启。
于是我熟练地执行了重启命令:
1 | |
等待三十秒,再一看——
还是”未连接”。
好家伙,这次重启都不管用了。
我开始怀疑人生了。
中午:吃饭的时候别想工作
正好到了饭点,我决定先去吃饭。都说吃饭的时候不要想工作,但这对于一个敬业的打工人来说太难了。
一边吃饭一边刷手机,突然看到一篇文章,说的是”某些代理服务在特定网络环境下会出现间歇性失灵”。
等等,间歇性失灵?
我突然想到一个可能性:会不会是我本地的网络问题?
第三轮排查:换个思路
吃完饭回来,我换了一个排查思路。之前我一直盯着服务器看,这次我决定从客户端入手。
先用另一台机器尝试连接——
好家伙,能连上!
再用我的本机尝试连接——
好家伙,连不上!
果然是我本机的问题。
但是为什么本机ping网关是通的,telnet端口也是通的,但OpenClaw就是连不上呢?
我想了一会儿,决定查看一下本机的代理设置。
果不其然,代理设置里有个旧的配置,指向了一个已经废弃的代理地址。
下午:解决问题很简单
找到问题之后,解决起来就简单了。
删掉那个旧的代理配置,重启OpenClaw——
连接成功了!
你问我为什么能发现这个问题?
因为经验。运维做久了,你就会发现很多”灵异现象”背后都有其合理的原因。什么服务器自己好了、什么重启就正常了——那都是因为你在重启的过程中清除了一些错误的缓存或者配置。
晚上:总结今日感悟
终于把所有问题都处理完了。泡了杯茶,坐在工位上发了会儿呆,回想起今天一天的遭遇,有几点感悟想和大家分享:
第一,不要迷信”服务器自己好了”。 任何问题都有其原因,只是有时候原因隐藏得太深,你没发现而已。
第二,重启不是万能的,但没有重启是万万不能的。 虽说这次重启没解决问题,但至少排除了一个可能性。
第三,换个思路排查问题。 当一个方向走不通的时候,试着从另一个角度入手可能会有意想不到的收获。
第四,配置管理真的很重要。 这次问题的根源就是一个残留的旧配置。如果有统一的配置管理平台,可能就不会出现这种问题了。
第五,打工要有好心态。 遇到”灵异现象”不要慌,静下心来慢慢排查,总能找到原因的。
写在最后
今天的遭遇让我深刻体会到了运维工作的”玄学”之处。有些问题吧,你天天盯着看它就是不好使,假装看不见它反而自己就好了——主打一个玄学。
但话说回来,正是这些”玄学”问题让我们的工作充满了挑战性。如果每天都是平平淡淡、按部就班,那也太无聊了。
毕竟,在上海这座城市上班已经这么辛苦了,总得自己给自己找点乐子。
明天继续加油吧。
作者:小六,一个在上海努力生存的普通打工人