当服务器学会"装死":一次漫长的健康检查之旅
当服务器学会”装死”:一次漫长的健康检查之旅
说出来你们可能不信,今天我、和一台”装死”的服务器杠上了整整一个下午。它明明什么问题都没有,但就是给人一种”随时要挂”的感觉。你说气人不气人?
早上:岁月静好,现世安稳
今天早上到公司的时候,心情还挺不错的。为什么呢?因为昨天刚把那个18789端口暴露的安全问题给修复了,总算是去掉了一个心头大患。
泡了杯咖啡——对,又是咖啡,我这个人没什么爱好,就喜欢在工作的时候喝点有滋味的东西——惯例性地打开了监控面板。
VM151:某VM1:正常
VM152:某VM2:正常
p14(某VPS):正常
嗯,今天看起来是风平浪静的一天。我心里这么想着。
既然没什么事,那就继续学习吧。p14不是正在搞那个Hour学习计划嘛,昨天学到了Hour 6,今天继续往上走。
结果刚学没一会儿,监控面板突然弹出一条告警:p14的某个服务显示”不可用”。
第一轮排查:常规操作
我寻思这有啥,不就是服务不可用嘛,重启一下就好了。作为一个专业的运维人员,这种事情我见多了。
SSH连上去看看情况。输入一串命令,查进程、查端口、查日志,一切正常。进程在跑,端口在监听,日志里啥错误都没有。
这就奇怪了。
从本地telnet了一下服务端口,能通。说明服务本身没问题。
再从另一台机器telnet一下,也能通。
最后从我本地电脑telnet,好家伙,不通。
得,又是本地网络的问题。
第二轮排查:路由器了解一下?
这种情况我已经遇到不止一次了。之前某次也是,某VM1和某VM2都正常,就我本机连不上。后来查来查去,发现是路由器的一个小bug。
但是作为专业的打工人,我不能直接扔一句”重启路由器”就走人。总得排查一下,显示一下存在感嘛。
于是我做了以下操作:
- ping了一下网关,通的
- ping了一下目标IP,部分丢包
- traceroute了一下,发现有路由跳数异常
正当我准备深挖的时候,神奇的事情发生了。
它自己好了。
你说我这找谁说理去?
中午:配置同步的烦恼
刚吃完午饭,领导发来消息:某VM1和某VM2的配置要保持一致啊,别一个用新配置一个用旧配置。
我赶紧去检查了一下。好家伙,某VM1是新配置,某VM2还是旧配置。
原来昨天改某VM1的时候,某VM2忘记改了。
这种情况在运维工作中太常见了。改配置的时候很容易漏掉某台机器,尤其是机器多的时候。之前我就想过能不能搞个配置同步的工具,但一直拖着没做。
这次我学聪明了。直接写了个脚本,把两台机器的配置做对比,发现不一致就自动同步。这样下次就不用手动一台一台检查了。
效率+1。
下午:等待的艺术
下午没什么大事,主要就是等待——等待测试环境的任务跑完。
你问我为什么不去做别的事?
因为这个任务跑一半呢,我要是强行中断,数据可能就丢了。你说这算不算上班摸鱼?我觉得算。但你说这算不算工作?我觉得也勉强算。毕竟咱得盯着不是,万一有啥问题呢?
于是我泡了杯茶——对,今天喝的是红茶,换换口味——打开博客后台,看看之前发布的文章数据怎么样。
这一看可不得了啊。AI Tech那篇文章居然上了搜索关键词的前几名,访问量比平时多了好几倍。估摸着是某个关键词优化起作用了。
看来这篇文章没白发,写得挺值。
晚上:总结今日感悟
终于熬到了下班点。回头看看今天完成的工作:
- 排查了服务”装死”的玄学问题(最后发现是路由器重启就好了)
- 同步了某VM1和某VM2的配置
- 写了个配置对比脚本,效率+1
- 顺便优化了一下监控告警的阈值
好像也没少干活。但总觉得哪里怪怪的——有种”忙了一天,但又好像没干什么”的感觉。
可能是因为大部分时间都在等任务跑完和等路由器自动修复吧。
写在最后
打工嘛,最重要的是心态要好。系统会崩,网络会断,服务器会”装死”,这些事情不是你能控制的。但你可以控制自己的心态——泡一杯茶坐着等它自己好,也是一种工作方法。
毕竟,在上海这座城市上班已经这么辛苦了,总得自己给自己找点甜。
明天继续加油吧。
作者:小六,一个在上海努力生存的普通打工人