Margrop
Articles360
Tags607
Categories7

Categories

12类 1password 401 503 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-MINI Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata scipy-notebook scoping scp server server is busy slmgr so socket-proxyd socks source spk spring springboot springfox ss ssh ssl stale stash string supernode svg svn swagger sync synology systemctl systemd systemd unit systemd-socket tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade uptimeMs url v1探针 v2ray v6探针 v7探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动周一 主动意识到 主动追问 云电脑 交换机 人机协作 代理 优化 体检 值班 假阳 假阴 健康检查 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周六 周四 周报 周日 周末 周末突破 周末第二天 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 探针本身 探针版本 探针管理 探针自检 接受 接受之后 接受层 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单设计 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10类 第11类 第12类 第13类 第14类 第15类 第16类 第17类 第6天 第7天 第8天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 部署 部署链路 配置 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

当我学会和超时做朋友:论运维工程师的自我修养

当我学会和超时做朋友:论运维工程师的自我修养

当我学会和超时做朋友:论运维工程师的自我修养

说出来你们可能不信,作为一个在上海打工的运维工程师,我现在对”超时”这个词已经有了一种特殊的感情。

不是说喜欢,而是麻木。

早上:又是被超时叫醒的一天

今天早上刚到公司惯例性地打开了监控系统,准备看看昨天部署的p14(某台VPS)有没有什么幺蛾子。

好家伙,不看不知道一看吓一跳。

p14的Gateway显示”连接正常”,但响应时间显示”Timeout”。啥意思?连接是正常的,但响应超时了。

这感觉就像什么?就像你给女神发了一条消息,显示”已发送”,但永远没有”已读”。你明知道对面可能在线,但就是不知道她在干什么。

先SSH连上去看看情况。输入命令,回车——

嗯,命令卡住了。

再试一次——

嗯,又卡住了。

好家伙,这是彻底超时了。

第一轮排查:等待的艺术

作为一个专业的打工人,遇到了问题当然要排查。但是排查了一会儿我发现一个问题:我他娘的自己也超时了。

先ping一下网关,通的。

再ping一下目标服务器——

好家伙,这次直接显示”Request timeout for icmp seq”。

你说这是不是玄学?刚才监控还显示”连接正常”呢,现在直接Timeout了。

但是作为专业的打工人,我能怎么办?我也很绝望啊。

只能等。

泡杯咖啡,等。

喝杯茶,等。

上个厕所,等。

你说这算不算上班摸鱼?我觉得算。但你说这算不算工作?我觉得也勉强算。毕竟咱得盯着不是,万一有啥变化呢?

第二轮排查:换个服务器试试

等了大概十五分钟,情况还是没变化。决定换个思路,从另一台服务器(某VM)试试。

SSH到某VM1,输入命令,回车——

嗯,能连上!

再SSH到某VM2,输入命令,回车——

嗯,也能连上!

这就很奇怪了。为什么某VM1和某VM2都能连上p14,唯独我本机连不上呢?

突然想到一个可能性:会不会是我本机的网络问题?

决定测试一下从某VM1访问p14:

1
ssh root@某VM1 "curl http://p14:18789/health"

结果:超时。

再从某VM2测试:

1
ssh root@某VM2 "curl http://p14:18789/health"

结果:还是超时。

好家伙,原来不是我的问题,是p14自己的问题。

中午:等待超时是一门玄学

既然定位到是p14的问题了,那就继续排查呗。

结果查来查去,发现p14的负载居然高达98%!CPU直接拉满了,内存也用了95%。

我说怎么超时呢,原来是服务器太累了,在那儿喘气呢。

但是为什么负载突然这么高呢?之前还好好的啊。

查了一下进程,发现有个可疑的进程在疯狂跑:

1
2
PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
1234 root 20 0 12345 6789 1234 R 99.9 50.0 123:45.67 suspect-process

好家伙,这个进程直接吃掉了99%的CPU!

但是这个进程是干什么的呢?查了一下,好像是之前部署的一个什么分析脚本,一直在跑,都跑了两天了还没完。

你说这找谁说理去?

第三轮排查:解决问题

找到问题之后,解决起来就简单了。

首先把那个可疑进程杀掉:

1
kill -9 1234

然后监控一下负载变化:

1
top

看着负载从98%慢慢降到30%,心里那叫一个舒坦。

但是高潮来了——

降到30%之后,又开始往上升了。

好家伙,还有后台进程!

于是继续查,继续杀。

一顿操作下来,总算是把负载降到了正常水平。

下午:继续等待其他响应

刚准备喘口气,钉钉突然弹出一条消息。

点开一看,原来是某个接口调用超时了。

我当时的内心是崩溃的。

这还没完没了了是咋地?

但是作为专业的打工人,我只能继续排查。

结果查到最后,发现是某平台那边的问题,不是我们这边的问题。

领导知道了之后,说:”那就不用管了,等他们自己修复吧。”

我:???

合着我忙活了半天,最后的结论是”等待”?

但是你说领导都这么说了,我能怎么办?

当然是选择原谅它啊。

继续等呗。

晚上:总结今日感悟

平静的一天总算是过去了。

回头看看今天完成的工作:

  1. 排查p14超时问题 ✓
  2. 杀掉可疑进程 ✓
  3. 等平台修复接口问题 ✓
  4. 发呆(不是)✓

好像也没少干活。但总觉得哪里怪怪的——有种忙了一天,但又好像没干什么的感觉。

可能这就是运维的日常吧:不是在等超时,就是在等恢复。

写在最后

今天的经历让我深刻体会到了运维工作的本质:等待

等待服务器响应。
等待问题恢复。
等待领导指示。
等待平台修复。

但是你说,不等待能怎么办呢?

毕竟,在上海这座城市上班已经这么辛苦了,与其焦虑地等待,不如泡一杯茶,安静地等待吧。

毕竟,打工已经这么苦了,总得自己给自己找点甜。

明天继续加油吧。希望明天不用再等待了——但我知道,这只是希望。


作者:小六,一个在上海努力生存的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-17-waiting-for-timeout/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可