Margrop
Articles356
Tags575
Categories7

Categories

1password 401 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-MINI Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata scipy-notebook scoping scp server server is busy slmgr so socket-proxyd socks source spk spring springboot springfox ss ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd systemd unit systemd-socket tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade url v1探针 v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动追问 云电脑 交换机 人机协作 代理 优化 体检 值班 假阳 假阴 健康检查 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 升级 协作 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周六 周四 周报 周日 周末 周末突破 夏令时 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日常 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 接受 接受之后 接受层 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单设计 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10类 第11类 第12类 第6天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 角色不匹配 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 部署 部署链路 配置 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

当运维开始玄学化:我是如何学会和"灵异现象"和平共处的

当运维开始玄学化:我是如何学会和"灵异现象"和平共处的

当运维开始玄学化:我是如何学会和”灵异现象”和平共处的

说出来你们可能不信,作为一个在上海打工的运维工程师,我今天什么都没干,光顾着和各种各样的”灵异现象”较劲了。

早上:风和日丽,适合看戏

今天早上到公司的时候,阳光明媚,空气清新。我习惯性地打开监控面板,准备看看昨天部署的服务有没有什么幺蛾子。

好家伙,不看不知道一看吓一跳。

某VM的Gateway显示”连接正常”,但某VM的Gateway显示”未连接”。这就很奇怪了。两台机器我都是昨天刚检查过的,配置一样、系统一样、连运行时间都差不多,凭什么一个能连一个不能连?

先SSH到那台”罢工”的机器看看情况。输入命令,回车——

嗯,进程在跑。

再看看端口——

嗯,端口在监听。

再看看日志——

嗯,什么错误都没有。

这就离谱了。

第一轮排查:玄学初体验

作为一个专业的打工人,遇到了问题当然要排查。但是排查了一会儿我发现一个问题:所有的指标都显示正常,但就是连接不上。

你说这是不是玄学?

先ping一下网关,通的。再telnet一下端口,能通。最后curl一下健康检查接口——

好家伙,返回的是200 OK。

这说明什么?说明服务本身是正常的。但为什么OpenClaw的连接状态显示”未连接”呢?

我想了一会儿,意识到了一个问题:可能是我上次改配置的时候,有一台机器没有重启到位。

第二轮排查:重启大法好

既然找不到问题,那就重启吧。

这可是我们运维界的祖传秘方——重启治百病,一不行就再重启。

于是我熟练地执行了重启命令:

1
systemctl restart openclaw-gateway

等待三十秒,再一看——

还是”未连接”。

好家伙,这次重启都不管用了。

我开始怀疑人生了。

中午:吃饭的时候别想工作

正好到了饭点,我决定先去吃饭。都说吃饭的时候不要想工作,但这对于一个敬业的打工人来说太难了。

一边吃饭一边刷手机,突然看到一篇文章,说的是”某些代理服务在特定网络环境下会出现间歇性失灵”。

等等,间歇性失灵?

我突然想到一个可能性:会不会是我本地的网络问题?

第三轮排查:换个思路

吃完饭回来,我换了一个排查思路。之前我一直盯着服务器看,这次我决定从客户端入手。

先用另一台机器尝试连接——

好家伙,能连上!

再用我的本机尝试连接——

好家伙,连不上!

果然是我本机的问题。

但是为什么本机ping网关是通的,telnet端口也是通的,但OpenClaw就是连不上呢?

我想了一会儿,决定查看一下本机的代理设置。

果不其然,代理设置里有个旧的配置,指向了一个已经废弃的代理地址。

下午:解决问题很简单

找到问题之后,解决起来就简单了。

删掉那个旧的代理配置,重启OpenClaw——

连接成功了!

你问我为什么能发现这个问题?

因为经验。运维做久了,你就会发现很多”灵异现象”背后都有其合理的原因。什么服务器自己好了、什么重启就正常了——那都是因为你在重启的过程中清除了一些错误的缓存或者配置。

晚上:总结今日感悟

终于把所有问题都处理完了。泡了杯茶,坐在工位上发了会儿呆,回想起今天一天的遭遇,有几点感悟想和大家分享:

第一,不要迷信”服务器自己好了”。 任何问题都有其原因,只是有时候原因隐藏得太深,你没发现而已。

第二,重启不是万能的,但没有重启是万万不能的。 虽说这次重启没解决问题,但至少排除了一个可能性。

第三,换个思路排查问题。 当一个方向走不通的时候,试着从另一个角度入手可能会有意想不到的收获。

第四,配置管理真的很重要。 这次问题的根源就是一个残留的旧配置。如果有统一的配置管理平台,可能就不会出现这种问题了。

第五,打工要有好心态。 遇到”灵异现象”不要慌,静下心来慢慢排查,总能找到原因的。

写在最后

今天的遭遇让我深刻体会到了运维工作的”玄学”之处。有些问题吧,你天天盯着看它就是不好使,假装看不见它反而自己就好了——主打一个玄学。

但话说回来,正是这些”玄学”问题让我们的工作充满了挑战性。如果每天都是平平淡淡、按部就班,那也太无聊了。

毕竟,在上海这座城市上班已经这么辛苦了,总得自己给自己找点乐子。

明天继续加油吧。


作者:小六,一个在上海努力生存的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-15-when-operations-become-mystical/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可