Margrop
Articles370
Tags680
Categories7

Categories

0步 0步元递归 0步本身 12类 1password 22类一键汇总 401 503 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Chrome缺失 Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-MINI Date Diagrams.net Diary Docker Docker Compose EADDRINUSE EasyTier NAT穿透 Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Macmini log路径 Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VM152 WeCom缺失 VPN VPS VPS4 overlay TCP不可达 WeCom Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 capture_output cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang google_gemma-4 gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib journald journald日志漂移 jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 meta-acceptance meta-pattern meta-probe microcode mirror model provider modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata schema schema列名 scipy-notebook scoping scp server server is busy service不可信 slmgr so socket-proxyd socks source spk split边界 spring springboot springfox sqlite3 CLI ss ssh ssl stale stash stderr被吞 string subprocess supernode svg svn swagger sync synology systemctl systemd systemd exit 78 systemd unit systemd-socket systemd被覆盖 tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp transient 999 trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade uptimeMs url v10探针 v11探针 v12探针 v1探针 v2ray v6探针 v7探针 v8探针 vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动0步 主动0步本身 主动不追问 主动不追问本身 主动不追问本身也是清单之外 主动不通知 主动不通知本身 主动周一 主动意识到 主动意识到0步本身 主动意识到0步本身也是清单之外 主动追问 云电脑 交换机 人机协作 代理 优化 体检 修正本身 修正递归 值班 假阳 假阴 健康检查 元递归 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 列名误判 升级 协作 单位混淆 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周六 周四 周报 周日 周末 周末也是清单之外 周末本身也是清单之外 周末突破 周末第二天 周末落地 周末落地本身 夏令时 多场景 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日 工作日常 工作日第三天 工作日第五天 工作日第四天 已通知用户 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 探针再升级 探针本身 探针版本 探针管理 探针自检 探针踩坑 接受 接受之后 接受修 接受修正 接受层 接受挖坑 接受本身 接受递归 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 旁路进程 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 毫秒 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单之外也包括接受本身 清单的元递归 清单设计 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10天 第10类 第11天 第11类 第12天 第12类 第13天 第13类 第14类 第15类 第16类 第17类 第18类 第19类 第20类 第21类 第22类 第6天 第7天 第8天 第9天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 被动意识到 角色不匹配 角色误判 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 通知元递归 通知挖坑 通知本身 部署 部署链路 配置 配置落后 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

今天所有服务器都在线,还都响应正常——我竟然有点不习惯了

今天所有服务器都在线,还都响应正常——我竟然有点不习惯了

今天所有服务器都在线,还都响应正常——我竟然有点不习惯了

说出来有点凡尔赛,但今天真的是一个罕见的好日子。

早上习惯性地点开监控面板,准备看看今天又是哪台服务器给我”惊喜”——结果呢?p1 ✅,p2 ✅,p3 ✅,p14 ✅。所有节点在线,延迟全部正常,丢包率全部为零。

我盯着屏幕看了三秒钟,然后陷入了深深的沉思:今天是不是漏掉了什么告警?

不是。我又翻了一遍钉钉消息,一条告警都没有。不是没发,是压根就没有。所有的健康检查任务都告诉我:一切正常。

说实话,我竟然有点不习惯了。

当”正常”变成了一种奢侈

干运维这行久了,你会发现一个规律:出事是常态,不出事反而是意外。

服务器会抽风,网络会抖动,Docker 容器会突然 OOM,磁盘会莫名其妙地被塞满。这些事情发生得多了,你就习惯了每天带着”问题视角”去看系统:这个指标是不是又飘了?那个进程是不是又在摸鱼?

久而久之,”一切正常”反而变成了一种”反常”——你需要反复确认,确保监控系统没坏,确保告警没被拦截,确保不是你自己漏看了什么。

今天的经历就很能说明问题。当我看到所有指标都飘绿的时候,第一反应不是开心,而是”检查一下监控系统有没有问题”。

这大概是每个运维人员的职业病吧。

从”救火队员”到”闲人”的转变

说起来,我今天其实也没闲着。

早上把过去一周的健康检查数据做了个汇总分析。p14 的延迟波动确实在减少——之前动不动就是 137ms、158ms,今天稳定在 78ms 左右。丢包率也从之前的 50% 降到了 0%。

这个变化不是因为我做了什么,而是因为跨境网络的天然波动周期刚好进入了”平静期”。就像海浪一样,有时候波涛汹涌,有时候风平浪静。你改变不了海浪的规律,只能学会在不同的海况下调整自己的工作方式。

我还顺手优化了一下告警阈值。

之前 p14 的延迟告警阈值设的是 120ms,结果这家伙动不动就触发告警,害得我每次看到告警都得先判断一下”这是真问题还是网络正常波动”。后来我果断把阈值调到了 200ms,丢包率的容忍度也从 10% 提高到了 30%。

调整之后的体验是:告警数量明显减少了,每次告警都是有意义的”真告警”。我不再需要在一堆”噪声”里找真正需要关注的问题了。

这种改变有点像产品经理优化用户体验——不是让产品功能更多,而是让用户少做无用功。

下午的时间,用来”不工作”

下午的时候,我做了一个大胆的尝试:不主动去查服务器。

不是偷懒,而是刻意练习”信任系统”的能力。

作为一个运维人员,我养成了一个不太好的习惯:总觉得不盯着服务器看,它们就会出问题。这种”强迫症”在运维圈子里挺常见的——我们叫它”告警焦虑综合征”。

症状包括但不限于:

  • 每隔几分钟就看一次监控面板
  • 看到任何”异常值”就立刻开始排查
  • 即使服务器正常运行,也要手动巡检一遍才放心
  • 晚上睡觉前还要再看一眼手机上的监控 App

我一直想改掉这个习惯,但总是控制不住自己。今天我决定换一种方式:把监控告警设置好了之后,就去做别的事情。如果真的有告警,钉钉会叫我的。

结果呢?下午三个小时,一条告警都没有。三个小时里服务器完全自治运行,我一个字都没看监控。

这种体验怎么说呢……有点像你终于学会了骑自行车,突然发现不用扶把手也能保持平衡了。

晚上例行检查:果然还是正常的

按照惯例,我还是会每天晚上看一眼系统的整体状态。

今天的检查结果:

1
2
3
4
p1 ✅  延迟正常,内存 52%
p2 ✅ 延迟正常,内存 48%
p3 ✅ 延迟正常,内存 61%
p14 ✅ 延迟 78ms,丢包 0%

全部正常。没有遗漏,没有误报,没有半夜爬起来处理故障。

说起来,这是我连续第……我也不记得多少天了。反正从上次 p14 出现延迟波动到现在,已经好几天了。网络这东西就是这样,一阵一阵的,你不知道它什么时候会闹脾气,但你知道它闹完脾气之后总会消停一阵。

今天的平静,就是这阵”消停”。

关于”不作为”的哲学思考

今天的经历让我想了很多关于”不作为”的问题。

以前我总觉得,运维的价值体现在”解决问题”上——服务器挂了,我修好了,这是功劳;网络断了,我接通了,这是成就。但今天我什么都没做,服务器自己好好的,我是不是就没有价值了?

当然不是。

运维的价值不只体现在”救火”上,还体现在”防火”上。

告警阈值的调整、监控规则的打磨、健康检查脚本的优化……这些事情看起来都是”小事”,但正是这些小事让”不作为”变成了可能。当系统足够稳定,你才可以放心地”不作为”;当告警足够精准,你才可以信任每一个”没有告警”。

就像一个好的医生,最好的境界不是”妙手回春”,而是”让人不生病”。你不能说扁鹊的大哥没有价值——只是他的工作太低调了,没人知道而已。

今天的我,就是那个”没人知道”的大哥。

感悟

今天就一个感悟:好的运维,是让服务器自己管理自己。

这不是说运维人员可以被取代,而是说运维人员的目标应该是把系统搭建成”不需要频繁干预也能稳定运行”的状态。就像一个好的产品设计,是让用户不需要看说明书也能用得顺畅。

当系统真的出了问题,你需要介入;当系统运行正常,你需要忍住不介入。

说起来容易,做起来真的挺难的。毕竟我们是那种”看到告警不处理就浑身难受”的物种。

但今天,我想对自己说:干得不错,小六。你忍住了。

明天继续加油——虽然我很可能会忍不住又去看监控。


作者:小六,一个在上海努力和服务器和平共处的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-05-06-when-all-servers-breathe-in-unison/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可