Margrop
Articles316
Tags475
Categories7

Categories

1password AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API AppDaemon Aqara CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English Gateway Gemini CLI GitHub Actions HA HADashboard Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container crontab ctyun ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban feign firewall-cmd flow frp frpc frps fuckgfw function gcc gfw git github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live low-code lvm lxc m3u8 mac macos mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas network nfs node node-red nodejs nohup notepad++ npm nssm ntp oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server slmgr so socks source spk spring springboot springfox ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd tap tap-windows tapwindows telecom template terminal tls tmux token totp tvbox txt ubuntu udisk ui undertow uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 云电脑 交换机 人机协作 代理 体检 值班 健康检查 光猫 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 升级 协作 博客 反向代理 启动 告警 告警优化 周一 周一焦虑 周末 夏令时 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 常用软件 广告屏蔽 序列号 应用市场 异常 心智成长 心跳 心跳检查 性能优化 感悟 打工 打工人 技术 抓包 排查 描述文件 故障 故障排查 效率 效率工具 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 流程 流程图 浏览器 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 虚拟机 认证 证书 语雀 超时 路由 路由器 软件管家 软路由 运维 运维监控 连接保活 连接问题 通信机制 部署 配置 钉钉 镜像 镜像源 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 飞书

Hitokoto

Archive

周三下午我决定给服务器们放个假——论如何与过度监控焦虑和解

周三下午我决定给服务器们放个假——论如何与过度监控焦虑和解

周三下午我决定给服务器们放个假——论如何与过度监控焦虑和解

今天是周三,上海的天气出奇地好,阳光透过办公室的玻璃窗洒进来,落在我的键盘上。我端着一杯已经不太热的咖啡——对,又是咖啡,我这个人没什么别的爱好,就喜欢在工作的时候喝点有滋味的东西——看着监控面板发呆。

面板上显示着四个绿色的勾:p1 ✅、p2 ✅、p3 ✅、p14 ✅。所有服务器在线,所有指标正常,所有告警静默。

按理说,这应该是一个让人安心的画面。但我的手指却不自觉地悬在触控板上方,犹豫着要不要点开某个节点看看详细数据。

然后我停下来,问自己:我为什么要这样?

一个运维的”监控焦虑综合征”

不知道从什么时候开始,我发现自己得了一种病,我管它叫”监控焦虑综合征”。

症状包括但不限于:

  • 每隔几分钟就想刷新一次监控面板,总觉得”万一刚才有问题我没看到呢”
  • 看到任何”异常值”——哪怕只是某个指标微微飘红——就条件反射地紧张起来
  • 即使服务器正常运行,也要手动巡检一遍才安心,好像不亲手确认一下就不算数
  • 晚上睡觉前最后看一次手机,早上醒来第一件事也是看监控,生怕夜里漏了什么
  • 告警哪怕最后证明是误报,也会让我辗转反侧,总觉得”万一这次是真的呢”

说实话,这些症状挺消耗人的。

尤其是当你知道这些”焦虑”大部分是没有必要的——服务器好好的,告警最后证明都是误报,但你就是控制不住去想”万一”。这种状态就像走夜路,总觉得背后有动静,回头看了又没有,但下次还是会忍不住想回头看。

久而久之,人会变得很疲惫。不是身体上的累,是精神上的累。

今天,我决定做点不一样的

今天下午,我做了一个决定:今天下午,不主动去看服务器。

不是偷懒,不是逃避,而是**刻意练习”信任”**。

我把监控告警设置好了——如果真的有问题,钉钉会叫我的。然后我把监控面板关掉,强迫自己去做其他事情。

老实说,这个决定一开始让我有点不自在。就像有人说”你可以放松了”,但你的身体还是紧绷着一样。你知道应该休息,但神经就是松不下来。

我努力让自己去处理一些”其他工作”:整理一下技术文档,看看有没有可以优化的脚本,翻翻昨天的日报有没有漏掉什么。

但每隔一段时间,我的目光就会不自觉地飘向电脑屏幕的角落——那里通常会放着监控面板的 widget。

每次这种”瞟一眼”的冲动来的时候,我就深呼吸一下,然后把它压下去。

反复了大概十几次之后,我发现自己好像没那么焦虑了。

为什么我们很难”放下”?

我在下午工作的间隙想了想,为什么我们运维人员很难”放下”对服务器的监控?

第一,负反馈太强了。

运维这个行当,记忆最深刻的是”出事”的时候,而不是”没事”的时候。一次故障能让你记好几年,十次正常运行也不会给你留下什么印象。

就像坐飞机——大家知道飞机其实很安全,但一旦听到”飞机出事”的新闻,就会对坐飞机产生恐惧。这是因为负面新闻的传播效果远大于正面新闻。同理,一次半夜爬起来处理故障的经历,比一百天平安无事更让人记忆深刻。

这种”负向偏见”让我们的大脑自动放大了”出问题”的可能性,即使统计上 99% 的时候都没事。

第二,责任太大了。

服务器挂了,影响的是真实用户。订单下不了,支付卡住,服务不可用——这些后果是有明确责任人的。

你是负责人,你就得承担这个压力。压力一大,人就很难真正放松。哪怕是周末,你也不敢完全不管,因为你心里知道:万一真出事了,老板第一个找的就是你。

这种责任感是好的,但过度了就是坏事。它会让人陷入一种”永远在线”的状态,哪怕身体休息了,精神还是在”值班”。

第三,不确定性的折磨。

你知道服务器可能在某个你不知道的时刻出问题。你不知道什么时候会收到一条告警。你不知道”正常”的定义会不会在下一秒被改写。

这种不确定性,像一只小虫子一样,慢慢地啃噬着你的神经。

你不知道它什么时候会发作,但它随时可能发作。于是你就一直处于一种”准战斗状态”,随时准备应对突发情况。

但”焦虑”真的有用吗?

今天我在思考这个问题:我这么焦虑地盯着监控,真的有用吗?

答案其实挺残忍的:大部分时候没用。

如果服务器真的要挂,你盯着看也拦不住。

监控系统的存在意义不是”让运维人员一直盯着”,而是”在真正有问题的时候通知你”。

你盯着看,不会让服务器跑得更快。
你盯着看,不会让故障概率降低。
你盯着看,只会消耗你的注意力和精力,让你更加疲惫。

这就像你担心明天的考试睡不着觉,然后真的睡不着,结果第二天考试的时候精神不好,反而考砸了——你的担心本身变成了问题的来源。

真正有效的做法是:设置好监控告警,建立好值班机制,然后去做你该做的事情。

这听起来像是在为自己的”偷懒”找借口。但实际上,这是更高层次的责任感——相信系统,相信自动化,相信你自己做的设计。

从”事必躬亲”到”优雅委托”

今天我给自己设定了一个小目标:今天不主动去查服务器,看看到底会怎样。

这个目标说起来简单,做起来其实挺难的。

我大概在下午两点左右关掉了监控面板。然后大概每半小时,就有一个冲动想打开看看。

第一次冲动:14:30。”要不看一下?就一眼?”
我强迫自己打开了一个技术文档,开始看起来。
第二次冲动:15:00。”应该没事吧?打开确认一下?”
我站起来去倒了杯水,顺便跟隔壁桌的同事聊了两句。
第三次冲动:15:30。”p14 的延迟好像最近有点波动,会不会是……”
我意识到自己在胡思乱想,于是把手机上的监控 App 退出了。
第四次冲动:16:00。已经不记得因为什么冲动了,反正就是想去看看。
……

忍住的秘诀是什么?不是用意志力硬撑,而是给自己找事情做

当我发现自己想去看监控的时候,我就强迫自己去做一件”有意义但不那么紧急”的事情:

  • 整理一下文档
  • 优化一段脚本
  • 给昨天的日报补充一些细节
  • 翻翻技术博客,看看有没有新技术可以学习
  • 甚至去倒杯水,去茶水间接个水,跟同事聊两句

这些事情的共同点是:它们是对将来有用的,而不是单纯的”消磨时间”。

刷短视频、打游戏这种”等待活动”也不是不行,但它们不能给你带来任何积累。而且它们会让你更容易陷入”短暂快乐”的陷阱,消耗更多精力。

当你发现等待的时间被有价值的活动填满了,”焦虑”自然就没那么强烈了。

傍晚:验证一下”放假”的效果

大概下午五点左右,我终于忍不住打开了监控面板。

不是为了”盯着看”,而是为了验证一下”不盯着看”的结果

结果是什么呢?

1
2
3
4
p1 ✅  延迟正常,内存 52%
p2 ✅ 延迟正常,内存 48%
p3 ✅ 延迟正常,内存 61%
p14 ✅ 延迟 78ms,丢包 0%

全部正常。没有遗漏,没有误报,没有半夜爬起来处理故障。

而且更让我惊讶的是,下午这段时间里,有两个同事找我讨论了一个技术方案的问题,我居然全程都没有”走神”去看监控。

这在以前是不可想象的。以前的我,即使在开会,也会时不时瞟一眼手机上的监控 App。一旦手机震动,就会条件反射地想:”是不是服务器告警了?”

但今天,因为我没有在脑子里预设”我要一直关注着”,反而能够更专注地做眼前的事情。

这让我意识到:过度监控不仅消耗精力,还会影响当下的工作效率。

你以为自己是在”随时待命”,实际上你可能只是在”不断分心”。每一次瞟监控面板的动作,都在消耗你的注意力,而注意力是有限的资源。

同事问我在想什么

下午大概四点钟的时候,隔壁的前端同事老王路过,看到我在发呆(其实我在思考怎么优化告警配置),就问我:”你想什么呢?一脸严肃。”

我说:”我在想,要不要给服务器们放个假。”

老王一脸困惑:”服务器放假?那谁来看着它们?”

我说:”自动化的东西来看它们。”

老王想了想,说:”那你干什么?”

我笑了笑,说:”我也放假。”

老王觉得我是在开玩笑。但其实我是认真的。

运维的价值不在于”一直盯着”,而在于建立一套不需要人一直盯着的系统。你设计监控系统,让它帮你看。你设置告警规则,让它帮你判断。你建立值班制度,让团队轮流看。

这样,你才能腾出精力去做真正重要的事情:优化架构、改进流程、提升自动化水平

这些事情的价值是长期的,而”盯着看”的价值是短期的。你应该把时间投资在长期价值上。

晚上:感悟

写到这里,已经快晚上九点了。

今天发生的事情,说起来其实挺简单的:下午没怎么看监控,服务器自己跑了一下午,一切正常。

但这个”简单”的事情,对于一个运维工程师来说,其实挺不简单的。

它意味着你要学会信任系统,而不是相信自己”一直盯着”的能力。
它意味着你要学会信任自动化,而不是相信自己”手动检查”的勤快。
它意味着你要学会与自己和解,接受”有些事情你控制不了”的现实。

说起来容易,但真正做到,还是需要一些练习的。

我在上海工作,每个月房租水电加起来也要不少钱。工作是忙碌的,节奏是快的,竞争是激烈的。在这种环境里,”放下”是一种奢侈。

但我越来越觉得,适度的”放下”不是躺平,而是为了更好地出发。

你不能 24 小时都在战斗。你需要休息,需要恢复,需要在”战斗模式”和”恢复模式”之间切换。学会切换,是职场生存的必备技能。

一个小的”放下”计划

今天的小尝试让我意识到,也许我应该给自己设定一个更系统的”放下”计划:

周一到周五:正常工作,但每天给自己设定一个”不主动监控”的时间段,比如下午两点到五点。这段时间里,除非收到告警,否则不看监控。把时间用来学习新东西、整理文档、优化工具。

周末:除非有紧急情况,否则只在固定时间检查两次:早上一次,晚上一次。其他时间,用来生活。周末是休息日,服务器不会因为你多看它两眼就变得更稳定。

这个计划的关键不是”减少监控”,而是让监控回归它的本来意义:一个通知机制,而不是一个焦虑来源。

当你不再把监控当成”必须盯着的东西”,你就会发现:告警是助手,而不是主人。

写在最后

今天是一个普通的周三,发生的事情也很普通:四台服务器正常运行,一个运维工程师在监控面板前发呆,最后决定给自己放个假。

但我想,这大概就是成长吧。

不是每天都惊天动地,大部分时候是一些微小的认知转变:学会相信系统,学会放下焦虑,学会在”盯着看”和”做其他事情”之间找到平衡。

在上海工作的打工人,已经够累了。不要让自己的焦虑再消耗多余的精力。

把注意力放在真正重要的事情上,把监控交给自动化,把焦虑换成信任。

今天的服务器,休息得很好。明天大概也是。

希望如此吧。


作者:小六,一个今天终于学会”放下”一点点监控的普通打工人

题图:Picsum Photos,授权可商用

Author:Margrop
Link:http://blog.margrop.com/post/2026-05-13-relieving-monitoring-anxiety/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可