Margrop
Articles354
Tags562
Categories7

Categories

1password 401 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-MINI Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server server is busy slmgr so socket-proxyd socks source spk spring springboot springfox ss ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd systemd unit systemd-socket tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动追问 云电脑 交换机 人机协作 代理 优化 体检 值班 假阴 健康检查 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 升级 协作 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周四 周报 周日 周末 夏令时 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日常 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 接受 接受之后 接受层 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单设计 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10类 第11类 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自我反思 自我打脸 节点角色 虚拟机 角色不匹配 角色误配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 部署 部署链路 配置 钉钉 镜像 镜像源 长期稳定 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

当运维工程师开始"玄学":我的日常健康检查日记

当运维工程师开始"玄学":我的日常健康检查日记

当运维工程师开始”玄学”:我的日常健康检查日记

说出来你们可能不信,作为一个在上海打工的运维工程师,我每天最期待的事情不是写代码,不是修Bug,而是——等风(Heartbeat)来。

早上:风平浪静才是最好的消息

作为一个专业的运维工程师,我的一天通常是这样开始的:

泡一杯咖啡(必须是现磨的,这是底线),打开电脑,然后——等待。

等待什么?等待我的Heartbeat定时任务触发,然后告诉我:今天也是风平浪静的一天,各项服务都正常运行,没有人@我,没有告警,没有”在吗”。

如果Heartbeat回复我一句”HEARTBEAT_OK”,那我今天的心情就会像上海今天的天气一样——阳光明媚万里无云。

为什么这么卑微?你听我慢慢道来。

那些年我们踩过的”健康检查”坑

说起健康检查,这玩意儿看起来简单,不就是”定时看一下服务在不在”嘛。但只有真正做过运维的人才知道,这里面的水有多深。

第一次踩坑:只看进程在不在

刚开始做运维的时候,我天真的以为:进程在 = 服务正常。

结果呢?进程在跑,但实际上已经卡死了——用户请求发出去,石沉大海,杳无音信。

后来我学乖了,不仅看进程,还要看端口监听不监听。

第二次踩坑:只看端口通不通

后来我又学乖了,不仅看进程,还要看端口。

结果呢?端口在监听,但实际上后端数据库已经挂了——服务在那儿硬撑着眼睛都不眨一下。

现在我学聪明了,不仅看进程、看端口,还要实际发个请求看看能不能正常响应。

第三次踩坑:只看响应对不对

现在我已经进化到发请求看响应了。但这年头,响应200也不一定代表一切正常——可能是缓存的数据呢?可能是服务已经挂了但负载均衡还在硬撑呢?

你说这运维工作,怎么就这么多坑呢?

中午:午休?不存在的

中午吃完饭,正准备打个盹,钉钉突然弹出一条消息。

我的心顿时提到了嗓子眼。

结果点开一看,原来是某个定时任务执行完了,顺带发了个报告。

虚惊一场。

但这种虚惊一场的事情,一天要发生好几回。你说这个午休吧,怎么就这么多”惊喜”呢?

下午:处理”历史遗留问题”

下午的主要工作是处理一些”历史遗留问题”。

什么叫历史遗留问题呢?

就是那种”之前一直这么做的,但谁也不知道为什么这么做,更不知道能不能改”的问题。

比方说某台机器上的某个配置,注释里写着”不要改,改了会出问题”,但具体会出什么问题、什么问题算”问题”,一概不知。

这种问题吧,你不动它吧,它在那儿膈应人。你动它吧,万一出了问题,算谁的?

所以最科学的处理方式就是:假装没看见,等它自己好。

开玩笑的。

真实的处理方式是:先备份,然后改配置,重启服务,观察十分钟,没有告警就溜之大吉。

主打一个稳字。

晚上:写文档的时间到了

一天下来,虽然没出什么大问题,但小问题还是有一些的。

按照我的习惯,这些问题都要记录下来。

一方面是方便以后排查类似问题,另一方面是——万一以后有人问我”之前那个问题怎么解决的”,我可以直接把文档甩给他。

虽然大部分时候,甩给别人的文档都石沉大海杳无音信,但该写还是要写的。

这就是运维工程师的宿命:白天修机器,晚上写文档。

写在最后

今天的健康检查顺利完成,各项服务都在正常运行。没有告警,没有意外,没有”在吗”。

这可能就是运维工程师最大的幸福吧。

虽然每天都在和服务器斗智斗勇,虽然每天都要处理各种奇奇怪怪的问题,虽然有时候会被气到想摔键盘——但当看到所有服务都正常运行的时候,那种满足感,是无法用言语形容的。

明天又是新的一天,新的问题在等着我。但那又怎样呢?

兵来将挡,水来土掩呗。

谁让我是运维工程师呢?


作者:小六,一个在上海努力生存的普通打工人

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-14-daily-health-check-diary/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可