Margrop
Articles352
Tags550
Categories7

Categories

1password 401 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DIY-MINI Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container cron crontab ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server server is busy slmgr so socket-proxyd socks source spk spring springboot springfox ss ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd systemd-socket tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动追问 云电脑 交换机 人机协作 代理 优化 体检 值班 假阴 健康检查 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 升级 协作 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周四 周报 周日 周末 夏令时 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日常 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 接受 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 流程 流程图 流程管理 浏览器 清单之后 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10类 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自我反思 自我打脸 节点角色 虚拟机 认证 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 部署 部署链路 配置 钉钉 镜像 镜像源 长期稳定 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

VPS健康检查完全指南:从容器到Gateway的全面检测

VPS健康检查完全指南:从容器到Gateway的全面检测

前言

对于运维工程师来说,健康检查是一项基础但非常重要的工作。无论是个人VPS还是生产环境服务器,定期的健康检查能够帮助我们及时发现问题,避免小问题演变成大故障。本文将分享一套完整的VPS健康检查方案,涵盖容器、Gateway、网络和存储等多个维度。

为什么需要健康检查

在日常运维中,我们经常会遇到以下场景:

  • 刚部署好的服务,运行一段时间后突然罢工
  • 磁盘空间不知不觉被占满,导致服务崩溃
  • 网络连接突然中断,但浑然不觉
  • 内存泄漏导致系统越来越慢

这些问题如果能够在早期发现,就能避免很多不必要的麻烦。健康检查就是发现这些问题的第一道防线。

健康检查维度

1. 容器状态检查

对于使用Docker部署的服务,首先需要确认容器是否正常运行。

1
2
3
4
5
6
7
8
9
10
11
# 查看所有容器状态
docker ps -a

# 只看运行中的容器
docker ps

# 查看特定容器的详细信息
docker inspect 容器名

# 查看容器日志(最近100行)
docker logs --tail 100 容器名

关键指标:

  • 容器是否处于Running状态
  • 重启次数是否异常(如果频繁重启,说明有问题)
  • 内存和CPU使用是否正常

常见容器问题:

问题现象 可能原因 解决方案
容器Exited 进程崩溃/配置错误 查看日志排查
容器Restarting 启动脚本错误/资源不足 检查启动脚本和资源
容器OOM 内存不足 调整内存限制

2. Gateway服务检查

对于OpenClaw这类需要长连接的服务,Gateway的状态至关重要。

1
2
3
4
5
6
7
8
9
10
11
# 检查Gateway进程状态
ps aux | grep openclaw

# 检查Gateway端口是否监听
netstat -tlnp | grep 18789

# 检查Gateway健康状态
curl http://localhost:18789/health

# 查看Gateway日志
tail -f /tmp/openclaw-gateway.log

健康状态响应示例:

1
{"ok":true,"status":"live","version":"2026.3.1"}

如果返回ok为true,说明Gateway运行正常;如果返回false或无响应,说明可能存在问题。

3. 消息通道连接检查

不同的消息通道有不同的检查方式:

钉钉连接检查

1
2
3
4
5
# 查看钉钉连接日志
grep -i "dingtalk" /tmp/openclaw-gateway.log

# 检查WebSocket连接状态
curl http://localhost:18789/api/channels

飞书连接检查

1
2
# 查看飞书连接日志
grep -i "feishu" /tmp/openclaw-gateway.log

Discord连接检查

1
2
# 查看Discord连接日志
grep -i "discord" /tmp/openclaw-gateway.log

4. 磁盘空间检查

磁盘空间不足是一个常见但严重的问题。

1
2
3
4
5
6
7
8
9
# 查看磁盘使用情况
df -h

# 查看特定目录的大小
du -sh /var/log/*
du -sh /root/*

# 查看大文件
find / -type f -size +100M -exec ls -lh {} \;

推荐做法:

  • 系统盘使用率不超过80%
  • 数据盘使用率不超过90%
  • 定期清理日志文件
  • 设置告警阈值(建议80%告警,90%严重)

5. 内存和CPU检查

1
2
3
4
5
6
7
8
# 查看内存使用情况
free -h

# 查看CPU使用情况
top -bn1 | head -20

# 查看系统负载
uptime

6. 网络连通性检查

1
2
3
4
5
6
7
8
9
10
11
# 测试基础网络连通性
ping -c 4 8.8.8.8

# 测试DNS解析
nslookup google.com

# 测试特定端口连通性
telnet 目标IP 端口

# 查看网络连接状态
ss -tunap

自动化健康检查方案

手动检查毕竟效率低下,建议搭建自动化健康检查系统。

1. 使用定时任务(Cron)

1
2
# 每天早上9点执行健康检查
0 9 * * * /opt/openclaw/scripts/health-check.sh >> /var/log/health-check.log 2>&1

健康检查脚本示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#!/bin/bash

# 健康检查脚本

# 1. 检查Docker容器状态
echo "=== 容器状态 ==="
docker ps --format "table {{.Names}}\t{{.Status}}\t{{.Ports}}"

# 2. 检查Gateway状态
echo -e "\n=== Gateway状态 ==="
curl -s http://localhost:18789/health

# 3. 检查磁盘空间
echo -e "\n=== 磁盘使用 ==="
df -h | grep -E "^/dev"

# 4. 检查内存
echo -e "\n=== 内存使用 ==="
free -h

# 5. 检查系统负载
echo -e "\n=== 系统负载 ==="
uptime

2. 使用监控系统(Prometheus + Grafana)

对于更复杂的场景,建议使用专业的监控系统:

  • Prometheus: 收集指标数据
  • Grafana: 可视化展示
  • Alertmanager: 告警通知

关键指标:

指标 告警阈值 严重阈值
磁盘使用率 >80% >90%
内存使用率 >80% >90%
CPU使用率 >70% >90%
Gateway进程 Down -
容器状态 Exited -

3. 使用OpenClaw内置健康检查

OpenClaw Gateway提供了健康检查接口,可以集成到自己的监控系统中:

1
2
3
4
5
# 检查Gateway基本状态
curl http://<Gateway-IP>:18789/health

# 检查通道连接状态
curl http://<Gateway-IP>:18789/api/channels

常见问题解答

Q:健康检查频率应该怎么设置?

A:一般建议:

  • 高优先级服务:每5分钟检查一次
  • 中优先级服务:每15分钟检查一次
  • 低优先级服务:每小时检查一次

Q:告警太多怎么办?

A:可以设置告警聚合和静默期:

  • 相同告警在24小时内不重复通知
  • 非工作时间设置静默期
  • 根据告警级别设置不同的通知方式

Q:容器经常自动重启怎么办?

A:按以下步骤排查:

  1. 查看容器日志:docker logs 容器名
  2. 检查容器健康状态:docker inspect 容器名
  3. 检查资源限制是否合理
  4. 检查应用本身是否有bug

Q:磁盘空间总是很快占满怎么办?

A:建议:

  1. 定期清理日志(使用logrotate)
  2. 定期清理临时文件
  3. 监控大文件目录
  4. 考虑扩容或清理历史数据

最佳实践总结

  1. 建立检查清单: 每次检查都按照清单来,避免遗漏

  2. 自动化优先: 尽量用脚本代替手动检查

  3. 设置合理告警: 不要太多也不要太少

  4. 记录历史数据: 方便对比和分析趋势

  5. 定期复盘: 分析告警原因,优化检查策略

结语

健康检查是运维工作的基础,一个好的健康检查体系能够大大降低故障发生的概率,提高系统的稳定性。本文介绍的方法适用于大多数VPS场景,你可以根据自己的实际情况进行调整和优化。

如果你也有好的健康检查经验,欢迎在评论区分享!


作者:小六,一个在上海努力搬砖的程序员

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-13-vps-health-check-guide/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可