VPS健康检查完全指南：从容器到Gateway的全面检测

2026年03月13日 ai_tech 约14k字预计需要20 分钟

前言

对于运维工程师来说，健康检查是一项基础但非常重要的工作。无论是个人VPS还是生产环境服务器，定期的健康检查能够帮助我们及时发现问题，避免小问题演变成大故障。本文将分享一套完整的VPS健康检查方案，涵盖容器、Gateway、网络和存储等多个维度。

为什么需要健康检查

在日常运维中，我们经常会遇到以下场景：

刚部署好的服务，运行一段时间后突然罢工
磁盘空间不知不觉被占满，导致服务崩溃
网络连接突然中断，但浑然不觉
内存泄漏导致系统越来越慢

这些问题如果能够在早期发现，就能避免很多不必要的麻烦。健康检查就是发现这些问题的第一道防线。

健康检查维度

1. 容器状态检查

对于使用Docker部署的服务，首先需要确认容器是否正常运行。

# 查看所有容器状态
docker ps -a

# 只看运行中的容器
docker ps

# 查看特定容器的详细信息
docker inspect 容器名

# 查看容器日志（最近100行）
docker logs --tail 100 容器名

关键指标：

容器是否处于Running状态
重启次数是否异常（如果频繁重启，说明有问题）
内存和CPU使用是否正常

常见容器问题：

问题现象	可能原因	解决方案
容器Exited	进程崩溃/配置错误	查看日志排查
容器Restarting	启动脚本错误/资源不足	检查启动脚本和资源
容器OOM	内存不足	调整内存限制

2. Gateway服务检查

对于OpenClaw这类需要长连接的服务，Gateway的状态至关重要。

# 检查Gateway进程状态
ps aux | grep openclaw

# 检查Gateway端口是否监听
netstat -tlnp | grep 18789

# 检查Gateway健康状态
curl http://localhost:18789/health

# 查看Gateway日志
tail -f /tmp/openclaw-gateway.log

健康状态响应示例：

1	`{"ok":true,"status":"live","version":"2026.3.1"}`

如果返回ok为true，说明Gateway运行正常；如果返回false或无响应，说明可能存在问题。

3. 消息通道连接检查

不同的消息通道有不同的检查方式：

钉钉连接检查

# 查看钉钉连接日志
grep -i "dingtalk" /tmp/openclaw-gateway.log

# 检查WebSocket连接状态
curl http://localhost:18789/api/channels

飞书连接检查

1 2	`# 查看飞书连接日志 grep -i "feishu" /tmp/openclaw-gateway.log`

Discord连接检查

1 2	`# 查看Discord连接日志 grep -i "discord" /tmp/openclaw-gateway.log`

4. 磁盘空间检查

磁盘空间不足是一个常见但严重的问题。

# 查看磁盘使用情况
df -h

# 查看特定目录的大小
du -sh /var/log/*
du -sh /root/*

# 查看大文件
find / -type f -size +100M -exec ls -lh {} \;

推荐做法：

系统盘使用率不超过80%
数据盘使用率不超过90%
定期清理日志文件
设置告警阈值（建议80%告警，90%严重）

5. 内存和CPU检查

# 查看内存使用情况
free -h

# 查看CPU使用情况
top -bn1 | head -20

# 查看系统负载
uptime

6. 网络连通性检查

# 测试基础网络连通性
ping -c 4 8.8.8.8

# 测试DNS解析
nslookup google.com

# 测试特定端口连通性
telnet 目标IP 端口

# 查看网络连接状态
ss -tunap

自动化健康检查方案

手动检查毕竟效率低下，建议搭建自动化健康检查系统。

1. 使用定时任务（Cron）

1 2	`# 每天早上9点执行健康检查 0 9 * * * /opt/openclaw/scripts/health-check.sh >> /var/log/health-check.log 2>&1`

健康检查脚本示例：

#!/bin/bash

# 健康检查脚本

# 1. 检查Docker容器状态
echo "=== 容器状态 ==="
docker ps --format "table {{.Names}}\t{{.Status}}\t{{.Ports}}"

# 2. 检查Gateway状态
echo -e "\n=== Gateway状态 ==="
curl -s http://localhost:18789/health

# 3. 检查磁盘空间
echo -e "\n=== 磁盘使用 ==="
df -h | grep -E "^/dev"

# 4. 检查内存
echo -e "\n=== 内存使用 ==="
free -h

# 5. 检查系统负载
echo -e "\n=== 系统负载 ==="
uptime

2. 使用监控系统（Prometheus + Grafana）

对于更复杂的场景，建议使用专业的监控系统：

Prometheus: 收集指标数据
Grafana: 可视化展示
Alertmanager: 告警通知

关键指标：

指标	告警阈值	严重阈值
磁盘使用率	>80%	>90%
内存使用率	>80%	>90%
CPU使用率	>70%	>90%
Gateway进程	Down	-
容器状态	Exited	-

3. 使用OpenClaw内置健康检查

OpenClaw Gateway提供了健康检查接口，可以集成到自己的监控系统中：

# 检查Gateway基本状态
curl http://<Gateway-IP>:18789/health

# 检查通道连接状态
curl http://<Gateway-IP>:18789/api/channels

常见问题解答

Q：健康检查频率应该怎么设置？

A：一般建议：

高优先级服务：每5分钟检查一次
中优先级服务：每15分钟检查一次
低优先级服务：每小时检查一次

Q：告警太多怎么办？

A：可以设置告警聚合和静默期：

相同告警在24小时内不重复通知
非工作时间设置静默期
根据告警级别设置不同的通知方式

Q：容器经常自动重启怎么办？

A：按以下步骤排查：

查看容器日志：docker logs 容器名
检查容器健康状态：docker inspect 容器名
检查资源限制是否合理
检查应用本身是否有bug

Q：磁盘空间总是很快占满怎么办？

A：建议：

定期清理日志（使用logrotate）
定期清理临时文件
监控大文件目录
考虑扩容或清理历史数据

最佳实践总结

建立检查清单: 每次检查都按照清单来，避免遗漏
自动化优先: 尽量用脚本代替手动检查
设置合理告警: 不要太多也不要太少
记录历史数据: 方便对比和分析趋势
定期复盘: 分析告警原因，优化检查策略

结语

健康检查是运维工作的基础，一个好的健康检查体系能够大大降低故障发生的概率，提高系统的稳定性。本文介绍的方法适用于大多数VPS场景，你可以根据自己的实际情况进行调整和优化。

如果你也有好的健康检查经验，欢迎在评论区分享！

作者：小六，一个在上海努力搬砖的程序员

Categories

Hitokoto

Archive

Recent Posts