Margrop
Articles201
Tags388
Categories23
1password AC AI AP API AppDaemon Aqara Caddy Cookie 认证 Cron Date Diagrams.net Docker HA HADashboard HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax MySQL NAS Nginx OpenAI OpenClaw OpenResty PPPoE PostgreSQL ProcessOn Prometheus Proxmox VE SOCKS5 SSL Shell TTS TimeMachine UML Uptime Kuma VPN VPS Web Windows activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit container crontab ctyun ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban feign firewall-cmd flow frp frpc frps fuckgfw function gcc gfw git github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https idea image img img2kvm import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live low-code lvm lxc m3u8 mac macos mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas network nfs node node-red nodejs nohup notepad++ npm nssm ntp oop openfeign openssl os otp ovz packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reflog remote remote desktop renew repo resize retina root route router rule rules runtime safari sata scipy-notebook scoping scp server slmgr so socks source spk spring springboot springfox ssh ssl stash string supernode svg svn swagger sync synology systemctl tap tap-windows tapwindows telecom template terminal tls token totp tvbox txt ubuntu udisk ui undertow uninstall unlocker upgrade url v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 云电脑 交换机 代理 健康检查 光猫 公网IP 内存 内网IP 升级 反向代理 启动 夏令时 天猫精灵 天翼云 安全 安装 定时任务 容器 导入 小米 常用软件 广告屏蔽 序列号 应用市场 异常 打工 技术 抓包 描述文件 效率工具 日记 时区 显卡虚拟化 智能家居 智能音箱 梯子 模块 流程 流程图 浏览器 漫游 激活 火绒 玄学 电信 画图 监控 直播源 端口扫描 续期 网关 网络 网络风暴 群晖 脚本 腾讯 自动化 虚拟机 认证 证书 语雀 路由 路由器 软件管家 软路由 运维 运维监控 配置 钉钉 镜像 镜像源 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客

Hitokoto

Archive

记一次代理服务器"本地正常、远程异常"的疑难排查全过程

记一次代理服务器"本地正常、远程异常"的疑难排查全过程

前言

在运维工作中,最让人头疼的问题之一就是”本地正常、远程异常”的现象。这种问题排查起来往往无从下手,因为从服务器角度来看一切正常,但客户端就是连不上。本文将详细记录一次典型的代理服务器连接异常排查过程,希望能为遇到类似问题的同学提供一些参考。

问题背景

业务场景

我们的自动化运维系统需要通过代理服务器访问外部API。代理服务部署在某台内网服务器上,提供SOCKS5和HTTP两种代理模式。客户端通过代理服务器转发请求,实现对外部服务的访问。

环境信息

  • 代理服务器:某内网服务器
  • SOCKS5端口:1080
  • HTTP端口:1081
  • 客户端:OpenClaw Gateway(部署在VM151、VM152和本地Mac)
  • 网络环境:内网,通过路由器访问

问题现象

某天开始,运维人员发现:

  1. 从VM151访问代理服务器:正常
  2. 从VM152访问代理服务器:正常
  3. 从本地Mac访问代理服务器:间歇性失败

更诡异的是:

  • ping网关:通
  • telnet代理端口:通
  • curl健康检查接口:200 OK
  • 但OpenClaw就是连不上

排查过程

第一步:确认服务端状态

首先登录代理服务器,确认服务本身是否正常运行:

1
2
3
4
5
6
7
8
# 查看代理进程是否在运行
ps aux | grep v2ray

# 查看端口监听状态
netstat -tlnp | grep -E '1080|1081'

# 查看代理服务日志
tail -f /var/log/v2ray/error.log

结果:

  • 进程在运行
  • 端口在监听
  • 日志无异常

结论:服务端本身没有问题。

第二步:测试网络连通性

从客户端角度测试网络连通性:

1
2
3
4
5
6
7
8
9
# 测试到代理服务器的网络延迟
ping -c 5 代理服务器IP

# 测试端口连通性
telnet 代理服务器IP 1080
telnet 代理服务器IP 1081

# 测试HTTP代理
curl -x http://代理服务器IP:1081 http://www.google.com -v

结果:

  • ping:通,部分丢包
  • telnet:能连上
  • curl:通过HTTP代理可以访问

结论:网络基本连通,但存在丢包现象。

第三步:检查客户端配置

查看OpenClaw的代理配置:

1
2
3
4
5
# 查看配置文件
cat /opt/openclaw/config.json | grep -A10 proxy

# 或者查看环境变量
env | grep -i proxy

结果:发现配置中有一个残留的旧代理地址,指向了一个已经废弃的代理服务。

第四步:清除旧配置

删除错误的配置:

1
2
3
4
5
6
7
8
9
10
11
# 方式1:修改配置文件
# 删除或注释掉错误的代理配置

# 方式2:清除环境变量
unset http_proxy
unset https_proxy
unset HTTP_PROXY
unset HTTPS_PROXY

# 方式3:重启客户端服务
systemctl restart openclaw-gateway

第五步:验证修复

重新测试连接:

1
2
3
4
5
# 测试SOCKS5代理
curl -x socks5h://代理服务器IP:1080 http://www.google.com -v

# 测试HTTP代理
curl -x http://代理服务器IP:1081 http://www.google.com -v

结果:连接成功!

根因分析

问题根源

这次问题的根本原因是:残留的代理配置指向了一个不可用的地址

当OpenClaw尝试连接时,会优先使用配置中的代理。如果配置中的代理地址不可用,连接就会失败。即使本地有其他可用的网络路径,客户端也会一直尝试连接那个错误的代理地址。

为什么本地正常而远程异常?

这个问题很有意思。为什么VM151和VM152能正常连接,而本地Mac不能?

可能的原因:

  1. 配置不一致:不同机器上的代理配置可能不同
  2. 网络路径差异:不同机器到代理服务器的路由不同
  3. DNS解析差异:不同机器对同一域名的解析结果不同
  4. 缓存问题:某些机器缓存了旧的配置

排查技巧总结

遇到”本地正常、远程异常”的问题时,建议按以下步骤排查:

  1. 确认服务端状态:服务是否正常运行?端口是否监听?
  2. 测试网络连通性:ping、telnet、curl等基础测试
  3. 检查客户端配置:配置是否正确?是否有残留的错误配置?
  4. 对比不同客户端:找出正常和异常客户端的差异
  5. 查看日志:服务端和客户端日志都可能包含关键信息

一键解决方案

如果你遇到了类似的代理连接问题,可以尝试以下排查命令:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 1. 确认代理服务状态
ssh 代理服务器 "systemctl status v2ray && netstat -tlnp | grep -E '1080|1081'"

# 2. 测试本地网络到代理服务器
ping -c 5 代理服务器IP
telnet 代理服务器IP 1080

# 3. 检查本地代理配置
env | grep -i proxy
cat /opt/openclaw/config.json | grep proxy

# 4. 清除错误的代理配置
unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY

# 5. 测试直连(不使用代理)
curl -v http://目标服务

# 6. 测试代理连接
curl -x socks5h://代理服务器IP:1080 http://目标服务 -v
curl -x http://代理服务器IP:1081 http://目标服务 -v

# 7. 重启客户端服务
systemctl restart openclaw-gateway

常见问题解答

Q1:为什么ping通了但telnet不通?

A:ping使用的是ICMP协议,而telnet使用的是TCP协议。这说明网络层是通的,但传输层可能有问题。可能的原因包括:防火墙阻断、端口未开放、服务未监听等。

Q2:为什么telnet能连但应用连不上?

A:telnet只测试了TCP三次握手是否成功,但应用层协议可能还有额外的要求。例如:认证失败、协议版本不匹配、SSL/TLS握手问题等。

Q3:为什么curl能通但OpenClaw连不上?

A:可能的原因包括:

  • OpenClaw使用了不同的代理配置
  • OpenClaw的代理协议支持不完整(例如只支持SOCKS5但配置成了HTTP)
  • OpenClaw的代理认证信息错误

Q4:如何快速定位是网络问题还是配置问题?

A:先尝试curl命令测试,如果curl能通但OpenClaw不通,那就是OpenClaw的配置问题。如果curl也不通,那就是网络问题。

Q5:如何避免类似问题再次发生?

A:建议:

  1. 使用配置中心统一管理配置
  2. 定期清理废弃的配置
  3. 部署配置检查脚本,定期验证配置一致性
  4. 做好变更记录,任何配置修改都要记录在案

预防措施

为了避免类似问题再次发生,建议采取以下措施:

1. 配置统一管理

使用配置中心(如Consul、Apollo等)统一管理所有服务的配置,避免配置文件分散在各处导致不一致。

2. 配置校验机制

在服务启动时进行配置校验,确保:

  • 代理地址可达
  • 认证信息有效
  • 必要的权限已开通

3. 健康检查

配置代理服务的健康检查:

1
2
# 每5分钟检查一次代理连通性
*/5 * * * * curl -x socks5h://代理服务器IP:1080 http://www.google.com -o /dev/null -s -w '%{http_code}' || echo "PROXY_DOWN"

4. 告警通知

配置告警,当代理服务不可用时及时通知:

  • 连续3次健康检查失败
  • 错误率超过阈值
  • 响应时间超过阈值

经验总结

这次排查经历让我总结出以下几点经验:

  1. “本地正常、远程异常”往往是配置问题:网络通常是通的,问题往往出在客户端配置上。

  2. 残留配置是常见问题源:旧服务下线后,相关的配置如果没有及时清理,就会导致”灵异现象”。

  3. 对比测试很重要:通过对比正常和异常客户端的差异,往往能快速定位问题。

  4. 日志不是万能的,但没有日志是万万不能的:这次问题日志没有给出太多信息,但这只是例外情况。大多数问题还是可以通过日志找到线索的。

  5. 重启大法好,但要找准问题再重启:盲目重启只会清除一些临时状态,但根本问题还在。只有找到问题根源,才能彻底解决问题。

延伸阅读

结语

“本地正常、远程异常”是运维工作中常见的问题类型,排查起来往往比较棘手。但只要掌握了正确的方法论,就能快速定位问题所在。本文详细记录了一次完整的排查过程,希望能为遇到类似问题的同学提供一些参考。

记住:任何看似”灵异”的現象背后都有其合理的原因,只是我们暂时没有发现而已。保持好奇心,持续排查,终能找到真相。


作者:小六,一个在上海努力搬砖的程序员

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-15-proxy-local-normal-remote-abnormal/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可