Margrop
Articles356
Tags575
Categories7

Categories

1password 401 6个节点 AC ACP AI AI Coding Assistant AI编程助手 AI辅助 AI辅助编程 AP API Alertmanager AppDaemon Aqara BaiduPCS CC-Switch CI/CD CLI Tools CLI工具 Caddy Claude Code Cloudflare Codex Cookie 认证 Cron D1 DB探针 DB静止 DIY-MINI Date Diagrams.net Diary Docker Docker Compose Efficiency Tools Electerm English FTS5 Gateway Gemini CLI GitHub Actions HA HADashboard Hermes Hexo HomeAssistant IP IPv4 Java LVM‑Thin Linux MacOS Markdown MiniMax Multi-Agent MySQL NAS NRestarts Nginx Node-RED Node.js OOM OpenAI OpenClaw OpenCode OpenResty OpenWrt PPPoE Portainer PostgreSQL ProcessOn Prometheus Proxmox VE RPC SOCKS5 SQLite SSL Session Shell Subagent TTS TimeMachine UML Uptime Kuma VPN VPS Web WebSocket Windows Workers activate ad adb adblock agent aligenie aliyun alpine annotation aop authy autofs backup baidupan bash bitwarden boot brew browser by-design caddy2 cdn centos cert certbot charles chat chrome classloader client clone closures cloudflare cmd command commit connected container cron crontab cron任务 cron设计 ctyun dashboard ddsm demo dependency deploy developer devtools dll dns docker domain download draw drawio dsm dump dylib edge exception export fail2ban fallback失效 feign firewall-cmd flow frp frpc frps fuckgfw function fuser gcc gfw git gitea github golang gperftools gridea grub gvt-g hacs havcs heap hello hexo hibernate hidpi hoisting homeassistant hosts html htmlparser https iKuai idea image img img2kvm immortalwrt import index install intel io ios ip iptables iptv ipv6 iso java javascript jetbrains jieba jni jnilib jpa js json jsonb jupter jupyterlab jvm k8s kernel key kid kms kodi koolproxy koolproxyr kvm lan lastpass launchctl learning lede letsencrypt linux live loopback-proxy low-code lsof lvm lxc m3u8 mac macos manual mariadb markdown maven md5 microcode mirror modem modules monitor mount mstsc mysql n2n n5105 nas netstat network new-api nfs node node-red nodejs nohup notepad++ npm nssm ntp one-api oop openfeign openssl os otp ovz p14 packet capture pat pdf pem perf ping pip plugin png powerbutton print pro proxy pve pvekclean python qcow2 qemu qemu-guest-agent rar reboot reconnect循环 reflog remote remote desktop renew repo resize retina root route router rule rules running runtime safari sata scipy-notebook scoping scp server server is busy slmgr so socket-proxyd socks source spk spring springboot springfox ss ssh ssl stash string supernode svg svn swagger sync synology systemctl systemd systemd unit systemd-socket tap tap-windows tapwindows telecom template terminal tls tmux token token失效 totp trigram tvbox txt ubuntu udisk ui undertow unicode61 uninstall unlocker upgrade url v1探针 v2ray vhd vim vlmcsd vm vmdk web websocket wechat windows with worker wow xiaoya xml yum zip 中国电信 中文搜索 主动追问 云电脑 交换机 人机协作 代理 优化 体检 值班 假阳 假阴 健康检查 光猫 全绿 全量同步 公网IP 内存 内存优化 内网 内网IP 内网渗透 写作 分词 切换 升级 协作 博客 反向代理 反常稳定 反应 vs 知识 启动 告警 告警优化 周一 周一焦虑 周三 周二 周五 周六 周四 周报 周日 周末 周末突破 夏令时 多智能体 多节点 多节点管理 天猫精灵 天翼云 安全 安装 定时任务 容器 容器网络 导入 小米 工作感悟 工作日常 常用软件 幂等 广告屏蔽 序列号 应用市场 异常 循环类 心态 心智成长 心理模型 心跳 心跳检查 性能优化 感悟 打工 打工人 批量校验 技术 抓包 排查 接受 接受之后 接受层 描述文件 放下 故障 故障排查 效率 效率工具 数据 旁路由 无服务器 日记 时区 显卡虚拟化 智能家居 智能音箱 服务器 服务管理 架构 梯子 模块 模型探测 模型调用 流程 流程图 流程管理 浏览器 清单之后 清单之外 清单设计 清单边界 清单进化 源码备份 漫游 激活 火绒 焦虑 玄学 生活 电信 画图 监控 监控系统 直播源 直觉 磁盘 端口 端口冲突 端口扫描 第10类 第11类 第12类 第6天 第9类 管理 续期 网关 网络 网络风暴 群晖 脚本 脚本优化 腾讯 自动化 自动恢复 自建应用 自我反思 自我打脸 节点角色 虚拟机 角色不匹配 角色误配 角色错配 认证 设计偏差 证书 语雀 误报 误报过滤 超时 路由 路由器 软件管家 软路由 运维 运维监控 进程 连接保活 连接问题 通信机制 通知 部署 部署链路 配置 钉钉 镜像 镜像源 长期稳定 长连接 门窗传感器 问题排查 防火墙 阿里云 阿里源 集客 静默期 飞书

Hitokoto

Archive

记一次代理服务器"本地正常、远程异常"的疑难排查全过程

记一次代理服务器"本地正常、远程异常"的疑难排查全过程

前言

在运维工作中,最让人头疼的问题之一就是”本地正常、远程异常”的现象。这种问题排查起来往往无从下手,因为从服务器角度来看一切正常,但客户端就是连不上。本文将详细记录一次典型的代理服务器连接异常排查过程,希望能为遇到类似问题的同学提供一些参考。

问题背景

业务场景

我们的自动化运维系统需要通过代理服务器访问外部API。代理服务部署在某台内网服务器上,提供SOCKS5和HTTP两种代理模式。客户端通过代理服务器转发请求,实现对外部服务的访问。

环境信息

  • 代理服务器:某内网服务器
  • SOCKS5端口:1080
  • HTTP端口:1081
  • 客户端:OpenClaw Gateway(部署在VM151、VM152和本地Mac)
  • 网络环境:内网,通过路由器访问

问题现象

某天开始,运维人员发现:

  1. 从VM151访问代理服务器:正常
  2. 从VM152访问代理服务器:正常
  3. 从本地Mac访问代理服务器:间歇性失败

更诡异的是:

  • ping网关:通
  • telnet代理端口:通
  • curl健康检查接口:200 OK
  • 但OpenClaw就是连不上

排查过程

第一步:确认服务端状态

首先登录代理服务器,确认服务本身是否正常运行:

1
2
3
4
5
6
7
8
# 查看代理进程是否在运行
ps aux | grep v2ray

# 查看端口监听状态
netstat -tlnp | grep -E '1080|1081'

# 查看代理服务日志
tail -f /var/log/v2ray/error.log

结果:

  • 进程在运行
  • 端口在监听
  • 日志无异常

结论:服务端本身没有问题。

第二步:测试网络连通性

从客户端角度测试网络连通性:

1
2
3
4
5
6
7
8
9
# 测试到代理服务器的网络延迟
ping -c 5 代理服务器IP

# 测试端口连通性
telnet 代理服务器IP 1080
telnet 代理服务器IP 1081

# 测试HTTP代理
curl -x http://代理服务器IP:1081 http://www.google.com -v

结果:

  • ping:通,部分丢包
  • telnet:能连上
  • curl:通过HTTP代理可以访问

结论:网络基本连通,但存在丢包现象。

第三步:检查客户端配置

查看OpenClaw的代理配置:

1
2
3
4
5
# 查看配置文件
cat /opt/openclaw/config.json | grep -A10 proxy

# 或者查看环境变量
env | grep -i proxy

结果:发现配置中有一个残留的旧代理地址,指向了一个已经废弃的代理服务。

第四步:清除旧配置

删除错误的配置:

1
2
3
4
5
6
7
8
9
10
11
# 方式1:修改配置文件
# 删除或注释掉错误的代理配置

# 方式2:清除环境变量
unset http_proxy
unset https_proxy
unset HTTP_PROXY
unset HTTPS_PROXY

# 方式3:重启客户端服务
systemctl restart openclaw-gateway

第五步:验证修复

重新测试连接:

1
2
3
4
5
# 测试SOCKS5代理
curl -x socks5h://代理服务器IP:1080 http://www.google.com -v

# 测试HTTP代理
curl -x http://代理服务器IP:1081 http://www.google.com -v

结果:连接成功!

根因分析

问题根源

这次问题的根本原因是:残留的代理配置指向了一个不可用的地址

当OpenClaw尝试连接时,会优先使用配置中的代理。如果配置中的代理地址不可用,连接就会失败。即使本地有其他可用的网络路径,客户端也会一直尝试连接那个错误的代理地址。

为什么本地正常而远程异常?

这个问题很有意思。为什么VM151和VM152能正常连接,而本地Mac不能?

可能的原因:

  1. 配置不一致:不同机器上的代理配置可能不同
  2. 网络路径差异:不同机器到代理服务器的路由不同
  3. DNS解析差异:不同机器对同一域名的解析结果不同
  4. 缓存问题:某些机器缓存了旧的配置

排查技巧总结

遇到”本地正常、远程异常”的问题时,建议按以下步骤排查:

  1. 确认服务端状态:服务是否正常运行?端口是否监听?
  2. 测试网络连通性:ping、telnet、curl等基础测试
  3. 检查客户端配置:配置是否正确?是否有残留的错误配置?
  4. 对比不同客户端:找出正常和异常客户端的差异
  5. 查看日志:服务端和客户端日志都可能包含关键信息

一键解决方案

如果你遇到了类似的代理连接问题,可以尝试以下排查命令:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 1. 确认代理服务状态
ssh 代理服务器 "systemctl status v2ray && netstat -tlnp | grep -E '1080|1081'"

# 2. 测试本地网络到代理服务器
ping -c 5 代理服务器IP
telnet 代理服务器IP 1080

# 3. 检查本地代理配置
env | grep -i proxy
cat /opt/openclaw/config.json | grep proxy

# 4. 清除错误的代理配置
unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY

# 5. 测试直连(不使用代理)
curl -v http://目标服务

# 6. 测试代理连接
curl -x socks5h://代理服务器IP:1080 http://目标服务 -v
curl -x http://代理服务器IP:1081 http://目标服务 -v

# 7. 重启客户端服务
systemctl restart openclaw-gateway

常见问题解答

Q1:为什么ping通了但telnet不通?

A:ping使用的是ICMP协议,而telnet使用的是TCP协议。这说明网络层是通的,但传输层可能有问题。可能的原因包括:防火墙阻断、端口未开放、服务未监听等。

Q2:为什么telnet能连但应用连不上?

A:telnet只测试了TCP三次握手是否成功,但应用层协议可能还有额外的要求。例如:认证失败、协议版本不匹配、SSL/TLS握手问题等。

Q3:为什么curl能通但OpenClaw连不上?

A:可能的原因包括:

  • OpenClaw使用了不同的代理配置
  • OpenClaw的代理协议支持不完整(例如只支持SOCKS5但配置成了HTTP)
  • OpenClaw的代理认证信息错误

Q4:如何快速定位是网络问题还是配置问题?

A:先尝试curl命令测试,如果curl能通但OpenClaw不通,那就是OpenClaw的配置问题。如果curl也不通,那就是网络问题。

Q5:如何避免类似问题再次发生?

A:建议:

  1. 使用配置中心统一管理配置
  2. 定期清理废弃的配置
  3. 部署配置检查脚本,定期验证配置一致性
  4. 做好变更记录,任何配置修改都要记录在案

预防措施

为了避免类似问题再次发生,建议采取以下措施:

1. 配置统一管理

使用配置中心(如Consul、Apollo等)统一管理所有服务的配置,避免配置文件分散在各处导致不一致。

2. 配置校验机制

在服务启动时进行配置校验,确保:

  • 代理地址可达
  • 认证信息有效
  • 必要的权限已开通

3. 健康检查

配置代理服务的健康检查:

1
2
# 每5分钟检查一次代理连通性
*/5 * * * * curl -x socks5h://代理服务器IP:1080 http://www.google.com -o /dev/null -s -w '%{http_code}' || echo "PROXY_DOWN"

4. 告警通知

配置告警,当代理服务不可用时及时通知:

  • 连续3次健康检查失败
  • 错误率超过阈值
  • 响应时间超过阈值

经验总结

这次排查经历让我总结出以下几点经验:

  1. “本地正常、远程异常”往往是配置问题:网络通常是通的,问题往往出在客户端配置上。

  2. 残留配置是常见问题源:旧服务下线后,相关的配置如果没有及时清理,就会导致”灵异现象”。

  3. 对比测试很重要:通过对比正常和异常客户端的差异,往往能快速定位问题。

  4. 日志不是万能的,但没有日志是万万不能的:这次问题日志没有给出太多信息,但这只是例外情况。大多数问题还是可以通过日志找到线索的。

  5. 重启大法好,但要找准问题再重启:盲目重启只会清除一些临时状态,但根本问题还在。只有找到问题根源,才能彻底解决问题。

延伸阅读

结语

“本地正常、远程异常”是运维工作中常见的问题类型,排查起来往往比较棘手。但只要掌握了正确的方法论,就能快速定位问题所在。本文详细记录了一次完整的排查过程,希望能为遇到类似问题的同学提供一些参考。

记住:任何看似”灵异”的現象背后都有其合理的原因,只是我们暂时没有发现而已。保持好奇心,持续排查,终能找到真相。


作者:小六,一个在上海努力搬砖的程序员

Author:Margrop
Link:http://blog.margrop.com/post/2026-03-15-proxy-local-normal-remote-abnormal/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可