1.
初步确认:确认故障范围与重现条件
(1)确认是单台主机不可达还是整个服务不可达;(2)确认是所有端口都不通还是仅某个端口(如 22/80/443);(3)在不同网络(家里、公司、手机4G)是否都无法访问;(4)记录首次出现时间和是否有配置变更或自动更新。
2.
本地测试:使用 ping 与 traceroute 确认网络路径
(1)ping IP:ping -c 5 x.x.x.x,记录丢包与延迟;(2)traceroute/tracert:Linux 用 traceroute x.x.x.x 或 mtr -rw x.x.x.x,Windows 用 tracert,定位在哪一跳开始超时;(3)如果 traceroute 在本地即中断,问题可能在上游 ISP 或国际链路。
3.
从第三方网络测试:排除本地 ISP 问题
(1)使用手机 4G/5G 测试访问,看是否能连通;(2)使用在线网站(如 ping.pe、toolbox.ipip.net)或阿里云的“云监控/网络诊断”工具对目标 IP/域名做跨区域 ping 和路由测试;(3)若多个外部网络均不可达,问题更可能在云端或国际链路。
4.
检查阿里云控制台实例状态与基础资源
(1)登录阿里云控制台,查看ECS实例状态是否为“运行中”;(2)确认弹性公网IP(EIP)是否绑定在正确的实例与网卡(ENI)上;(3)检查网络类型(专有网络VPC)、子网、网卡状态与配置是否异常;(4)查看是否有系统事件、运维通知或维护窗口。
5.
安全组与网络ACL检查
(1)在控制台检查安全组入方向/出方向规则,确认允许对应端口和来源 IP;(2)若有默认拒绝策略,临时放宽规则(注意风险)以便验证;(3)检查VPC子网的网络ACL(访问控制列表)是否阻断,尤其是 ICMP/TCP 相关规则。
6.
实例操作系统层面的网络排查
(1)通过控制台内置的远程命令或控制台 VNC 进入实例(若 SSH 无法连通);(2)查看网卡与路由:ip a / ip route / cat /etc/resolv.conf;(3)查看服务监听:ss -tuln 或 netstat -tunlp,确认服务是否在期望端口监听;(4)查看防火墙规则:iptables -L -n 或 firewall-cmd --list-all 或 ufw status。
7.
端口与应用层测试
(1)从外部用 telnet IP port 或 nc -vz IP port 测试端口连通性;(2)使用 curl -v http://域名:端口 或 curl --connect-timeout 5 查看 HTTP 层是否响应;(3)若端口关闭但服务在本机监听,排查本机防火墙或安全组规则。
8.
深度抓包与内核日志收集
(1)在实例上用 tcpdump -i eth0 host <测试IP> and port <端口> -w /tmp/cap.pcap 进行抓包,注意抓包时间窗口并限制大小;(2)查看 dmesg 与 /var/log/messages 或 /var/log/syslog 是否有网卡、驱动报错;(3)导出 tcpdump 文件并使用 Wireshark 分析三次握手是否完成或是否被RST/ICMP禁止。
9.
路由与ARP、链路状态诊断
(1)检查 ip route show 是否有缺失默认路由;(2)查看 /proc/net/arp 以确认 ARP 是否正常;(3)用 ethtool eth0 查看链路速率、错误计数;(4)如发现网卡异常,尝试重启网络服务(systemctl restart network 或 dhclient),必要时重启实例。
10.
利用云平台诊断工具与跨域验证
(1)使用阿里云“网络诊断”或“Ping/Traceroute”服务从新加坡以及其他可选区域发起测试;(2)如果云端工具能通而外部不行,说明可能为公网链路或 ISP 局部问题;(3)查看CloudMonitor(云监控)网络出入口指标,确认是否有突发流量或攻击导致被触发限流。
11.
临时应急措施与恢复建议
(1)若确认是安全组或ACL误配置,先临时放通必要端口并做好白名单限制;(2)若EIP绑定异常,尝试解绑再重新绑定或重启ENI;(3)如怀疑是系统层软件导致,优先重启网络服务或实例;(4)所有操作前先在控制台或本地保存当前配置与日志,便于回滚和问题复现。
12.
与阿里云支持沟通时应准备的资料
(1)提供故障发生时间窗、实例ID、EIP、VPC与子网ID;(2)附上本地 ping/traceroute 输出和云端 traceroute、抓包文件(cap.pcap)、iptables 与 ss 输出;(3)说明已做过的排查步骤与临时操作,便于工程师快速定位。
13.
常见场景与快速判断建议(小结)
(1)如果 traceroute 在某一跳超时:问题多在上游运营商或国际链路;(2)如果云控制台显示实例正常但端口不可达:优先检查安全组/防火墙与服务监听;(3)如果本地能访问但外网不行:可能是 DNS 或 CDN 配置错误,检查域名解析与 CNAME 指向。
14.
问:无法 ping 通阿里云新加坡 IP,是否就一定是云端问题?
答:不一定。首先用 traceroute 确认是在哪里丢包;若在本地或本地 ISP 前就中断,问题可能在本地或国际链路;若在云端边缘节点中断,才更可能是阿里云网络或安全组配置问题。建议同时用第三方网络和阿里云控制台诊断工具交叉验证。
15.
问:阿里云安全组设置正确但仍不能访问,下一步怎么做?
答:检查实例操作系统防火墙(iptables/firewalld/ufw)、服务是否在监听端口、实例路由与网卡状态、EIP 是否正确绑定,并执行 tcpdump 抓包来判断数据包是否到达实例;若都正常,可联系阿里云支持并提供抓包与日志。
16.
问:需要联系阿里云工单时,我应如何描述并附上哪些关键日志?
答:在工单中说明故障时间、实例ID、EIP、VPC/子网、具体表现(全部端口不可达或仅某端口)、已做排查步骤;附上本地和云端的 ping/traceroute 输出、tcpdump 抓包(cap.pcap)、iptables -L 输出、ss/netstat 输出与 dmesg 日志,能显著加快支持响应。
来源:当遇到阿里云新加坡服务器不通 应如何定位网络故障