在运维视角下,常见故障包括网络抖动与丢包、链路拥塞、DNS解析异常、负载均衡配置错误、磁盘或内存瓶颈、以及机房电源或交换设备故障。对于面向低延时的系统,网络延时和突发抖动是最敏感的因素,此外应用层的连接泄漏和线程阻塞也会放大延时问题。
首先关注延时基线与SLA阈值,核对监控告警与时间窗口,区分是全站还是单点实例问题,以便决定是网络层还是主机层故障。
tcpdump、mtr、ping、iftop、netstat、sar、iostat、Prometheus/Grafana等。
避免仅看单一监控指标,结合分布式追踪(如Jaeger/Zipkin)查看请求链路。
快速定位依赖于分层排查:先从外部监控(SLA、合规告警)判断影响范围;其次检查网络与链路指标(延时、丢包、带宽占用);再进入主机层查看CPU、内存、IO、连接数;最后回到应用层查看服务日志与追踪信息。
(1)确认影响范围;(2)回溯监控图表定位异常时间点;(3)同步抓包与主机性能快照;(4)结合应用追踪定位慢点。
使用并行排查,避免串行耗时;设置短时间内的高频采样以捕捉瞬态抖动。
准备标准化的故障排查脚本和报警Runbook,减少人为判断时间。
先确认是内部机房链路还是跨公网链路问题。内部链路关注交换机/端口错误、丢包率与队列长度;跨公网关注BGP路由变化、ISP质量与链路中继点。
1. 使用mtr或traceroute定位跳数与延时突增点;2. 在客户端与服务器端同时抓包(tcpdump)对比三次握手与重传;3. 检查交换机端口错误计数与QoS策略;4. 若为跨境链路,与带宽/线路提供商协作排查。
mtr、traceroute、tcpdump、wireshark、SNMP监控、BGP监测平台。
对关键链路启用ECMP/多线路冗余、设置合理的拥塞控制和队列管理(AQM、RED、CoDel)。
硬件与资源瓶颈包括CPU飙高、内存泄漏、磁盘IO饱和、网络接口拥塞。恢复流程要分阶段:临时缓解(限流、切流量)、替换/扩容、根因修复与回归验证。
1. 启动Runbook并通知相关团队;2. 对流量做速率限制或切换到备用池;3. 热迁移或重启受影响实例;4. 若是硬盘故障,快速替换并从备份恢复数据。
使用自动化脚本进行故障隔离(如自动下线异常实例、自动扩容),并将恢复步骤编入CI/CD或运维平台中。
优先保证最小可用路径与SLA,避免单点故障扩大为群体事故。
恢复后验证包括灰度流量测试、压力测试、端到端延时检测与业务关键链路监控确认。防止复发需要补丁、配置优化、容量规划与长期监控策略。
核对恢复前后监控曲线、检查错误率、请求成功率与平均延时,进行短期回归观察。
落地变更管理与回滚策略、加强SLO/SLA监控、建立故障演练(GameDay)、完善告警与Runbook。
推行事后复盘(postmortem),落地可执行的改进项并跟踪完成情况。