必备指标应覆盖主机、网络、进程、服务与用户感知五类。主机层面包括:CPU 使用率、内存使用/Swap、磁盘使用与 I/O、系统负载(load average);网络层面:带宽利用率、丢包率、往返时延(RTT);进程/服务层面:关键进程存活、线程数、句柄数、请求队列长度;应用层:HTTP 5xx/4xx 错误率、请求延时(p50/p95/p99)、QPS;集群层面:节点可用数、调度队列长度、数据库连接数、主从复制延迟。还应监控证书到期、磁盘 inode、磁盘分区饱和等边缘指标。
阈值应分为告警(Warn)与严重(Critical)两级,并结合主机规格、业务峰值设定。建议值示例:CPU:Warn 75%、Critical 90%;内存:Warn 75%、Critical 90%(Swap 使用>20% 即触发警告);磁盘使用:Warn 70%、Critical 85%;I/O wait:Warn 20%、Critical 50%;Load:超过 vCPU 数*1.5 为 Warn,*2 为 Critical;网络带宽利用率:Warn 70%、Critical 90%;丢包率:Warn 1%、Critical 3%;HTTP 错误率(5xx): Warn 1%、Critical 5%;数据库连接数接近最大连接数的80%/95%。阈值应按服务等级和流量窗口分时段调整。
采用分级、聚合与抑制的组合策略。首先按严重级别分配通知渠道(SMS/电话用于 Critical,邮件/IM 用于 Warn)。使用聚合:将短时间内同一主机或同一服务的重复告警合并,设置最小持续时间(例如连续 2 个采样周期满足条件才报警)。启用抑制(silence)策略:运维维护窗口、自动化变更期间抑制相关告警。实现去重与抖动(flapping)检测,结合自动恢复脚本在低优先级告警上先尝试自愈以减少人工干预。H4:分层告警与值守分配应明确到人,提高责任可追溯性。H5:静默窗与升级路线包含开始时间/结束时间和责任人信息。
按照指标重要性分级采集:关键基础指标(CPU/内存/I/O/网络)建议 10s-30s 采样;应用请求延时与错误率建议 10s-60s;低频指标(证书到期、磁盘 inode)可 5-15 分钟采样。存储策略:短期保留高粒度数据(30 天内保留 10s/30s 采样),中期下采样为 1 分钟或 5 分钟(3 个月),长期保留小时级或日级聚合(1 年或更久)用于容量规划与趋势分析。结合压缩、数据下卷和 TTL 策略控制存储成本,同时为突发事件保留足够细粒度用于追踪。
处置流程建议标准化为:1) 接到告警→确认告警真伪(查看 Dashboard、日志、最近变更);2) 执行初步定位(top、netstat、iostat、应用日志、监控链路检测);3) 根据问题类型执行快速缓解(重启进程、扩容实例、清理临时文件、切换流量);4) 若无法快速解决,按升级路径通知二线/产品方并记录影响范围;5) 事后生成事件报告并进行根因分析,形成修复与防范措施。定期(如每季度)进行故障演练,检验报警准确性与应急联动流程,保证文档与自动化脚本同步更新。