1. 初步评估与沟通
- 到位人员:确认谁负责硬件(机房联系人/远程工程师)与谁负责系统恢复(运维或SRE)。
- 确认下架原因:硬件故障/账单/合规/网络;向机房索要事件记录与可用的物理资源(同机柜/同网络段的设备)。
- 获取远程控制:索要服务器的KVM/IPMI、序列号、机柜/机位和维保联系方式,以便远程上电、KVM控制或现场介入。
2. 数据与配置备份优先策略
- 优先级判断:数据库 > 应用数据 > 配置文件 > 日志。先确认最近有效备份时间点(RPO)和可接受恢复时间(RTO)。
- 远端抓取:若旧机还可网连,使用rsync增量拉取:rsync -azP root@old_ip:/var/www/ /backup/www/;对于MySQL使用mysqldump --single-transaction --routines --triggers -u root -p DB > db.sql。
- 镜像备份:若需要整机恢复,使用dd或partclone通过IPMI挂载ISO进行镜像转储,或在现场使用SATA转接盘做镜像复制。
3. 新机准备与硬件验收
- 验证硬件:CPU、内存、硬盘型号与RAID状态;通过IPMI查看传感器与日志。
- 盘位初始化:若是RAID,使用厂商工具(MegaCLI/StorCLI)清除旧配置并创建新的阵列;若是单盘,按分区策略规划/dev/sda。
- BIOS/IPMI设置:设置时间、启用虚拟媒体、配置网卡优先顺序和远程控制用户。
4. 操作系统安装与基本配置
- 安装方式:使用远程虚拟媒体或镜像快速安装Ubuntu/CentOS。推荐制作预置Kickstart或preseed以自动化安装。
- 分区建议:/boot 1G、swap 按RAM×1或更少、/ root 40-100G,/var/log与/var/lib/mysql独立分区(视业务)。
- 基础加固:创建管理员用户、禁用root直接登陆、配置SSH公钥、修改SSH端口、安装防火墙(ufw/iptables)。
5. 恢复数据与业务配置
- 恢复数据库:先初始化MySQL服务,导入db.sql:mysql -u root -p DB < db.sql,随后检查表和索引完整性。
- 恢复文件:使用rsync --delete将备份同步到生产路径,校验文件权限和所有者(chown/chmod)。
- 应用配置:恢复/etc/nginx/sites-available、systemd服务单元、cron任务及证书(/etc/letsencrypt)。
6. 网络、DNS与负载切换
- IP规划:如果机房允许保留原IP,申请恢复旧IP并在系统中配置;如需新IP,修改配置并更新关联的DNS记录(A/AAAA)。
- DNS策略:设置短TTL(如60秒)以便快速切换;先将新机加入灰度流量或反向代理,验证后切换主流量。
- 防火墙与NAT:确认机房边界防火墙规则,必要时在机内配置iptables/nftables与fail2ban。
7. 验证、压测与回滚计划
- 功能验证:逐项验证应用登录、数据库读写、文件上传、定时任务。使用curl、mysql客户端等工具检查接口响应。
- 压测与观测:使用ab/wrk做轻量压测,监控CPU/IO/网络延迟。确认在目标负载下满足SLA。
- 回滚策略:保留旧机快照或备份24-72小时,若出现数据不一致,按时间点恢复或回滚DNS到旧IP。
8. 安全加固与合规审查
- 日志与审计:开启系统日志集中(rsyslog/ELK)并至少保留30天;检查登录、sudo记录。
- 补丁与漏洞扫描:更新系统补丁(apt/yum),运行漏洞扫描工具(OpenVAS、Nessus)并根据风险打补丁。
- 机房合规:确认机房合同、IP合规与数据主权要求,留存变更工单与恢复记录以备审计。
9. 常见问答
问:如果旧机完全无法开机,如何最小化数据丢失? 答:第一时间与机房申请物理盘快照或把硬盘按原样下架做镜像;请求现场磁盘克隆并通过SATA转接或快递到可信处做镜像恢复;优先恢复数据库二级备份或异地备份,并在新机上接入只读方式尽快提供查询服务。
10. 常见问答
问:恢复后如何确保业务切换平滑? 答:采取灰度切换+短TTL DNS+流量镜像的方式,先把10%-30%流量导入新机验证,再全量切换;配合健康检查脚本与自动回滚策略,确保问题时能快速退回。
11. 常见问答
问:重建过程中有哪些容易被忽视但重要的细节? 答:常见遗漏包括:未恢复定时任务导致数据不入库、证书未更新引发HTTPS失败、未同步cron或systemd-timer、日志轮转配置丢失、时区/时间不同步导致认证/数据库主从问题。重建时逐项核对运行时环境(time zone、locale、依赖包版本)以防隐性故障。
来源:客户案例 新加坡机房服务器下架后的快速重建经验分享