发布日期:2019-06-17 浏览次数:442
河南省洛阳某政府单位
1数据恢复故障描述
客户服务器的存储是由4块73GB SCSI硬盘组成的RAID5,数据库是WINDOWS 2003下的DB2(部门OA系统数据库),主要用于存储日常审批的公文,数据库每日凌晨自动备份至本地一数据分区,默认保留有三天备份。RAID故障时表现为两块硬盘离线,服务商随机选择一块硬盘强制上线后做REBUILD,尝试失败后又对损坏硬盘进行更换并继续REBUILD,操作多次后系统及数据仍无法访问。
2数据恢复故障分析
RAID5中两块硬盘掉线很少属于同时离线的情况,两块硬盘掉线的时间间隔少则几天,多则几个月甚至几年,究其原因,主要有两点:一是RAID5在任一硬盘离线的情况下是不影响其自身正常工作的,只是系统负载可能会加重一些;二是服务器及存储一般都位于机房,用户在服务器及存储未出现异常时很少到机房进行巡检,所以即便此时RAID出现报警信息用户也很难察觉。
该案例中损坏硬盘的离线时间很有可能是两个间隔不短的时间点,既然硬盘已经掉线,表明此时硬盘很难继续正常工作,再加上数据库文件对于自身一致性和完整性的严格要求,随机选择硬盘上线REBUILD的操作成功率要远低于50,REBUILD后数据很可能再一次受到破坏,只能依靠第三方提供数据恢复服务来解决。
-------数据恢复过程
1.首先针对用户提供的4块SCSI硬盘进行严格的物理检测,有2 块硬盘读取缓慢并伴有坏道;
2.分别镜像用户故障RAID组中的4块硬盘,为保证绝对的数据安全,目标存储为带有冗余功能的阵列存储;
3.镜像完成后,对所生成的4个备份文件进行RAID结构分析,依据文件系统存储规则确定4块硬盘在构建RAID5的盘序、数据块大小及校验方式,并于虚拟环境中重新构建RAID组;
4.在确保各种RAID参数完全正确的情况下,对5种不同的掉盘组合情况进行详细比较,发现在任一RAID组合中,实时数据库文件大小均为0(估计系由于更换硬盘反复REBUILD导致文件RUNLIST丢失),而备份数据库则呈现不同程度、不同范围的损坏
5.将5种不同RAID组合情况中的同一数据库备份文件迁移至安全存储,并依据各个备份文件损坏程度及范围的规律性算法通过程序比对生成一个相对完好的数据库备份目标文件D
6.依据DB2备份文件的数据存储特性提取备份文件D中的所有文档,并通过程序提取文档的主题、摘要或关键词信息对文档进行再次命名并做详细的整理分类
7.将恢复的所有数据交于用户验证,用户确认最终百分之八十以上的文档数据得以完整恢复,至此数据恢复完成
---数据恢复结果
数据恢复总共历时3天,其中硬盘检测、检测及分析重构RAID花费2天,数据库备份文件重新生成、文档提取及程序编写花费3天。数据恢复成功率为百分之八十。
--服务器存储安全建议
1.对存储硬件状态及服务器运行情况做定期检测(存储服务商一般可提供技术支持),发现异常情况时及时采取相应解决方案;
2.在存储出现多块硬盘离线的情况下,切忌贸然对硬盘强制上线或REBUILD,以免数据受到进一步破坏;
3.对于服务年限已久的服务器进行整体运行状态评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。
加急联系到郑州999数据恢复中心进行服务器数据救援
截屏,微信识别二维码
客服QQ:331200294
(点击QQ号复制,添加好友)