300GB*6 SCSI RAID5 LINUX服务器数据恢复手记-阿里云开发者社区

300GB*6 SCSI RAID5 LINUX服务器数据恢复手记

2017-11-08 1086

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[摘要]
    某数码冲印网站，采用DELL POWEREDGE2850服务器，存储部分由6块300G硬盘组成RAID5，LINUX平台，1.5T逻辑磁盘中只包含一个卷，文件系统为EXT3，存储所有客户数码照片，服务器的故障导致整个公司无法开展工作。
之前网站正常工作中卷离线，管理员进入机房检查时，发现两块硬盘报黄灯，ID为1号与4号。致电DELL公司，DELL技术人员提供的解决方案为：随机选一块强制上线。
    用户选择了4号盘，强制上线后，可MOUNT，但很多目录打不开，某些目录下近一周的文件丢失，用户意识到了操作的错误，马上关机，未做其他操作。寻求数据恢复公司帮助。

[分析]
    非常典型的，离线的1号与4号盘并非同时OFFLINE，按故障情况分析，应该是4号盘先前离线，之后1号盘离线导致整个RAID崩溃。客户强制上线后，因数据不同步导致目录打不开或目录陈旧等现象。
    MOUNT成功系统便会写入一定量的数据，在写入数据的这些条带中，检验信息会重新生成，会导致部分检验信息陈旧。最直接的后果是无法直接通过还原RAID结构的方式进行数据恢复，只能依靠提取数据的方式进行恢复。

[解决方案]
1、分析原RAID 6块盘的结构（RAID信息），去掉4号盘，加入1号盘，通过虚拟环境搭建RAID平台。
2、对虚拟逻辑卷进行数据提取，将数据输出到另外的存储体上。

[解决过程]
1、顺利分析出RAID结构后，成功搭建RAID。
2、通过自主软件进行数据提取，发现1号盘有不规律的坏道。
3、通过专业设备将1号盘完整镜像，90%以上的坏道成功读取。
4、将镜像加入虚拟RAID环境，再次提取数据。
5、恢复99%以上数据。

[给用户的建议]
1、DELL的2850事实上可以查询到RAID的日志，在两块以上盘离线的情况下，应该通过查询日志等方式确定离线的过程，即使强制上线，也需要风险最小（数据重要，尽量少做这类操作）
2、可以通过增加DRAC或hotspare等方式减少此类事故的发生率。
3、如果数据重要，可先行咨询数据恢复公司

本文转自张宇 51CTO博客，原文链接：http://blog.51cto.com/zhangyu/33741，如需转载请自行联系原作者

文章标签：

Linux

存储

关键词：

Linux SCSI

300GB*6 SCSI RAID5 LINUX服务器数据恢复手记

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像