某肿瘤医院EMC AX4存储恢复案例

2017-11-15 1457

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

【故障描述】

整个存储空间由12块1TB SATA的硬盘组成的，其中10块硬盘组成一个RAID5的阵列，其余两块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏，而此时只有一块热备盘成功激活，因此导致RAID5阵列瘫痪，上层LUN无法正常使用。状态如下图：

【检测磁盘】

由于存储是因为某些磁盘掉线，从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测，检测完后发现没有物理故障。接着使用坏道检测工具检测磁盘坏道，发现也没有坏道。

【备份数据】

考虑到数据的安全性以及可还原性，在做数据恢复之前需要对所有源数据做备份，以防其他原因导致数据无法再次恢复。使用Winhex将所有磁盘都镜像成文件，由于源磁盘的扇区大小为520字节，因此还需要使用特殊工具将所有备份的数据再做520 to 512字节的转换。备份完部分数据如下图：

【故障分析】

1、分析故障原因

由于前两个步骤并没有检测到磁盘有物理故障或者是坏道，由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为EMC存储控制器检查磁盘的策略很严格，一旦某些磁盘性能不稳定，EMC存储控制器就认为是坏盘，就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限，那么这个RAID组将变的不可用，上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN只有一个，分配给SUN小机使用，上层文件系统为ZFS。

2、分析RAID组结构

EMC存储的LUN都是基于RAID组的，因此需要先分析底层RAID组的信息，然后根据分析的信息重构原始的RAID组。分析每一块数据盘，发现8号盘和11号盘完全没有数据，从管理界面上可以看到8号盘和11号盘都属于Hot Spare，但8号盘的Hot Spare替换了5号盘的坏盘。因此可以判断虽然8号盘的Hot Spare虽然成功激活，但由于RAID级别为RAID5，此时RAID组中还缺失一块硬盘，所以导致数据没有同步到8号硬盘中。继续分析其他10块硬盘，分析数据在硬盘中分布的规律，RAID条带的大小，以及每块磁盘的顺序。

3、分析RAID组掉线盘

根据上述分析的RAID信息，尝试通过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘，因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据，发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样，因此初步判断此硬盘可能是最先掉线的，通过北亚自主开发的RAID校验程序对这个条带做校验，发现除掉刚才分析的那块硬盘得出的数据是最好的，因此可以明确最先掉线的硬盘了。

4、分析RAID组中的LUN信息

由于LUN是基于RAID组的，因此需要根据上述分析的信息将RAID组重组出来。然后分析LUN在RAID组中的分配信息，以及LUN分配的数据块MAP。由于底层只有一个LUN，因此只需要分析一份LUN信息就OK了。然后根据这些信息编写相应的程序，解释LUN的数据MAP并导出LUN的所有数据。

【解释ZFS文件系统并修复】

1、解释ZFS文件系统

利用北亚自主开发的ZFS文件系统解释程序对生成的LUN做文件系统解释，发现程序在解释某些文件系统元文件的时候报错。迅速安排开发工程师对程序做调试，分析程序报错原因。接着安排文件系统工程师分析ZFS文件系统是否因为版本原因，导致程序不支持。经过长达7小时的分析与调试，发现ZFS文件系统因存储突然瘫痪导致其中某些元文件损坏，从而导致解释ZFS文件系统的程序无法正常解释。

2、修复ZFS文件系统

上述分析明确了ZFS文件系统因存储瘫痪导致部分文件系统元文件损坏，因此需要对这些损坏的文件系统元文件做修复，才能正常解析ZFS文件系统。分析损坏的元文件发现，因当初ZFS文件正在进行IO操作的同时存储瘫痪，导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复，保证ZFS文件系统能够正常解析。