服务器RAID磁盘坏道修复实战

简介:

上周在线监控系统nagios发送了一条报警警告短信,内容大体是磁盘阵列错误

于是乎登陆报警服务器使磁盘阵列检测工具进行了详细的检查,报告显示

Media Error Count :2

wKioL1LKY2qgMjG1AADzBR07ros581.jpg

既然是警告也就不是特别严重的错误,经过与戴尔工程师的确认,是磁盘出现了坏道,由于是图片服务器且有备份,暂时没有去机房处理。

过了两天又出现了另一台MySQL数据库服务器也发出了同样的警报,可怕的是通过检测报告的

Media Error Count :24

Other Error Count:2

wKioL1LKY3zCZGETAADnGsEVC0I742.jpg

看样子服务器在今年是硬件故障高发期啊,Dell服务器如果不是由厂家进货的话,如果你是维护的人员可就要当心了。

我说的什么意思你懂得!


    于是发邮件和总监和开发经理进行沟通,邮件中说了故障的详细情况,并且给出了当前的紧急解决措施(其中图片服务器做了文件的异机备份,数据库服务器由于是主从结构,这个不必太担心,切每天都有备份计划本地和异地)有一点服务器的磁盘是支持热插拔的,也就是说不用停机进行磁盘的更换是没有问题的,但是为了安全平稳经过沟通一致认为在晚上比较合适(其实这完全是没信心导致的,白天处理其实影响不大,可能就是会导致IO负载高一些),避开了业务高峰和访问高峰,这样给我们解决问题提供了充足的时间。

    最让我放心的是服务器的阵列配置是通过4块磁盘做的RAID5+hot spare 这样的配置有一个很大的好处就是: 如果正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的

如果配置了热备盘,那么热备盘会在RAID阵列中某块磁盘算坏的时候进行替补,RAID阵列重建。 当损坏的磁盘更换后。 热备盘会识别到,然后将自身的数据与新替换的磁盘进行数据同步。当数据同步完成之后就会恢复到原来的角色-热备盘。 好神奇啊:)

     知道了阵列的工作原理也就不用担心了,第二天晚上按照事先计划好的方案进行

首先进行重要文件的手工备份以保持备份的最新,图片,数据库等备份到异地Ok

然后按照预先的计划,拔下故障磁盘,立即插入新的磁盘,这个时候,新插入磁盘会闪烁几秒钟,这个过程就是主板识别的过程,然后指示一直处于静止状态。

这个时候第四块硬盘也就是热备盘的数据读写灯狂闪,你应该猜到了,热备已经检测到有磁盘掉线了,然后就自动加入RAID进行重建,300G的容量大概重建完成用了30分钟的时间

为了验证我的想法,我把图片服务器进行了重启然后进入到BIOS里面的RAID卡配置工具里面进行查看,这个时候显示的是热备盘参与阵列进行重建,而替换的新磁盘状态是READY

等了大约30分钟后,RAID重建完成。 替换的新磁盘的状态马上就变成了 replacing 。这个过程大概同样需要30分钟左右。

在系统中进行检测磁盘的状态是 cpoyback。

最后正常的状态是 热备盘的角色恢复成热备模式,阵列完成重建,正常工作。

进入系统重新检测错误消失了

注:以上说道的在系统中检测的具体工具是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll

wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg

wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg





     本文转自andylhz 51CTO博客,原文链接:http://blog.51cto.com/andylhz2009/1348992,如需转载请自行联系原作者


相关文章
|
2月前
|
弹性计算
2024阿里云幻兽帕鲁/Palworld服务器价格表(CPU/内存/带宽/磁盘收费标准)
2024年阿里云幻兽帕鲁专用服务器的价格根据不同的配置有所不同。 • 4核16G配置的价格为32元/月,如果选择购买3个月,则价格为96元。 • 8核32G配置的价格为90元/月,如果选择购买3个月,则价格为271元。 另外,还有配置为4核16G10M带宽的服务器,其价格为26元/月起。而8核32G10M带宽的价格也是90元/月。
95 1
|
1月前
|
存储 数据挖掘 Windows
服务器数据恢复—异常断电导致raid信息丢失的数据恢复案例
由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windows server操作系统,没有配置ups。 因为服务器异常断电重启后,raid阵列可以正常使用,所以未引起管理员的注意。后续出现的多次异常断电导致raid报错,服务器无法找到存储设备,进入raid管理模块进行任何操作都会导致操作系统死机。管理员尝试多次重启服务器,故障依旧。
|
2月前
|
存储 缓存 网络协议
Go语言并发编程实战:构建高性能Web服务器
【2月更文挑战第6天】本文将通过构建一个高性能的Web服务器实战案例,深入探讨如何在Go语言中运用并发编程技术。我们将利用goroutine和channel实现高效的请求处理、资源管理和并发控制,以提升Web服务器的性能和稳定性。通过这一实战,你将更好地理解和掌握Go语言在并发编程方面的优势和应用。
|
2月前
|
弹性计算 大数据 测试技术
2024年阿里云服务器价格购买价格表(实例配置价格+磁盘价格+网络宽带价格)
2024年阿里云服务器价格购买价格表来了!2024年阿里云服务器租用费用,轻量应用服务器和云服务器ECS优惠价格表,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通用型g7、c8i、g8i等企业级实例规格。今天分享阿里云服务器租用费用最新报价:
61 2
|
2月前
|
弹性计算 大数据 测试技术
阿里服务器租用多少钱一年?阿里云服务器租用价格表(最新CPU/内存/带宽/磁盘收费标准)
阿里服务器租用多少钱一年?阿里云服务器租用价格表(最新CPU/内存/带宽/磁盘收费标准)。阿里云服务器的租用费用因实例类型、地域、配置等因素而有所不同,价格范围可以从几百元到几千元不等。2024年阿里云服务器租用费用价格表更新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实
|
2月前
|
存储 算法 关系型数据库
【服务器数据恢复】服务器raid6磁盘阵列数据恢复案例
一台网站服务器中有一组由6块磁盘组建的RAID6磁盘阵列,操作系统层面运行MySQL数据库和存放一些其他类型文件。
|
2月前
|
弹性计算 大数据 测试技术
2024阿里云服务器租用价格表(CPU/内存/带宽/磁盘收费标准)
阿里云服务器分为轻量应用服务器和云服务器ECS,轻量适合个人开发者使用,搭建轻量级的网站、测试环境使用;专业级如大数据、科学计算、高并发网站等需要使用云服务器ECS。2024年阿里云服务器租用价格表出炉!云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通
457 1
|
2月前
|
弹性计算 大数据 测试技术
2024年阿里云服务器租用价格表(CPU/内存/带宽/磁盘收费标准)
2024年阿里云服务器租用价格表更新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月,幻兽帕鲁4核16G和8核32G服务器配置,云服务器ECS可以选择经济型e实例、通用算力u1实例、ECS计算型c7、通用型g7、c8i、g8i等企业级实例规格。阿里云百科分享阿里云服务器租用费用最新报价
|
2月前
|
弹性计算 大数据 测试技术
2024阿里云服务器租用价格表(CPU/内存/带宽/磁盘收费标准)
2024阿里云服务器租用价格表(CPU/内存/带宽/磁盘收费标准),云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、ECS u1实例2核4G、5M固定带宽、80G ESSD Entry盘优惠价格199元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元、2核4G4M带宽轻量服务器一年165元12个月、2核4G服务器30元3个月
122 0
|
2月前
|
存储 运维 数据挖掘
【服务器数据恢复】断电导致服务器RAID故障的数据恢复案例
某品牌服务器中有一组由数块SAS硬盘组建的RAID5磁盘阵列,服务器操作系统是WINDOWS SERVER,服务器中存放企业数据,无数据库文件。 服务器出故障之前出现过几次意外断电的情况,服务器断电重启后没有发现异常,直到最后一次断电重启后RAID报错:“无法找到存储设备”,进入RAID管理模块后进行任何操作都会死机,服务器管理员多次重启服务器仍然无法进入系统。为了防止服务器内数据丢失,管理员联系我们数据恢复中心寻求帮助。

热门文章

最新文章