IBM DS 存储几种常见的问题(1)

简介:

今天来谈谈DS系列存储几种常见的问题,

1,Multiple Drive failed

这个问题应该是所有管理员最头疼的问题了,一旦出现多个盘坏掉,应用系统就访问不了存储,所有应用就得停机。接着IT负责人一边被上级领导责问,一边还要心急火燎地打电话四处求救。很多多个盘坏掉的case就是因为平时不好好巡检,不定期做health check,有的盘都坏了两三个月,运维还没发现,等到第二个盘再坏掉,应用访问不了了(以RAID5为例),才发现。

遇到这种情况,如果在维保期,应该保护现场,立即打800找support,千万不要随便插拔盘,也许你会把事情越高越复杂。在某些情况下,多个盘fail掉是可以恢复过来的(下面都以RAID5为例)。有人会有疑问,RAID5不是最多能坏一块盘吗?是的,RAID5不管什么情况下,是只能坏一块盘,但是这指的是物理损坏,但有些硬盘failure,也许是logical failure。比如在已经坏掉一块硬盘的情况下,热备盘顶进来,系统在reconstruct,这时应用仍然在写数据,如果负载很大,就可能会出现某个硬盘logical failure。此时,这个array就fail掉了。这种情况,数据其实是可以恢复过来的。

2,FailOver

什么情况下会Failover?其实很多人都不愿意有用到failover的时候,因为只有在某些部件出问题,比如主机的HBA卡,主机和存储间的交换机,网络,存储的其中一个控制器等等出现问题的时候,才会发生failover。这个有点像买保险,都是为了以防万一,但是大家都不希望有用到保险公司的时候,一旦用到了,就说明你有麻烦了。

一般的多路径架构就如左下图,主机两个HBA卡,两个FC/Network Switch,双控,这样中间任何一部件出问题,也不会影响主机访问存储。如下,上图为物理图,下图为逻辑图image


image

Tips:要定期做消防演练,比如在应用负载较小的时候,把每个主机访问的其中一个lun从一个控制器切换到另一个控制器,然后观察应用有无停顿,如果无法切换过去,就说明中间的某个部件有问题,可以逐个部件排查,如果自己排查不了,就打电话给800吧。

关于Failover Mode,又涉及到ADT/AVT(Automatic Logical drive Transfer),ALUA(Asymmetric Logical Unit Access),有时间会专门写一篇Blog。

3,LED灯

中国古人从“看脸色”,“把脉”等来观察人的身体健康状态,同样,存储系统也可以。从LED可以看出很多问题。不知道LED灯在哪?到https://www-947.ibm.com/account/userservices/jsp/login.jsp?persistPage=true&page=/support/entry/myportal/&PD-REFERER=none&error=去下载《Hardware and Maintenance Guide》,一般都是在《Chapter 4. Operating the storage subsystem》这一章节。

1,Drive LED,这个很简单,一旦琥珀色亮了,就说明盘坏了,要及时更换掉。

2,Controller/ESM 7-Segment Display LED,这个一般显示的是Enclosure ID,默认是“85”,当然你也可以自己修改。如果出现其他数字或字母,则代表控制器可能有问题了。如果是“OS+SD”,说明controller在boot的过程中。置于其他LED的意思,有兴趣可以去相应产品的《Hardware and Maintenance Guide》中去查。

3,Drive channel和Host channel LED,这个不仅能看出Drive channel有无问题,而且可以看出Link speed,例如

image

具体的还是去《Hardware and Maintenance Guide》查。

4,Service Attention LED, 如果看到琥珀色亮了,就说明存储系统有问题了,就要打开Storage Manager检查哪里出了问题。

今天就先写到这,还有其他问题以后想到再写。




本文转自 taojin1240 51CTO博客,原文链接:http://blog.51cto.com/taotao1240/1130424,如需转载请自行联系原作者
目录
相关文章
|
5月前
|
存储 Linux 数据库
服务器数据恢复—IBM存储raid5多盘损坏导致阵列崩溃的数据恢复案例
服务器数据恢复环境: IBM某型号存储,6块sas硬盘组建一组raid5,划分一个lun分配给Linux服务器并格式化为OCFS2文件系统,共享给虚拟化使用,存放的数据包括24台liunx和windows虚拟机、压缩包文件和配置文件。 服务器故障: raid5阵列中成员盘坏了多块,阵列失效,数据丢失。
服务器数据恢复—IBM存储raid5多盘损坏导致阵列崩溃的数据恢复案例
IBM存储增值经销商
本文研究全球及中国市场IBM存储增值经销商现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美、欧洲、中国、日本、东南亚和印度等地区的现状及未来发展趋势
|
11月前
|
开发工具
IBM Watson提供的认知计算服务介绍
IBM Watson提供的认知计算服务介绍