DELL R710服务器宕机案例(2)

简介:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
我的博客已迁移到xdoujiang.com请去那边和我交流
May 10 10:54:29 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:54:29 10.1.1.1 megasas: [ 0]waiting  for  3 commands to complete
May 10 10:54:34 10.1.1.1 megasas: [ 5]waiting  for  3 commands to complete
May 10 10:54:39 10.1.1.1 megasas: [10]waiting  for  3 commands to complete
May 10 10:54:44 10.1.1.1 megasas: [15]waiting  for  3 commands to complete
May 10 10:54:49 10.1.1.1 megasas: [20]waiting  for  3 commands to complete
May 10 10:54:54 10.1.1.1 megasas: [25]waiting  for  3 commands to complete
May 10 10:54:59 10.1.1.1 megasas: [30]waiting  for  3 commands to complete
May 10 10:55:04 10.1.1.1 megasas: [35]waiting  for  3 commands to complete
May 10 10:55:09 10.1.1.1 megasas: [40]waiting  for  3 commands to complete
May 10 10:55:14 10.1.1.1 megasas: [45]waiting  for  3 commands to complete
May 10 10:55:19 10.1.1.1 megasas: [50]waiting  for  3 commands to complete
May 10 10:55:24 10.1.1.1 megasas: [55]waiting  for  3 commands to complete
May 10 10:55:29 10.1.1.1 megasas: [60]waiting  for  3 commands to complete
May 10 10:55:34 10.1.1.1 megasas: [65]waiting  for  3 commands to complete
May 10 10:55:39 10.1.1.1 megasas: [70]waiting  for  3 commands to complete
May 10 10:55:44 10.1.1.1 megasas: [75]waiting  for  3 commands to complete
May 10 10:55:49 10.1.1.1 megasas: [80]waiting  for  3 commands to complete
May 10 10:55:54 10.1.1.1 megasas: [85]waiting  for  3 commands to complete
May 10 10:55:59 10.1.1.1 megasas: [90]waiting  for  3 commands to complete
May 10 10:56:04 10.1.1.1 megasas: [95]waiting  for  3 commands to complete
May 10 10:56:09 10.1.1.1 megasas: [100]waiting  for  3 commands to complete
May 10 10:56:14 10.1.1.1 megasas: [105]waiting  for  3 commands to complete
May 10 10:56:19 10.1.1.1 megasas: [110]waiting  for  3 commands to complete
May 10 10:56:24 10.1.1.1 megasas: [115]waiting  for  3 commands to complete
May 10 10:56:29 10.1.1.1 megasas: [120]waiting  for  3 commands to complete
May 10 10:56:34 10.1.1.1 megasas: [125]waiting  for  3 commands to complete
May 10 10:56:39 10.1.1.1 megasas: [130]waiting  for  3 commands to complete
May 10 10:56:44 10.1.1.1 megasas: [135]waiting  for  3 commands to complete
May 10 10:56:49 10.1.1.1 megasas: [140]waiting  for  3 commands to complete
May 10 10:56:54 10.1.1.1 megasas: [145]waiting  for  3 commands to complete
May 10 10:56:59 10.1.1.1 megasas: [150]waiting  for  3 commands to complete
May 10 10:57:04 10.1.1.1 megasas: [155]waiting  for  3 commands to complete
May 10 10:57:09 10.1.1.1 megasas: [160]waiting  for  3 commands to complete
May 10 10:57:15 10.1.1.1 megasas: [165]waiting  for  3 commands to complete
May 10 10:57:20 10.1.1.1 megasas: [170]waiting  for  3 commands to complete
May 10 10:57:25 10.1.1.1 megasas: [175]waiting  for  3 commands to complete
May 10 10:57:30 10.1.1.1 megasas: failed to  do  reset
May 10 10:57:30 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:57:30 10.1.1.1 megasas: cannot recover from previous reset failures
May 10 10:57:30 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:57:30 10.1.1.1 megasas: cannot recover from previous reset failures
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: SCSI error:  return  code = 0x06000000
May 10 10:57:30 10.1.1.1 end_request: I /O  error, dev sda, sector 753410861
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 84894796
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda1, logical block 6794075
May 10 10:57:30 lost page write due to I /O  error on sda1
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Aborting journal on device sda1.
May 10 10:57:30 Buffer I /O  error on device sda1, logical block 6816387
May 10 10:57:30 lost page write due to I /O  error on sda1
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 55100852
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 55187141
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 55200454
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 55200455
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 55229048
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 63269557
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Buffer I /O  error on device sda6, logical block 85296045
May 10 10:57:30 lost page write due to I /O  error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: SCSI error:  return  code = 0x06000000
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 ext3_abort called. 
May 10 10:57:30 EXT3-fs error (device sda1): ext3_journal_start_sb: Detected aborted journal
May 10 10:57:30 Remounting filesystem  read -only
May 10 10:57:30 10.1.1.1 end_request: I /O  error, dev sda, sector 756620997
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: SCSI error:  return  code = 0x06000000
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 journal commit I /O  error
May 10 10:57:30 10.1.1.1 end_request: I /O  error, dev sda, sector 750704733
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 Aborting journal on device sda6.
May 10 10:57:30 EXT3-fs error (device sda6)  in  ext3_ordered_commit_write: IO failure
May 10 10:57:30 Remounting filesystem  read -only
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 EXT3-fs error (device sda6)  in  ext3_ordered_commit_write: IO failure
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:31 EXT3-fs error (device sda6): ext3_get_inode_loc: 
May 10 10:57:31 unable to  read  inode block - inode=21004483, block=84017166
May 10 10:57:31 10.1.1.1  
May 10 10:57:31 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:31 EXT3-fs error (device sda1): ext3_get_inode_loc: 
May 10 10:57:31 unable to  read  inode block - inode=680717, block=2719877
May 10 10:57:31 10.1.1.1  
May 10 10:57:33 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:57:33 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 10.1.1.1 printk: 256 messages suppressed.
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6750208
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6750297
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6750298
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6750307
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6782976
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 Buffer I /O  error on device sda1, logical block 6790663
May 10 10:58:01 lost page write due to I /O  error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:06 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 10:58:06 10.1.1.1 printk: 26 messages suppressed.
May 10 10:58:06 Buffer I /O  error on device sda1, logical block 0
May 10 10:58:06 lost page write due to I /O  error on sda1
May 10 10:58:06 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:00:05 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:03:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:03:01 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:07:17 EXT3-fs error (device sda1): ext3_get_inode_loc: 
May 10 11:07:17 unable to  read  inode block - inode=1798783, block=7208965
May 10 11:07:17 10.1.1.1  
May 10 11:07:27 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:07:27 EXT3-fs error (device sda1): ext3_find_entry: 
May 10 11:07:27 reading directory  #1275457 offset 0
May 10 11:07:27 10.1.1.1  
May 10 11:07:27 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:07:27 sd 0: 2:0:0: rejecting I /O  to offline device
May 10 11:07:27 sd 0: 2:0:0: rejecting I /O  to offline device
==============================================================================
DELL R710的机器 查看日志发现是硬盘掉了 联系机房工程师看了面板 发现前面板LCD上有报错
信息 分别是E171F E1211 E2022,最后解决办法是将原来raid 5(8块盘)拔下换到新的机器上。
注意的事需要导入raid信息,之后就OK了。
 
E171F
PCIE Fatal Err B ## D## F##
PCIE Fatal Err Slot  #
系统 BIOS 已报告组件的 PCIe 致命错误,该组件所在的 PCI 配置空间位于总线  ##,设备 ##,功能 ##。
系统 BIOS 已报告组件的 PCIe 致命错误,该组件位于插槽  #。
卸下并重置 PCI 扩充卡。如果问题仍然存在,请参阅排除扩充卡故障。
如果问题仍然存在,则表示系统板出现故障。请参阅获得帮助。
 
E1211
ROMB Batt
RAID 电池丢失、损坏或因温度问题而无法再充电。
重置 RAID 电池。请参阅更换 SAS RAID 控制器子卡电池和排除系统冷却故障。
 
E2022
POST Fail
视频后出现一般故障。
请查看屏幕上的具体错误信息。









本文转自 xdoujiang 51CTO博客,原文链接:http://blog.51cto.com/7938217/1650775,如需转载请自行联系原作者
目录
相关文章
|
2月前
|
数据挖掘 Linux
服务器数据恢复-重装系统导致XFS分区丢失的数据恢复案例
服务器数据恢复环境: MD1200磁盘柜中的磁盘通过RAID卡创建了一组RAID5阵列,分配了一个LUN。在Linux操作系统层面对该LUN进行了分区,划分sdc1和sdc2两个分区,通过LVM扩容的方式将sdc1分区加入到了root_lv中;sdc2分区格式化为XFS文件系统。 服务器故障: 服务器重装系统后,磁盘分区改变,sdc2分区丢失,无法访问。
服务器数据恢复-重装系统导致XFS分区丢失的数据恢复案例
|
3月前
|
存储 算法 Oracle
服务器数据恢复—EVA存储硬盘不稳定离线的数据恢复案例
服务器数据恢复环境: 某品牌EVA某型号存储,底层是RAID5阵列,划分了若干lun。 服务器故障&分析: 该存储设备中raid5阵列有两块硬盘掉线,存储中的lun丢失。 将故障服务器存储中的所有磁盘编号后取出,硬件工程师检测后发现掉线硬盘不存在物理故障,也没有发现坏道,都可以正常读取数据。
|
1天前
|
存储 算法 数据挖掘
服务器数据恢复—昆腾存储StorNext文件系统数据恢复案例
服务器数据恢复环境: 昆腾某型号存储,8个存放数据的存储柜+1个存放元数据的存储柜。 元数据存储:8组RAID1阵列+1组RAID10阵列+4个全局热备硬盘。 数据存储:32组RAID5阵列,划分2个存储系统。 服务器故障: 数据存储的1个存储系统中的一组RAID5阵列中有2块硬盘先后出现故障离线,导致该RAID5阵列失效,整个存储系统崩溃不可用。
服务器数据恢复—昆腾存储StorNext文件系统数据恢复案例
|
1月前
|
存储 数据挖掘 Windows
服务器数据恢复—异常断电导致raid信息丢失的数据恢复案例
由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windows server操作系统,没有配置ups。 因为服务器异常断电重启后,raid阵列可以正常使用,所以未引起管理员的注意。后续出现的多次异常断电导致raid报错,服务器无法找到存储设备,进入raid管理模块进行任何操作都会导致操作系统死机。管理员尝试多次重启服务器,故障依旧。
|
1月前
|
存储 运维 安全
服务器数据恢复—存储互斥不当导致VMFS卷损坏的数据恢复案例
某公司的信息管理平台,通过3台虚拟机共享了一台存储设备供企业内部使用,存储设备中存放了公司内部重要的数据文件。 由于业务增长的需要,管理员又在这个存储网络上连接了一台Windows server服务器,结果这台存储变得不可用了。 管理员对该存储进行故障排查时发现存储中虚拟磁盘丢失,分区表丢失。重启该存储设备后故障依旧。 由于存储中的数据十分重要,没有备份。管理员为了安全起见,联系北亚企安数据恢复中心寻求帮助。 经过硬件工程师的检测,没有发现存储存在硬件故障。存储中的硬盘经过硬件工程师的检测后也没有发现任何物理故障,都可以正常读取。基本上可以排除故障是由于硬件导致的。
|
1月前
|
数据挖掘
服务器数据恢复—服务器硬盘掉线,指示灯显示红色的数据恢复案例
一台服务器中有一组由多块硬盘组建的raid阵列,在运行过程中服务器突然崩溃,管理员检查服务器发现该服务器raid阵列中有两块硬盘的指示灯显示红色。于是,管理员重启服务器,服务器重启后,先离线的硬盘上线并开始自动同步数据,数据同步过程中管理员又将服务器强制关机。
服务器数据恢复—服务器硬盘掉线,指示灯显示红色的数据恢复案例
|
1月前
|
存储 数据挖掘
服务器数据恢复—raid5热备盘同步失败的数据恢复案例
一台存储上有一组由多块硬盘组建的raid5阵列,该raid5阵列中的一块硬盘掉线,热备盘自动上线同步数据的过程中,raid阵列中又有一块硬盘掉线,热备盘的数据同步被中断,raid5阵列失效,卷挂载不上,存储瘫痪。 这类raid故障比较常见,服务器raid中的硬盘大多数情况下都是一个批次的同品牌同型号的硬盘,一旦有硬盘出现故障掉线,那么其他硬盘也随时有出故障掉线的可能。
|
1月前
|
弹性计算
ECS服务保活和宕机启动
学习ECS服务保活、宕机启动的配置方法,并体验其实现效果。通过应用程序配置保活和宕机启动策略,可以确保关键服务在遇到各种问题时保持运行,从而为用户和企业提供稳定和可靠的服务。
|
1月前
|
存储 Oracle 关系型数据库
服务器数据恢复—北亚企安服务器数据恢复案例集锦
服务器数据恢复案例之服务器raid6中3个磁盘离线导致阵列崩溃的数据恢复案例 服务器数据恢复案例之服务器RAID5两个磁盘指示灯显示红色导致服务器崩溃的数据恢复案例 服务器数据恢复案例之服务器硬盘出现坏道/坏扇区离线导致服务器崩溃的数据恢复案例
|
1月前
|
存储 Ubuntu 网络安全