IBM - P系列小型机日常维护故障定位故障排除手册 下载本文

对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断: #diag -> Task Selection -> SSA Service Aids -> Link Verification 检查环路中是否出现了???的盘符或状态不是good的硬盘 或使用:

#smitty ssaraid -> List All Defined SSA RAID Arrays

查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了

这时候不建议再进行单独硬盘的Certify,而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A 0401090004 P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK的排查方法:

1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子,相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)

2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下:

diag--->Task Selection-->SSA Service Aids-->Certify Disk 选择认为存在故障的硬盘进行检查

3、如果7133存在硬件故障时,可从状态灯上观察到:

当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮 或接SSA线的端口的指示灯也会熄灭

如果通过以上三种方法都未发现问题,而系统仍报Open Serial Link错误,建议继续跟踪。

26CA120B 0206081104 P H ssa0 CACHE STORAGE CARD的处理方法: 背景介绍:

IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失,这

第 12 页 共 25 页

块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,当fast write模式启动的情况下,一般两年半以后需要更换这块电池。 问题表现:

对ssa卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当该计数接近或超过22000时,系统会有26CA120B硬件报警: 26CA120B 0206120904 P H ssa1 CACHE STORAGE CARD

可以用如下命令检查ssa卡上的状态:(-a 后带上卡的逻辑设备名,这里假设是ssa0)

ssa_fw_status -a ssa0 -p (检查电池已经工作的时间,小时为单位) ssa_fw_status -a ssa0 -l (检查电池安全工作寿命,小时为单位) ssa_fw_status -a ssa0 -c (检查ssa卡上的fast write功能是否被激活) 处理步骤: (按优选方式列出,从中选择一种即可) 1)更换电池

选择系统闲时,更换主备机ssa卡电池,可以采用:

停备机-》更换备机ssa卡电池-》起备机(双机服务)-》主备倒换-》 停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)

2)如果系统出现26CA120B电池告警,使用ssa_fw_status -a ssa0 -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive(未被激活)状态,如果是,则以root执行如下命令: ssa_format -l ssa0 -b errclear 0 /usr/lib/errstop /usr/lib/errdemon

可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。

3)如果短期内不能更换电池,同时主机主用卡的Fast Write仍然处于Active状态,建议手工屏蔽fast write功能 1)先停止双机

2)在1号机修改hdisk该属性:

第 13 页 共 25 页

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no] 3)在1号机激活卷组 varyonvg zxinvg 4)在1号机去激活卷组 varyoffvg zxinvg 5)在2号机上执行

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了) 6)在2号机上执行 rmdev -dl hdisk2 cfgmgr -v 7)在2号机上执行

lspv (查看hdisk2是否已找到) 8)然后执行 varyonvg zxinvg varyoffvg zxinvg 9)重新启动双机 对于出现错误:

B4C00618 0115140004 P H ssa0 RESOURCE UNAVAILABLE 而不伴随其他红色标出错误的情况,则通过以下方式排查:

可能是hdisk中将‘enable user of hot spare’打开了,而实际并没有配置hot spare盘,

可以通过如下方式解决: 检查RAID的状态:

#smitty ssaraid

list all defined SSA RAID arrays : all are in status good (ssa0 ) 检查是否配置了hot spare:

list/identify SSA Physical disks-->List hot spares : none 修改每个ssa卡所配置的hdisk的属性:

第 14 页 共 25 页

: set \然后再执行: # /usr/lib/errstop

# cp /var/adm/ras/errlog /var/adm/ras/errlog.bak #/usr/lib/errdemon #errclear 0

对于物理硬盘的接法可参考如下说明:(有可能老局未配置hot spare,则连线方法按未配置hot spare盘的个数计算) 分以下几种情况讲述:

1) 数据盘小于等于6块,建议配置一块hotspare

2) 数据盘大于等于8块小于等于10块,建议配置两块hotspare 3) 数据盘大于等于12块小于等于14块,建议配置两块hotspare l 数据盘小于等于6块,配置一块hotspare的接线和配置规则: a) 主机A1、A2接磁阵1、8位置;备机A1、A2接磁阵4、5位置

b) 保证磁阵前排1\\4\\5\\8硬盘位置一定要插盘,其余的盘可以挑空位插,注意1-4、5-8两侧的数据盘保持轴对称关系插入(如1和8是轴对称的、4和5是轴对称的)

c) 没有插硬盘的位置一定要插上dummy盘

d) 做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示 pdisk0-pdisk3对应的物理槽位分别是前排1\\5\\4\\8的位置,所以在使用smitty ssaraid做RAID0+1时,需将1\\8位置的硬盘(pdisk0/pdisk3)做成镜像、4\\5位置的硬盘(pdisk2/pdisk1)做成镜像,所以选择Primary Disks/Secondary Disks时如下:

第 15 页 共 25 页