IBM - P系列小型机日常维护故障定位故障排除手册 下载本文

IBM P系列小型机

日常维护/故障定位/故障排除手册

1. 机房环境及物理检查

1.1. 机房内环境要求

1.1.1. 温度与湿度:

最佳工作温度:20-25摄氏度 极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下)

如果不是工作在最佳温度,请注意改善机房环境

1.1.2. 机房要保证清洁.

机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

1.1.3. 电源要求

电 压: 要求电压稳定, 尖峰电压会损坏设备 电压范围: 220V +/- 10%, 即200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定

电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过1.0V.

电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.

1.2. 硬件检查

检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

1.3. 服务器状态检查及其相关命令

1.3.1. 外观状态检查:

1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。

1.3.2. 命令状态检查

1、运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。 #lsdev –C –H –S a 列出系统中可用设备。 #lsdev –Cc processor 列出系统中的所有CPU。 #lsdev –Cc memory 列出系统中的所有内存。 #lsdev –Cc disk 列出系统中的所有硬盘。 #lsdev -Cc adapter | grep ent 列出系统中的所有网卡 #lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。 #lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。 2、lspv命令

#lspv 显示系统中可用的PV。 #lspv hdiskn 显示hdiskn的具体信息。

第 1 页 共 25 页

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。 3、 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。 4 、lsvg命令

#lsvg 列出系统中所有的vg。 #lsvg rootvg 列出rootvg的详细信息。 #lsvg –o 列出激活的vg 5、 oslevel命令

#oslevel 显示操作系统版本信息。 6、 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。 7、 # diag 命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。 8、 使用#diag命令

(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。

9、 lsps –a 查看PAGING SPACE的使用情况 如果使用率超过70%,就需要采取措施。 10、 lsvg –o | lsvg –il | grep –i stale

查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施 11、 有否发给root用户的错误报告(mail)。 12、 检查双机状态

lssrc –g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat –a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。

第 2 页 共 25 页

13、 用vmstat, topas,sar 命令检查系统性能 检查cpu\\memoyr\\IO ,是否存在性能瓶颈。 14、 检查能否顺利进入CDE界面

如果不能进入的话,要检查/etc/hosts表中有否错误的项目。 15、 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。 如果是degrade或其他状态表示RAID盘出现问题了 16、 用sysdumpdev –l 查看系统的DUMP设置是否正常。 17、 用instfix –ik | grep ML

当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上 18 、使用df –kP查看磁盘空间占用率

请确保以下文件系统的占用率高于80%立即上报:

/ /var /usr /home /tmp /zxindata/zxinbak,其余文件系统的占用率高于95%立即上报

也可以到各文件系统下使用组合命令:find . –size +2048 –o ctime 1 –exec ls –l {} \\; 查出大于1M或一天之内修改过的文件。 19、系统性能

内存:svmon、lsps -a Cpu :sar 硬盘:iostat

文件系统:filemon

其他命令: vmstat、topas、lvmstat 20、磁带机是否需要清洗

/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗 21、syncd 参数

值: 缺省值:60;范围:1 到任何正整数 显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

第 3 页 共 25 页