1、IBM小型机日常管理和故障处理内容提要内容提要 系统健康检查 HMC的使用 ASMI 的使用 常用操作 故障的处理 IBM 服务热线系统健康检查系统健康检查系统健康检查系统健康检查 巡检用户:xunjian(普通权限)。至/tmp/xunjian/目录下执行common_check.sh脚本。查看输出的日志:more pxxx20160920.log,进行系统的状态查看。系统健康检查系统健康检查 检查文件系统 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。#df-k#df-k(查看查看AIXAIX的基本文件系
2、统的基本文件系统)1024-blocks Free%Used Iused%Iused Mounted on 1024-blocks Free%Used Iused%Iused Mounted on/dev/hd4 24576 1452 95%2599 22%/dev/hd4 24576 1452 95%2599 22%/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd2 614400 28068 96%22967 15%/usr/dev/hd9var 8192 4540 45%649 32%/var/dev/hd9var 8192 4540 45%649
3、 32%/var/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd3 167936 157968 6%89 1%/tmp/dev/hd1 16384 5332 68%1402 35%/home/dev/hd1 16384 5332 68%1402 35%/home系统健康检查系统健康检查 查看卷组信息 lsvg-l vg_name 有没有stale状态的逻辑卷。用syncvg 命令修复。#smitty syncvgLV NAME TYPE LPs PPs PVs LV STATE MOUNT POINTLV NAME TYPE LPs PPs PVs LV ST
4、ATE MOUNT POINThd5 boot 1 2 2 closed/hd5 boot 1 2 2 closed/syncd syncd N/A N/Ahd6 paging 48 96 2 open/hd6 paging 48 96 2 open/syncdsyncd N/A N/Apaging00 paging 32 64 2 open/paging00 paging 32 64 2 open/syncdsyncd N/A N/Ahd8 jfslog 1 2 2 open/hd8 jfslog 1 2 2 open/syncdsyncd N/A N/Ahd4 jfs 1 2 2 open
5、/hd4 jfs 1 2 2 open/stale stale /hd2 jfs 32 64 2 open/hd2 jfs 32 64 2 open/syncdsyncd /usr /usrhd9var jfs 5 10 2 open/hd9var jfs 5 10 2 open/syncdsyncd /var /varhd3 jfs 4 8 2 open/hd3 jfs 4 8 2 open/syncdsyncd /tmp /tmphd1 jfs 1 2 2 open/hd1 jfs 1 2 2 open/syncdsyncd /home /home系统健康检查系统健康检查 网络检查 net
6、stat-i 查看网卡状态 Ierrs/Ipkts 和 Oerrs/Opkts是否1%ping host_name/IP Address 查看是否通和是否有丢包。路由表#netstat-rn 查看路由表是否正确,ping 各路由器是否通。核 对 主 机 名#hostname系统健康检查系统健康检查#ifconfig-aen0:en0:flags=4e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,flags=4e08086364BIT,PSEGinet 172.40.10.31 netmask 0 xffff000
7、0 broadcast 172.40.255.255inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0:lo0:flags=e08084bUP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64Bflags=e08084bITinet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.255inet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.
8、255inet6:1/0inet6:1/0系统健康检查系统健康检查#lsattr El inet0#lsattr El inet0authm 65536 Authentication Methods Trueauthm 65536 Authentication Methods Truehostname qtsms Host Name Truehostname qtsms Host Name Truegateway Gateway Truegateway Gateway Trueroute netroute net,0,172.40.10.1,0,172.40.10.1 Route True R
9、oute Truebootup_option no Serial Optical Network Interface Truebootup_option no Serial Optical Network Interface Truerout6 FDDI Network Interface Truerout6 FDDI Network Interface Trueroute属性是否有相应的路由信息。格式为:属性是否有相应的路由信息。格式为:net,0,172.16.23.81如果没有缺省路由如果没有缺省路由,执行命令:执行命令:#chdev l inet0 a route=0,172.16.2
10、3.81其中其中172.16.23.81为网关为网关如果缺省路由不正确,则先删除路由如果缺省路由不正确,则先删除路由,再增加缺省路由再增加缺省路由:#chdev l inet0 a delroute=net,0,133.16.23.81#chdev l inet0 a route=0,172.16.23.81系统健康检查系统健康检查 系统故障记录(errorlog)errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)系统健康检查系统健康
11、检查#errpt|more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 040513090
12、0 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P 永久;T 临时;U 未知(永久性的错误应引起重视)C(分类):H 硬件;S 软件;O 用户;U未知#errpt-d H 列出所有硬件出错信息#errpt-d S 列出所有软件出错信息#errpt-aj ERROR_ID 列出详细出错信息系统健康检查系统健康检查#errpt-aj 0502f666-ERROR_ID用大小写均可LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun 19 22:29:51Sequence Number
13、:95Machine ID:123456789012Node ID:host1Class:HType:PERMResource Name:scsi0Resource Class:adapterResource Type:hscsiLocation:00-08VPD:System Management(C-SPOC)-Resource Group and Applications-Move Resource Groups to Another Node常用操作常用操作-HACMP的资源切换的资源切换 Administration Guide Concepts and Facilities Gui
14、de HACMP Troubleshooting Guide Planning and Installation Guide 以上文档可以在随机所带的光盘上找到常用操作常用操作-HACMP参考文档参考文档故障处理故障处理故障处理故障处理-故障的定义故障的定义 弄清楚系统发生了什么问题 系统现在能做什么?不能做什么?故障什么时候发生的?有没有做平时不同的操作?故障有没有规律?定时还是不定时?发生的频率有多高?是一台机器出现故障还是多台机器故障?故障现象是否相同?最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如 HACMP配置)等。故障处理故障处理-故障信息的收集故障信息的收集
15、收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)故障处理故障处理-故障信息的收集故障信息的收集 HMC Service focal point 记录了连接在此台HMC上的所有P系列主机的硬件报错信息。选择“Service focal point“,选择“Manage Serviceable Events“。可以根据主机、机柜序列号进行查询#mail
16、系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root故障处理故障处理-故障信息的收集故障信息的收集 其他用于收集系统信息的命令 lsdev-C 系统设备信息#lsdev-Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#l
17、spvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavg lsvg 查看卷组信息故障处理故障处理-故障信息的收集故障信息的收集#lsvg datavgVOLUME GROUP:datavg VG IDENTIFIER:0000000055e2458bVG STATE:active PP SIZE:4 megabyte(s)VG PERMISSION:read/write TOTAL PPs:2169(8676 megabytMAX LVs:256 FREE PPs:
18、1(4 megabytes)LVs:3 USED PPs:2168(8672 megabytOPEN LVs:2 QUORUM:2TOTAL PVs:1 VG DESCRIPTORS:2STALE PVs:0 STALE PPs:0ACTIVE PVs:1 AUTO ON:yesMAX PPs per PV:2032 MAX PVs:16#lsvg-l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A .lv00 jfs 51 102 1 closed/stale
19、/ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm 故障处理故障处理-故障信息的收集故障信息的收集l sl pp 查看文件组信息#lslpp-L|grep 23100020.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。l sattr查看设备参数设置#lsattr-El ent2busio 0 x7fffc00 Bus I/O addres
20、s Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET addre
21、ss Truealt_addr 0 x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True 故障处理故障处理-故障信息的收集故障信息的收集l scf g查看VPD 信息(Vi rtual Product D ata)#lscfg-vl ssa1 DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500)Part Number.097H0645 FRU Number.097H0645 -备件号 Ser
22、ial Number.C8217227 EC Level.0000F20825 Manufacturer.IBM053 ROS Level and ID.7201-微码版本 Loadable Microcode Level.04 Device Driver Level.00 Displayable Message.SSA-ADAPTER Device Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0 Device Specific.(Z2).000000062955dab2 Device Specific.(YL).P2-I7 -槽号不同的硬件设备有不同的VPD,所含的格式和信息都不一样。通常备件号和微码版本最有参考价值。注:FRU(Field Replace Unit)才是真正的备件号。故障处理故障处理-收集系统信息收集系统信息#snap-a-c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsuptIBM 服务热线服务热线 座机拨打:800-810-1818 报机器系列号,客户名称 24小时在线 支持人员非24小时 硬件配件需要调配 理论上不超4个小时到场解决故障Q&A thans a lot