320x100

안녕하세요.

오늘은 errpt 명령어 수행시 정상적으로 에러 내용이 출력되지 않는 경우에 대해서 알아보겠습니다.


장애내용

먼저 비정상적인 경우의 출력화면을 확인해보겠습니다.

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 N U hdisk0          
DE3B8540   0811170122 N U hdisk0          
F31FFAC3   0801071122 N U hdisk0          
DE3B8540   0801071122 N U hdisk0          
F31FFAC3   0725125222 N U hdisk0          
DE3B8540   0725125222 N U hdisk0          
F31FFAC3   0717010122 N U hdisk0          
DE3B8540   0717010022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk2          
F31FFAC3   0712163022 N U hdisk2          
5A7598C3   0712163022 N U fscsi0          
5A7598C3   0712163022 N U fscsi1          
...

위의 화면과 같이 errpt 명령어에 DESCRIPTION 부분이 정상적으로 출력 되지 않습니다.

 

동일한 에러에 대한 정상적인 에러 상세내용

[node2:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Tue Jul 12 16:30:25 2022
Sequence Number: 3116
Machine Id:      00C5C1D74C00
Node Id:         node2
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V125-C527-T1-W500507680B312370-L0

VPD:             
        Manufacturer................IBM     
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000452

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           3
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0102 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009
동일한 에러에 대한 비정상적인 에러 상세내용

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          NONEISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           U
Type:            NONE
WPAR:            Global
Resource Name:   hdisk0          
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:             
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451


Detail Data

0000 0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 











또한 에러내용에 대해서 상세내용을 보면 정상적인 상세 내용에서 많은 부분이 삭제되어 출력이 됩니다.


해결 방법

그럼 해결 방법에 대해서 알아보겠습니다.

정상적인 errpt 관련 파일

[node2:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r--    1 bin      bin          199512 Jun 20 16:33 codepoint.cat
-rw-r--r--    1 root     system       515075 Jun 20 16:33 errtmplt
비정상적인 errpt 관련 파일

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r--    1 root     system       177292 Aug 18 14:26 codepoint.cat
-rw-r--r--    1 root     system       243954 Aug 18 14:19 errtmplt

 errpt 명령어 관련 파일인 [codepoint.cat] 과 [errtmplt] 파일이 있습니다.

해당 파일들은 /var/adm/ras 경로에 존재합니다.

정상적인 파일과 비정상적인 파일의 용량을 비교하면 비정상적인 서버가 용량이 작다는 것을 알 수 있습니다.

해당 파일이 특정 작업으로 인해 깨지거나 파일이 변경되었을 가능성이 있습니다.

 

해당 에러를 해결하기 위해서는 정상적인 파일들을 복사해주시면 됩니다.

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/codepoint.cat /var/adm/ras
codepoint.cat                                                                                        100%  195KB  25.4MB/s   00:00    

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/errtmplt /var/adm/ras     
errtmplt                                                                                             100%  503KB  24.7MB/s   00:00    

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat                          
-rw-r--r--    1 root     system       199512 Aug 18 14:45 codepoint.cat
-rw-r--r--    1 root     system       515075 Aug 18 14:45 errtmplt

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0811170122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0801071122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0801071122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0725125222 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0725125222 P H hdisk0         PATH HAS FAILED
F31FFAC3   0717010122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0717010022 P H hdisk0         PATH HAS FAILED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712163022 I O fscsi0         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712163022 I O fscsi1         Additional FC SCSI Protocol Driver Infor
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
D5676F6F   0712161722 T H fscsi1         ATTACHED SCSI TARGET DEVICE ERROR
D5676F6F   0712161722 T H fscsi0         ATTACHED SCSI TARGET DEVICE ERROR
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712154622 I O fscsi1         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712154622 I O fscsi0         Additional FC SCSI Protocol Driver Infor
...

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0          
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:             
        Manufacturer................IBM     
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           0
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009

해당 파일들을 복사해오면 정상적으로 errpt 내용들이 출력되는 것을 확인하실 수 있습니다.

 

감사합니다.

 

 

 

 

반응형

+ Recent posts