320x100

안녕하세요. 오랜만에 글을 작성하게 되네요

앞으로 자주자주 글을 작성할 수 있도록 하겠습니다.

 


장애내용

errpt 내용에 아래와 같은 에러가 발생하였습니다.

< errpt 출력화면 >
< errpt -aj 출력화면 >

 

에러분석 내용

Error Log에 기록된 tty hog over-run 메세지는 무시하셔도 되는 로그입니다.

 

해당 message pts/X (주로 telnet, ksh) 을 통한 session에서 과도한 스크립트가 실행되었거나

많은 내용의 텍스트를 붙혀넣기 작업으로 인하여 CPU에 일시적으로 load가 걸렸다는 message입니다

 

, 일시적인 상황으로 log로 찍은 내용으로서, 장애가 아닌 information이므로 무시하셔도 되겠습니다.

 

추가적으로 리소스이름에 pts/X 라고 출력되는 것은 일종의 가상 tty 로써 원격지에서 시스템에 접속할 경우,

pts/0, pts/1  순차적으로 이름이 생성됩니다.

 

현재 내가 원격접속하여 사용하고 있는 터미널의 종류를 확인할려면 아래와 같은 명령어로 확인이 가능합니다.

[node1:root]/>tty
/dev/pts/0

또한 현재 시스템에 접속하고 있는 터미널은 아래와 같은 명령어로 확인이 가능합니다.

[node1:root]/>last -n 100 | grep pts/0
root      pts/0        100.100.0.6            Aug 08 23:41   still logged in.
root      pts/0        100.100.0.7            Jul 26 23:03 - 02:13  (03:09)
root      pts/0        100.100.0.6            Jul 20 17:05 - 17:15  (00:10)
root      pts/0        100.100.0.6            Jul 20 16:11 - 16:11  (00:00)
root      pts/0        100.100.0.12           Jul 14 13:46 - 16:05  (02:18)
root      pts/0        100.100.0.14           Jul 12 15:15 - 19:14  (03:58)
root      pts/0        100.100.0.14           Jul 12 15:06 - 15:06  (00:00)
root      pts/0        100.100.0.14           Jul 12 14:57 - 15:00  (00:03)
root      pts/0        100.100.0.6            Jul 09 14:32 - 14:53  (00:20)

[node1:root]/>who -aH                 
Name     ST Line           Time     Activity 
   .        system boot May 23 15:36         
   .        run-level 2 May 23 15:36         
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
srcmstr   -     .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
cron      -     .       May 23 15:36     old 
   .            .       May 23 15:38     old 
   .            .       May 23 15:36     old 
LOGIN     - vty0        Jul 10 14:00     old 
   .            .       May 23 15:36     old 
   .            .       May 23 15:36     old 
uprintfd  -     .       May 23 15:36     old 
   .            .       May 23 15:36     old 

   .            .       May 23 15:36     old 
root      - pts/0       Aug 08 23:41      .  
root        pts/1       Jul 27 03:11     old 
root        pts/2       Jul 12 16:25     old 

[node1:root]/>ps -ef | grep pts/
    root 12386730  7471598   0 23:41:14      -  0:00 sshd: root@pts/0

 

감사합니다.

반응형
320x100

안녕하세요.

오늘은 errpt 명령어 수행시 정상적으로 에러 내용이 출력되지 않는 경우에 대해서 알아보겠습니다.


장애내용

먼저 비정상적인 경우의 출력화면을 확인해보겠습니다.

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 N U hdisk0          
DE3B8540   0811170122 N U hdisk0          
F31FFAC3   0801071122 N U hdisk0          
DE3B8540   0801071122 N U hdisk0          
F31FFAC3   0725125222 N U hdisk0          
DE3B8540   0725125222 N U hdisk0          
F31FFAC3   0717010122 N U hdisk0          
DE3B8540   0717010022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk0          
F31FFAC3   0712163022 N U hdisk2          
F31FFAC3   0712163022 N U hdisk2          
5A7598C3   0712163022 N U fscsi0          
5A7598C3   0712163022 N U fscsi1          
...

위의 화면과 같이 errpt 명령어에 DESCRIPTION 부분이 정상적으로 출력 되지 않습니다.

 

동일한 에러에 대한 정상적인 에러 상세내용

[node2:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Tue Jul 12 16:30:25 2022
Sequence Number: 3116
Machine Id:      00C5C1D74C00
Node Id:         node2
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V125-C527-T1-W500507680B312370-L0

VPD:             
        Manufacturer................IBM     
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000452

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           3
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0102 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009
동일한 에러에 대한 비정상적인 에러 상세내용

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          NONEISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           U
Type:            NONE
WPAR:            Global
Resource Name:   hdisk0          
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:             
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451


Detail Data

0000 0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 











또한 에러내용에 대해서 상세내용을 보면 정상적인 상세 내용에서 많은 부분이 삭제되어 출력이 됩니다.


해결 방법

그럼 해결 방법에 대해서 알아보겠습니다.

정상적인 errpt 관련 파일

[node2:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r--    1 bin      bin          199512 Jun 20 16:33 codepoint.cat
-rw-r--r--    1 root     system       515075 Jun 20 16:33 errtmplt
비정상적인 errpt 관련 파일

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r--    1 root     system       177292 Aug 18 14:26 codepoint.cat
-rw-r--r--    1 root     system       243954 Aug 18 14:19 errtmplt

 errpt 명령어 관련 파일인 [codepoint.cat] 과 [errtmplt] 파일이 있습니다.

해당 파일들은 /var/adm/ras 경로에 존재합니다.

정상적인 파일과 비정상적인 파일의 용량을 비교하면 비정상적인 서버가 용량이 작다는 것을 알 수 있습니다.

해당 파일이 특정 작업으로 인해 깨지거나 파일이 변경되었을 가능성이 있습니다.

 

해당 에러를 해결하기 위해서는 정상적인 파일들을 복사해주시면 됩니다.

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/codepoint.cat /var/adm/ras
codepoint.cat                                                                                        100%  195KB  25.4MB/s   00:00    

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/errtmplt /var/adm/ras     
errtmplt                                                                                             100%  503KB  24.7MB/s   00:00    

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat                          
-rw-r--r--    1 root     system       199512 Aug 18 14:45 codepoint.cat
-rw-r--r--    1 root     system       515075 Aug 18 14:45 errtmplt

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0811170122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0801071122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0801071122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0725125222 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0725125222 P H hdisk0         PATH HAS FAILED
F31FFAC3   0717010122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0717010022 P H hdisk0         PATH HAS FAILED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712163022 I O fscsi0         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712163022 I O fscsi1         Additional FC SCSI Protocol Driver Infor
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
D5676F6F   0712161722 T H fscsi1         ATTACHED SCSI TARGET DEVICE ERROR
D5676F6F   0712161722 T H fscsi0         ATTACHED SCSI TARGET DEVICE ERROR
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712154622 I O fscsi1         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712154622 I O fscsi0         Additional FC SCSI Protocol Driver Infor
...

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0          
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:             
        Manufacturer................IBM     
        Machine Type and Model......2145            
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           0
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009

해당 파일들을 복사해오면 정상적으로 errpt 내용들이 출력되는 것을 확인하실 수 있습니다.

 

감사합니다.

 

 

 

 

반응형
320x100

안녕하세요.

오늘은 IBM Power8 이상의 장비에 연결된 I/O 확장드로어(EMX0) 를 사용하는 환경에서

발생할 수 있는 EEH 에러에 대한 조치방법에 대해서 알아보겠습니다.

 

장애내용

 PCIe Gen3 I/O 확장 드로어 기능이 있는 클라이언트 EMX0과 PCIe 6슬롯 팬아웃 모듈 기능 EMXF 또는 EMXG는 EEH(향상된 오류 처리) 오류가 발생하거나 설치된 I/O 어댑터에서 다시 로드를 재설정할 수 있습니다.

내부적으로 FPGA(Field Programmable Gate Array) 재설정이 발생했음을 나타내는 정보 시스템 참조 코드(SRC) B7006A8D 또는 B7006A8E가 기록됩니다.

 예를 들어 EMX0#1,#2 NIC 이더채널 구성시, EMX0#1 Active Line 장애가 경우에도 바로 EMX0#2 Standby fail over하지 않고 5분동안 스스로 Error Reset 진행합니다.

 

해결방법

 Power9 장비의 경우에는 FPGA Reset Mode Disable 경우 영구적으로 적용이 되지만, Power8 경우 EMX0 교체하거나, CEC Reboot 경우에는 다시 적용시켜주어야 합니다

적용을 시키기 위해서는 Server Operational or Standby Mode에서만 적용이 됩니다.

 

 FPGA Reset Mode를 Disable 해주는 방법은 3가지가 있습니다.

 

1. HMC Enhanced User Interface 환경일떄

위의 그림과 같이 시스템 선택 후 서비스상태>서비스상태>덤프관리 메뉴로 들어갑니다.

 덤프 관리 창에서 조치>자원덤프 시작 메뉴를 클릭합니다.

 자원 덤프 시작 창에서 자원선택자에 [xmsvc -disableccser] 값을 넣어주고 확인을 누릅니다.

 

2. ASM 환경일때

 위 그림과 같이 ASM화면에서 System Service Aids > Resource Dump 메뉴로 접근 후 [xmsvc -disableccser] 값을 넣어주고 [Initlate resource dump] 를 누릅니다.

 

3. HMC SSH 접속 후 cli 명령어 입력가능 환경

 startdump -m [myserver] -t resource -r "xmsvc -DISABLECCSER"

명령어를 수동으로 입력해 줍니다.

 

EEH에러 관련 AIX OS 파라미터 값

 AIX OS 파라미터인 [pcibus_eeh_perm_timeout ] 값은 EEH (enhanced error handling) error 발생시 빠른 recovery을 할 수 있게 해주는 parameter 입니다.

 PCI adapterIO operation 하는 동안 에러가 발생하면 EEH (Enhanced I/O Error Handling) 라는 error recoverykernel 단에서 수행 됩니다

 AIX에서 pcibus_eeh_perm_timeout에 정의된 시간() 만큼 recovery을 시도 하다 recovery가 되지 않으면 해당 adapterfail로 변경하고 , multipath인 경우 다른 adapter을 통해 IO operation을 수행 합니다.

 pcibus_eeh_perm_timeout 에 정의된 시간 동안 IO hang 또는 delay가 발생 할 수 있으며 이로 인해 Database 또는 Application에 정의된 timeout에 걸리게 되면 server reboot / HA failover등이 발생 할 수 있습니다.

 

 recovery time을 줄임으로써 정상적인 다른 adapterIO가 좀 더 빨리 재개 되며 running되고 있는 DB or Application에 영향을 최소화 할 수 있습니다

 기본 Default 값은 300(5분) 이며, 권고값은 “30” 입니다. 그 이하로 줄이는 것은 시스템 위험도가 증가 될 수 있습니다.

 

 현재의 파라미터 값 확인 및 변경방법은 아래와 같습니다.

# ioo -Fa | grep eeh
       pcibus_eeh_perm_timeout = 300
# ioo -FL | grep eeh
pcibus_eeh_perm_timeout   300    300    300    0      2G-1   seconds           D

# ioo -p -o pcibus_eeh_perm_timeout=30
Modification to restricted tunable pcibus_eeh_perm_timeout, confirmation required yes/no yes
Setting pcibus_eeh_perm_timeout to 30 in nextboot file
Setting pcibus_eeh_perm_timeout to 30
Warning: a restricted tunable has been modified

# ioo -Fa | grep eeh                  
       pcibus_eeh_perm_timeout = 30
# ioo -FL | grep eeh                  
pcibus_eeh_perm_timeout   30     300    30     0      2G-1   seconds           D

 

감사합니다.

반응형
320x100

 

장애내용

 기존 OS미러링(hdisk0, hdisk1) 으로 구성하여 서비스를 운영중인 시스템에서 디스크 장애(hdisk1)가 발생하였습니다.

1. errpt 명령어로 확인하였을때 hdisk1 [DISK OPERATION ERROR] 가 발생한것 을 확인하였습니다.

2. VG 미러링 상태를 확인하였을때 LV상태가 open/syncd(정상)상태에서 open/stale(비정상)상태로 변경된 것을 확인하였습니다.

 

 

조치방법

1. 미러링 해제 작업

 - smitty unmirrorvg 명령어로 장애디스크(hdisk1) 선택 후 실행해줍니다.

 - VG 상태확인 : PVs 가 1로 변경되었고 hdisk1에는 lv가 존재하지 않는것 을 확인 할 수 있습니다.

 

 

2. 장애디스크(hdisk1) 제거

 - rootvg 에서 장애디스크(hdisk1) 를 제거 해줍니다.

 

 

3. 장애디스크(hdisk1) 교체 작업

 - diag > Task Selection > Hot Plug Task > SCSI and SCSI RAID Hot Plug Manager > Replace/Remove a Device Attached to an SCSI Hot Swap Enclosure Device 메뉴로 들어가줍니다.

 - 교체할 디스크 물리적 위치와 OS에 인식단 Device(hdisk1) 이름을 확인 한 후 교체를 진행합니다.

 - 해당화면에서 디스크 선택 후 엔터를 하면 rmdev 명령어가 실행되며, 물리적 위치에 주황색 LED가 표시됩니다.

 - 장애 디스크 제거 후 신규(new) 디스크로 교체해주고 엔터를 입력하면, 교체가 완료됩니다.

 

 

4. 신규(new) 디스크 인식 및 rootvg 미러링 작업

 - 신규 디스크가 hdisk1 디바이스명으로 인식 된것 을 확인합니다.

 - hdisk1 디바이스를 extendvg 명령어를 사용하여 rootvg에 추가해줍니다.

 - smitty mirrorvg 명령어로 미러링을 진행합니다.

 

 

5. OS 미러링 확인 및 bootlist 설정

 - PVs 가 1에서 2로 변경된것을 확인 할 수 있습니다.

 - 또한 LV상태를 확인 하였을때 open/stale 로 확인되며, 시간이 지나면 open/syncd 로 변경됩니다.

 - 부트이미지를 hdisk0, hdisk1 디바이스에 생성해줍니다.

 

오늘은 디스크 장애 상황에 조치하는 방법에 대해서 알아 보았습니다.

감사합니다.

반응형

+ Recent posts