빛나는불꽃

안녕하세요. 오랜만에 글을 작성하게 되네요

앞으로 자주자주 글을 작성할 수 있도록 하겠습니다.

장애내용

errpt 내용에 아래와 같은 에러가 발생하였습니다.

에러분석 내용

Error Log에 기록된 tty hog over-run 메세지는 무시하셔도 되는 로그입니다.

해당 message 는 pts/X (주로 telnet, ksh창) 을 통한 session에서 과도한 스크립트가 실행되었거나,

많은 내용의 텍스트를 붙혀넣기 작업으로 인하여 CPU에 일시적으로 load가 걸렸다는 message입니다.

즉, 일시적인 상황으로 log로 찍은 내용으로서, 장애가 아닌 information이므로 무시하셔도 되겠습니다.

추가적으로 리소스이름에 pts/X 라고 출력되는 것은 일종의 가상 tty 로써 원격지에서 시스템에 접속할 경우,

pts/0, pts/1 순차적으로 이름이 생성됩니다.

현재 내가 원격접속하여 사용하고 있는 터미널의 종류를 확인할려면 아래와 같은 명령어로 확인이 가능합니다.

[node1:root]/>tty
/dev/pts/0

또한 현재 시스템에 접속하고 있는 터미널은 아래와 같은 명령어로 확인이 가능합니다.

[node1:root]/>last -n 100 | grep pts/0
root      pts/0        100.100.0.6            Aug 08 23:41   still logged in.
root      pts/0        100.100.0.7            Jul 26 23:03 - 02:13  (03:09)
root      pts/0        100.100.0.6            Jul 20 17:05 - 17:15  (00:10)
root      pts/0        100.100.0.6            Jul 20 16:11 - 16:11  (00:00)
root      pts/0        100.100.0.12           Jul 14 13:46 - 16:05  (02:18)
root      pts/0        100.100.0.14           Jul 12 15:15 - 19:14  (03:58)
root      pts/0        100.100.0.14           Jul 12 15:06 - 15:06  (00:00)
root      pts/0        100.100.0.14           Jul 12 14:57 - 15:00  (00:03)
root      pts/0        100.100.0.6            Jul 09 14:32 - 14:53  (00:20)

[node1:root]/>who -aH
Name     ST Line           Time     Activity
   .        system boot May 23 15:36
   .        run-level 2 May 23 15:36
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
srcmstr   -     .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
cron      -     .       May 23 15:36     old
   .            .       May 23 15:38     old
   .            .       May 23 15:36     old
LOGIN     - vty0        Jul 10 14:00     old
   .            .       May 23 15:36     old
   .            .       May 23 15:36     old
uprintfd  -     .       May 23 15:36     old
   .            .       May 23 15:36     old

   .            .       May 23 15:36     old
root      - pts/0       Aug 08 23:41      .
root        pts/1       Jul 27 03:11     old
root        pts/2       Jul 12 16:25     old

[node1:root]/>ps -ef | grep pts/
    root 12386730  7471598   0 23:41:14      -  0:00 sshd: root@pts/0

감사합니다.

'IBM시스템 > 장애이슈' 카테고리의 다른 글

[장애이슈] AIX errpt 명령어 에러 출력내용 오류 수정 (0)	2022.08.18
[장애이슈] EMX0 EEH(Enhanced I/O Error Handling) Error 조치방법 (0)	2022.07.29
[장애이슈] AIX OS 디스크 장애 조치방법(디스크 교체, OS미러링, boot설정) (0)	2022.05.02
[장애이슈] SSH 키 인증 방식 변경(ssh-rsa > ecdsa) 에 따른 서비스 장애 (0)	2022.04.24
[장애이슈] HMC Reference Code 0569 부팅 장애 (0)	2022.03.12

안녕하세요.

오늘은 PowerHA 구성 방법을 알아보겠습니다.

PowerHA 란?

AIX Unix 및 Linux 에서 고 가용성 클러스터 를위한 IBM의 솔루션입니다. IBM System p 플랫폼은 고 가용성 클러스터 다중 처리를 나타냅니다. IBM의 HACMP 제품은 1991 년에 처음 출시되었습니다.

PowerHA는 최대 32 개의 컴퓨터 또는 노드에서 실행할 수 있으며, 각 노드는 애플리케이션을 능동적으로 실행 (활성)하거나 다른 노드가 실패 할 때 (수동) 인계 대기 중입니다. 파일 시스템 의 데이터는 클러스터의 시스템간에 공유 할 수 있습니다.

PowerHA는 IBM의 Reliable Scalable Cluster Technology (RSCT)에 크게 의존합니다. PowerHA는 RSCT 인식 클라이언트입니다. RSCT는 AIX와 함께 배포됩니다. RSCT에는 클러스터와 관련된 이벤트에 대한 응답을 조정하는 그룹 서비스라는 데몬이 포함되어 있습니다 (예 : 인터페이스 또는 노드 실패 또는 관리자가 클러스터 구성 변경). PowerHA V6.1까지 RSCT는 토폴로지 서비스 데몬 (topsvcs)을 사용하여 클러스터 노드, 네트워크 및 네트워크 어댑터의 오류를 모니터링했습니다. 현재 릴리스 (V7.1)에서 RSCT는 노드 간의 좌표 응답을 제공하지만 모니터링 및 통신은 CAA (Cluster Aware AIX) 인프라에서 제공됩니다.

PowerHA 구성 방법

기본적으로 PowerHA 파일셋의 설치가 필요합니다.

PowerHA는 별도로 IBM계약을 통하여 설치 및 기술지원을 받으실수 있습니다.

[node1:root]/>halevel -s
7.2.5 GA

현재 설치된 PowerHA 버젼은 7.2.5 입니다.

1. /etc/hosts 파일 수정 (node1/2 모두 작업)

[node1:root]/>cat /etc/hosts
...
10.50.1.81      node1
10.50.1.82      node2
10.50.1.83      VIP

각 노드의 IP와 VIP를 입력해 줍니다.

2. rhosts 파일 생성 (node1/2 모두 작업)

[node1:root]/>vi /etc/cluster/rhosts
node1
node2
[node1:root]/>vi /usr/es/sbin/cluster/etc/rhosts
node1
node2

3. 할당된 디스크 정보 확인

[node1:root]/>lspv
hdisk0          00c5c1d71c2b08a9                    rootvg          active
hdisk1          00c5c1d73963a388                    None
hdisk2          00c5c1d73a9d410c                    testvg          active
hdisk3 (Shared)         00c5c1d73a9d414b                    None                        >> 미사용, 50GB
hdisk4 (Shared)         00c5c1d73a9d4187                    None                        >> 미사용, 50GB
hdisk5 (Shared)         00c5c1d73a9d41c2                    NSD01                       >> GPFS사용중
hdisk6 (Shared)         00c5c1d73a9d41fd                    NSD02                       >> GPFS사용중
hdisk7 (Shared)         00c5c1d73a9d423a                    NSD03                       >> GPFS사용중
hdisk8 (Shared)         00c5c1d73a9d4276                    TB01                         >> GPFS사용중
hdisk9 (Shared)         00c5c1d73a9d42b1                    None                        >> 미사용, 1GB
hdisk10 (Shared)        00c5c1d73a9d42ee                    None                        >> 미사용, 1GB
hdisk11 (Shared)        00c5c1d73a9d432a                    None                        >> 미사용, 1GB
hdisk12 (Shared)       00c5c1d73a9d4367                    None                         >> 미사용, 1GB

현재 node1/2 파티션에 hdisk3에서 hdisk12 까지의 공유디스크가 할당되어 있는 상태입니다.

현재 hdisk5~hdisk8까지는 GPFS 용도로 사용중이며 표시한 미사용 공유디스크를 이용하여 PowerHA를 구성하겠습니다.

4. Cluster, Node, Network 생성 (Node1에서 작업)

[node2:root]/>smitty hacmp > Cluster Nodes and Networks > Standard Cluster Deployment > Setup Cluster, Nodes and Networks (Typical)

Cluster Name 을 설정해주고 node2 노드를 추가해줍니다.

생성을 할때 오류가 뜰경우에는 clcomd 데몬을 재시작해줍니다.

#stopsrc -s clcomd ; startsrc -s clcomd

[node1:root]/>cltopinfo
Cluster Name:    PowerHA_cluster
Cluster Type:    Standard
Heartbeat Type:  Unicast
Repository Disk: None

There are 2 node(s) and 1 network(s) defined

NODE node1:
        Network net_ether_01
                node1   10.50.1.81

NODE node2:
        Network net_ether_01
                node2   10.50.1.82

No resource groups defined

생성된 cluster정보는 위의 명령어로 확인하실 수 있습니다.

5. Repository Disk 설정 (Node1에서 작업)

클러스터 저장소 디스크(Repository Disk)가 다음 용도로 사용됩니다.

클러스터 전체 구성 관리
클러스터 메시징 및 Heart-Beat
노드 간의 또 다른 중복 통신 경로로 사용됩니다.

클러스터 리포지토리 디스크에 할당된 디스크 공간은 최소 512MB, 최대 460GB여야 합니다.

디스크를 저장소 디스크(Repository Disk)로 할당한 후에는 디스크를 다른 용도로 사용할 수 없습니다.

저장소 디스크로 사용하는 디스크(Repository Disk)에 사용자 데이터가 포함되어 있지 않은지 확인하십시오.

디스크가 PowerHA SystemMirror에 의해 저장소 디스크(Repository Disk)로 식별되면 디스크의 모든 정보가 지워집니다.

[node2:root]/>smitty hacmp > Cluster Nodes and Networks > Manage Repository Disks > Add a Repository Disk

위와 같은 방법으로 Repository Disk를 추가 하실수 있습니다.

일반적으로 2개의 Repository Disk를 Active-Backup 형식으로 할당 해줍니다.

저는 hdisk9(Active), hdisk10(Backup)으로 구성하였습니다.

[node2:root]/>smitty hacmp > Cluster Nodes and Networks > Manage Repository Disks > Show Repository Disks

6. Application Scripts 등록 (Node1에서 작업)

[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resources > Configure User Applications (Scripts and Monitors) > Application Controller Scripts > Add Application Controller Scripts

리소스그룹(Resource Group)에 등록하여 HA 리소스가 시작되거나 중지될때 자동으로 실행할 수 있는 스크립트를 작성하여 등록하실 수 있습니다.

7. Service IP (VIP) 등록 (Node1에서 작업)

[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resources > Configure Service IP Labels/Addresses > Configure Service IP Labels/Addresses > Network 선택

/etc/hosts 파일에 등록한 VIP를 선택하여 등록하실 수 있습니다.

8. VG, LV, F/S 생성 (node1/2 모두 작업)

[node1:root]/>lvlstmajor
39...
[node2:root]/>lvlstmajor
38...

해당명령어로 사용가능한 고유한 VG 넘버를 확인하실 수 있습니다.

############### Node1 에서 작업 ########################
# VG 생성 (major number 40)
[node1:root]/>mkvg -f -a 'no' -S -C -y ha_vg -s 512 -V 40 hdisk3
ha_vg

# LV 생성
[node1:root]/> mklv -y'ha_lv' -t'jfs2' ha_vg 20 hdisk3

$ F/S 생성
[node1:root]/> crfs -v jfs2 -d'ha_lv' -m'/ha_test' -A'no' -p'rw' -a agblksize='4096' -a isnapshot='no'

[node1:root]/>lspv
hdisk0          00c5c1d71c2b08a9                    rootvg          active
hdisk1          00c5c1d73963a388                    None
hdisk2          00c5c1d73a9d410c                    testvg          active
hdisk3          00c5c1d73a9d414b                    ha_vg           active
hdisk4          00c5c1d73a9d4187                    None
hdisk5          00c5c1d73a9d41c2                    NSD01
hdisk6          00c5c1d73a9d41fd                    NSD02
hdisk7          00c5c1d73a9d423a                    NSD03
hdisk8          00c5c1d73a9d4276                    TB01
hdisk9          00c5c1d73a9d42b1                    None
hdisk10         00c5c1d73a9d42ee                    None
hdisk11         00c5c1d73a9d432a                    None
hdisk12         00c5c1d73a9d4367                    None
[node1:root]/>lsvg -l ha_vg
ha_vg:
LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT
ha_lv               jfs2       20      20      1    open/syncd    /ha_test
loglv00             jfs2log    1       1       1    open/syncd    N/A
[node1:root]/>umount /ha_test
[node1:root]/>varyoffvg ha_vg
[node1:root]/>exportvg ha_vg

############### Node2 에서 작업 ########################
[node2:root]/>lspv
hdisk0          00c5c1d71c2b3c88                    rootvg          active
hdisk1          00c5c1d73a9d5461                    None
hdisk2          00c5c1d73a9d54a0                    None
hdisk3          00c5c1d73a9d414b                    None
hdisk4          00c5c1d73a9d4187                    None
hdisk5          00c5c1d73a9d41c2                    NSD01
hdisk6          00c5c1d73a9d41fd                    NSD02
hdisk7          00c5c1d73a9d423a                    NSD03
hdisk8          00c5c1d73a9d4276                    TB01
hdisk9          00c5c1d73a9d42b1                    None
hdisk10         00c5c1d73a9d42ee                    None
hdisk11         00c5c1d73a9d432a                    None
hdisk12         00c5c1d73a9d4367                    None
[node2:root]/>importvg -V 40 -y ha_vg 00c5c1d73a9d414b
ha_vg

############### Node1, Node2 에서 작업 ###################
varyoffvg ha_vg
hdisk0          00c5c1d71c2b3c88                    rootvg          active
hdisk1          00c5c1d73a9d5461                    None
hdisk2          00c5c1d73a9d54a0                    None
hdisk3          00c5c1d73a9d414b                    ha_vg
hdisk4          00c5c1d73a9d4187                    None
hdisk5          00c5c1d73a9d41c2                    NSD01
hdisk6          00c5c1d73a9d41fd                    NSD02
hdisk7          00c5c1d73a9d423a                    NSD03
hdisk8          00c5c1d73a9d4276                    TB01
hdisk9          00c5c1d73a9d42b1                    None
hdisk10         00c5c1d73a9d42ee                    None
hdisk11         00c5c1d73a9d432a                    None
hdisk12         00c5c1d73a9d4367                    None

varyoff 작업으로 통하여 node1, node2 모두 active 표시가 없도록 해줍니다.

node1 에서 VG, LV, F/S을 생성하고 exportvg 작업 후 node2 에서 importvg를 해줍니다.

이후 node1,2 에서 모두 varyoff 상태로 만들어줍니다.

9. 리소스그룹(Resouces Group) 생성 (Node1에서 작업)

[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resource Groups > Add a Resource Group

리소스그룹 이름과 node명을 입력해줍니다.

Fallback Policy 는 Naver Fallback으로 선택해줍니다.

리소스 그룹 Policy 에 대한 설명입니다.

Startup Policy : 클러스터 기동되고 리소스가 올라올 떄 어느 노드에 올라올지 결정
Fallover Policy : 현재 리소스를 가지고 있는 노드가 다운되었을 때 어느 노드로 넘길지 결정
Fallback Policy : 원래 리소스를 가지고 있던 노드가 다운되었다가 다시 복구되었을 때 원래 Active였던 노드로 리소스를 자동으로 되찾게 할 것인지 여부를 설정 (자동으로 되찾게 하면 리소스 그룹을 넘기는 도중 다운타임 발생이 불가피하므로 주로 Never Fallback으로 사용)

10. 리소스그룹(Resouces Gorup) 수정 (Node1에서 작업)

[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resource Groups > Change/Show All Resources and Attributes for a Resource Group > ha_rg 리소스 그룹 선택

생성한 Service IP, Application Controller, Volume Groups 을 입력하여 ha_rg 리소스그룹 정보를 수정해 줍니다.

11. PowerHA Cluster 정보 Synchronize (Node1에서 작업)

[node1:root]/>smitty hacmp > Cluster Applications and Resources > Verify and Synchronize Cluster Configuration

node1에서 생성한 PowerHA 정보를 node2에서도 가져오도록 Sync 동작을 수행합니다.

12. PowerHA 기동

[node1:root]/>smitty clstart

node1, node2를 선택 후 PowerHA 를 기동합니다.

13. PowreHA 상태 확인

[node1:root]/>lssrc -ls clstrmgrES | grep -i state
Current state: ST_STABLE
[node2:root]/>lssrc -ls clstrmgrES | grep -i state
Current state: ST_STABLE

[node1:root]/>clRGinfo
-----------------------------------------------------------------------------
Group Name                   State            Node
-----------------------------------------------------------------------------
ha_rg                        ONLINE           node1
                               OFFLINE          node2

Current state: ST_STABLE
[node1:root]/>lspv
hdisk0          00c5c1d71c2b08a9                    rootvg          active
hdisk1          00c5c1d73963a388                    None
hdisk2          00c5c1d73a9d410c                    testvg          active
hdisk3          00c5c1d73a9d414b                    ha_vg           concurrent
hdisk4          00c5c1d73a9d4187                    None
hdisk5          00c5c1d73a9d41c2                    NSD01
hdisk6          00c5c1d73a9d41fd                    NSD02
hdisk7          00c5c1d73a9d423a                    NSD03
hdisk8          00c5c1d73a9d4276                    TB01
hdisk9          00c5c1d73a9d42b1                    caavg_private   active
hdisk10         00c5c1d73a9d42ee                    None
hdisk11         00c5c1d73a9d432a                    None
hdisk12         00c5c1d73a9d4367                    None

[node1:root]/>lsvg ha_vg | grep PERMI
VG PERMISSION:      read/write               TOTAL PPs:      99 (50688 megabytes)
[node2:root]/>lsvg ha_vg | grep PERMI
VG PERMISSION:      passive-only             TOTAL PPs:      99 (50688 megabytes)

[node1:root]/>df -tg
/dev/hd4           1.00      0.10      0.90   10% /
/dev/hd2           5.25      5.05      0.20   97% /usr
/dev/hd9var        2.00      0.25      1.75   13% /var
/dev/hd3           2.00      0.00      2.00    1% /tmp
/dev/hd1           1.00      0.00      1.00    1% /home
/dev/hd11admin      0.12      0.00      0.12    1% /admin
/proc                 -         -         -    - /proc
/dev/hd10opt       0.38      0.27      0.10   73% /opt
/dev/livedump      0.25      0.00      0.25    1% /var/adm/ras/livedump
/dev/fslv00       30.00     18.26     11.74   61% /ptf
/dev/fslv01        1.00      0.00      1.00    1% /testvg
/ahafs                -         -         -    - /aha
/dev/gpfs_fs02     50.00      1.34     48.66    3% /gpfs_fs02
/dev/gpfs_fs03     50.00      1.34     48.66    3% /gpfs_fs03
/dev/gpfs_fs01     50.00      1.34     48.66    3% /gpfs_fs01
/dev/ha_lv        10.00      0.00     10.00    1% /ha_test

[node1:root]/>ifconfig -a
en0: flags=1e084863,114c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>
        inet 10.50.1.83 netmask 0xffffff00 broadcast 10.50.1.255
        inet 10.50.1.81 netmask 0xffffff00 broadcast 10.50.1.255
         tcp_sendspace 262144 tcp_recvspace 262144 rfc1323 1
en1: flags=1e084863,14c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>
        inet 192.168.0.81 netmask 0xffffff00 broadcast 192.168.0.255
         tcp_sendspace 262144 tcp_recvspace 262144 rfc1323 1
lo0: flags=e08084b,c0<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,LARGESEND,CHAIN>
        inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255
        inet6 ::1%1/64
         tcp_sendspace 131072 tcp_recvspace 131072 rfc1323 1

PowerHA Cluster를 기동하면 VG상태가 concurrent 로 변경되며, Active 노드에서 F/S이 정상적으로 마운트가 됩니다.

또한, 설정한 VIP 도 Active노드에서 올라오게 됩니다.

이상태에서 node1이 다운될 경우에는 F/S과 VIP가 node2로 FailOver 가 발생하며, 리소스 그룹 이동시간 동안 서비스 단절 후 node2로 서비스할 수 있습니다.

오늘은 기본적인 PowreHA 구성 절차에 대해서 알아보았습니다.

감사합니다. ^^

안녕하세요.

오늘은 errpt 명령어 수행시 정상적으로 에러 내용이 출력되지 않는 경우에 대해서 알아보겠습니다.

장애내용

먼저 비정상적인 경우의 출력화면을 확인해보겠습니다.

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 N U hdisk0
DE3B8540   0811170122 N U hdisk0
F31FFAC3   0801071122 N U hdisk0
DE3B8540   0801071122 N U hdisk0
F31FFAC3   0725125222 N U hdisk0
DE3B8540   0725125222 N U hdisk0
F31FFAC3   0717010122 N U hdisk0
DE3B8540   0717010022 N U hdisk0
F31FFAC3   0712163022 N U hdisk0
F31FFAC3   0712163022 N U hdisk0
F31FFAC3   0712163022 N U hdisk2
F31FFAC3   0712163022 N U hdisk2
5A7598C3   0712163022 N U fscsi0
5A7598C3   0712163022 N U fscsi1
...

위의 화면과 같이 errpt 명령어에 DESCRIPTION 부분이 정상적으로 출력 되지 않습니다.

동일한 에러에 대한 정상적인 에러 상세내용

[node2:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Tue Jul 12 16:30:25 2022
Sequence Number: 3116
Machine Id:      00C5C1D74C00
Node Id:         node2
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V125-C527-T1-W500507680B312370-L0

VPD:
        Manufacturer................IBM
        Machine Type and Model......2145
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000452

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           3
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0102 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009

동일한 에러에 대한 비정상적인 에러 상세내용

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          NONEISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           U
Type:            NONE
WPAR:            Global
Resource Name:   hdisk0
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:
        Machine Type and Model......2145
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451

Detail Data

0000 0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000

또한 에러내용에 대해서 상세내용을 보면 정상적인 상세 내용에서 많은 부분이 삭제되어 출력이 됩니다.

해결 방법

그럼 해결 방법에 대해서 알아보겠습니다.

정상적인 errpt 관련 파일

[node2:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r-- 1 bin bin 199512 Jun 20 16:33 codepoint.cat
-rw-r--r-- 1 root system 515075 Jun 20 16:33 errtmplt

비정상적인 errpt 관련 파일

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r-- 1 root system 177292 Aug 18 14:26 codepoint.cat
-rw-r--r-- 1 root system 243954 Aug 18 14:19 errtmplt

errpt 명령어 관련 파일인 [codepoint.cat] 과 [errtmplt] 파일이 있습니다.

해당 파일들은 /var/adm/ras 경로에 존재합니다.

정상적인 파일과 비정상적인 파일의 용량을 비교하면 비정상적인 서버가 용량이 작다는 것을 알 수 있습니다.

해당 파일이 특정 작업으로 인해 깨지거나 파일이 변경되었을 가능성이 있습니다.

해당 에러를 해결하기 위해서는 정상적인 파일들을 복사해주시면 됩니다.

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/codepoint.cat /var/adm/ras
codepoint.cat                                                                                        100%  195KB  25.4MB/s   00:00

[node1:root]/var/adm/ras>scp root@node2:/var/adm/ras/errtmplt /var/adm/ras
errtmplt                                                                                             100%  503KB  24.7MB/s   00:00

[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat
-rw-r--r--    1 root     system       199512 Aug 18 14:45 codepoint.cat
-rw-r--r--    1 root     system       515075 Aug 18 14:45 errtmplt

[node1:root]/>errpt | more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F31FFAC3   0811170122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0811170122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0801071122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0801071122 P H hdisk0         PATH HAS FAILED
F31FFAC3   0725125222 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0725125222 P H hdisk0         PATH HAS FAILED
F31FFAC3   0717010122 I H hdisk0         PATH HAS RECOVERED
DE3B8540   0717010022 P H hdisk0         PATH HAS FAILED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712163022 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712163022 I O fscsi0         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712163022 I O fscsi1         Additional FC SCSI Protocol Driver Infor
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk0         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
DE3B8540   0712161822 P H hdisk2         PATH HAS FAILED
D5676F6F   0712161722 T H fscsi1         ATTACHED SCSI TARGET DEVICE ERROR
D5676F6F   0712161722 T H fscsi0         ATTACHED SCSI TARGET DEVICE ERROR
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk0         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
F31FFAC3   0712154622 I H hdisk2         PATH HAS RECOVERED
5A7598C3   0712154622 I O fscsi1         Additional FC SCSI Protocol Driver Infor
5A7598C3   0712154622 I O fscsi0         Additional FC SCSI Protocol Driver Infor
...

[node1:root]/>errpt -aj F31FFAC3 | more
---------------------------------------------------------------------------
LABEL:          SC_DISK_PCM_ERR9
IDENTIFIER:     F31FFAC3

Date/Time:       Thu Aug 11 17:01:36 KORST 2022
Sequence Number: 3219
Machine Id:      00C5C1D74C00
Node Id:         node1
Class:           H
Type:            INFO
WPAR:            Global
Resource Name:   hdisk0
Resource Class:  disk
Resource Type:   mpioosdisk
Location:        U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0

VPD:
        Manufacturer................IBM
        Machine Type and Model......2145
        ROS Level and ID............0000
        Device Specific.(Z0)........0000063268181002
        Device Specific.(Z1)........010020e
        Serial Number...............600507640083800F5800000000000451

Description
PATH HAS RECOVERED

Probable Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

Failure Causes
ARRAY CONTROLLER
CABLES AND CONNECTIONS

        Recommended Actions
        NO ACTION NECESSARY

Detail Data
PATH ID
           0
SENSE DATA
0600 0000 0000 0004 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0009

해당 파일들을 복사해오면 정상적으로 errpt 내용들이 출력되는 것을 확인하실 수 있습니다.

감사합니다.

'IBM시스템 > 장애이슈' 카테고리의 다른 글

[장애이슈] TTYHOG OVER-RUN(0873CF9F) 에러 (0)	2023.08.09
[장애이슈] EMX0 EEH(Enhanced I/O Error Handling) Error 조치방법 (0)	2022.07.29
[장애이슈] AIX OS 디스크 장애 조치방법(디스크 교체, OS미러링, boot설정) (0)	2022.05.02
[장애이슈] SSH 키 인증 방식 변경(ssh-rsa > ecdsa) 에 따른 서비스 장애 (0)	2022.04.24
[장애이슈] HMC Reference Code 0569 부팅 장애 (0)	2022.03.12

안녕하세요.

오늘은 UAK 값을 갱신 및 시스템에 적용하는 방법에 대해서 알아 보겠습니다.

먼저 UAK의 개념과 만료날짜에 대해서 이해하기 위해서는 지난번에 작성한 문서를 참고바랍니다.

2022.03.09 - [IBM시스템/HMC] - [HMC] Update Access Key(UAK) 개념 및 만료날짜 확인

[HMC] Update Access Key(UAK) 개념 및 만료날짜 확인

안녕하세요. 오늘은 IBM시스템의 UAK 개념에 대해서 알려드리겠습니다. UAK(Update Access Key) 란? POWER8(이상) 서버에는 시스템 펌웨어 업데이트가 시스템에 적용될 때 확인되는 UAK가 포함되어 있습니

songs-family.tistory.com

1. Update Access Key(UAK) 값 갱신

먼저 UAK 값을 갱신하는 방법에 대해서 알아보겠습니다.

https://www.ibm.com/servers/eserver/ess/index.wss

사이트에 접속해줍니다.

해당 사이트 접속 후 로그인을 해줍니다.

로그인 후 My entitle hardware > Update Access Key 메뉴로 들어갑니다.

add in single machine or upload a list (+버튼) 을 눌러줍니다.

화면에서 만료날짜를 확인할 시스템의 Machine Type 과 Serial Number 를 입력하고 Add 를 눌러줍니다

추가된 시스템은 2022-08-06 일자로 만료(expired) 된 것을 확인 할 수 있습니다.

해당 시스템에서 왼쪽 체크박스를 선택 후 키를 생성(Generate new Key) 해 줍니다.

UAK 값을 갱신을 완료 하여 기존 2022-08-06 에서 2022-12-31 날짜로 갱신되었고 상태가 Expired 에서 Active 상태로 변경되었습니다.

해당 장비는 IBM HWMA 계약이 2022년 12월 31일까지라서 12월 31일 까지만 갱신된 것을 확인 하실 수 있습니다.

계약이 여유가 있다면 6개월 단위로 UAK값이 갱신이 됩니다.

해당시스템을 선택 하여 갱신한 UAK 값을 [keys.txt] 텍스트 파일로 다운로드 할 수 있습니다.

2. Update Access Key(UAK) 값 시스템 적용 방법

발급받은 UAK 값을 시스템에 적용하기 위해서는 일반적으로 HMC에서 진행하게 됩니다.

HMC 화면에서 해당 시스템을 선택 후 COD > COD기능 > [COD코드 입력] 을 클릭합니다.

위의 창이 뜨면 발급받은 UAK값을 입력해주고 확인을 눌러 줍니다.

정상적으로 등록이 됬는지 확인을 위해서는 [COD히스토리 로그 보기] 에서 확인하거나

시스템선택 후 ASM화면에서도 확인이 가능합니다.

감사합니다.

'IBM시스템 > HMC' 카테고리의 다른 글

[HMC] windows dd를 이용한 Bootable USB 장치 생성(V9 R2 M950 Recovery 이미지) (0)	2022.04.13
[HMC] Update Access Key(UAK) 개념 및 만료날짜 확인 (0)	2022.03.09

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

빛나는불꽃

전체 글

[장애이슈] TTYHOG OVER-RUN(0873CF9F) 에러

'IBM시스템 > 장애이슈' 카테고리의 다른 글

[PowerHA] HACMP SystemMirror 7.2 구성

[장애이슈] AIX errpt 명령어 에러 출력내용 오류 수정

'IBM시스템 > 장애이슈' 카테고리의 다른 글

[HMC] Update Access Key(UAK) 값 갱신 및 시스템 적용 방법

'IBM시스템 > HMC' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역