[node1:root]/>who -aH Name ST Line Time Activity . system boot May 23 15:36 . run-level 2 May 23 15:36 . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old srcmstr - . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old . . May 23 15:36 old cron - . May 23 15:36 old . . May 23 15:38 old . . May 23 15:36 old LOGIN - vty0 Jul 10 14:00 old . . May 23 15:36 old . . May 23 15:36 old uprintfd - . May 23 15:36 old . . May 23 15:36 old
. . May 23 15:36 old root - pts/0 Aug 08 23:41 . root pts/1 Jul 27 03:11 old root pts/2 Jul 12 16:25 old
PowerHA는 IBM의 Reliable Scalable Cluster Technology (RSCT)에 크게 의존합니다. PowerHA는 RSCT 인식 클라이언트입니다. RSCT는 AIX와 함께 배포됩니다. RSCT에는 클러스터와 관련된 이벤트에 대한 응답을 조정하는 그룹 서비스라는 데몬이 포함되어 있습니다 (예 : 인터페이스 또는 노드 실패 또는 관리자가 클러스터 구성 변경). PowerHA V6.1까지 RSCT는 토폴로지 서비스 데몬 (topsvcs)을 사용하여 클러스터 노드, 네트워크 및 네트워크 어댑터의 오류를 모니터링했습니다. 현재 릴리스 (V7.1)에서 RSCT는 노드 간의 좌표 응답을 제공하지만 모니터링 및 통신은 CAA (Cluster Aware AIX) 인프라에서 제공됩니다.
클러스터 리포지토리 디스크에 할당된 디스크 공간은 최소 512MB, 최대 460GB여야 합니다.
디스크를 저장소 디스크(Repository Disk)로 할당한 후에는 디스크를 다른 용도로 사용할 수 없습니다.
저장소 디스크로 사용하는 디스크(Repository Disk)에 사용자 데이터가 포함되어 있지 않은지 확인하십시오.
디스크가 PowerHA SystemMirror에 의해 저장소 디스크(Repository Disk)로 식별되면 디스크의 모든 정보가 지워집니다.
[node2:root]/>smitty hacmp > Cluster Nodes and Networks > Manage Repository Disks > Add a Repository Disk
위와 같은 방법으로 Repository Disk를 추가 하실수 있습니다.
일반적으로 2개의 Repository Disk를 Active-Backup 형식으로 할당 해줍니다.
저는 hdisk9(Active), hdisk10(Backup)으로 구성하였습니다.
[node2:root]/>smitty hacmp > Cluster Nodes and Networks > Manage Repository Disks > Show Repository Disks
6. Application Scripts 등록 (Node1에서 작업)
[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resources > Configure User Applications (Scripts and Monitors) > Application Controller Scripts > Add Application Controller Scripts
리소스그룹(Resource Group)에 등록하여 HA 리소스가 시작되거나 중지될때 자동으로 실행할 수 있는 스크립트를 작성하여 등록하실 수 있습니다.
7. Service IP (VIP) 등록 (Node1에서 작업)
[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resources > Configure Service IP Labels/Addresses > Configure Service IP Labels/Addresses > Network 선택
varyoff 작업으로 통하여 node1, node2 모두 active 표시가 없도록 해줍니다.
node1 에서 VG, LV, F/S을 생성하고 exportvg 작업 후 node2 에서 importvg를 해줍니다.
이후 node1,2 에서 모두 varyoff 상태로 만들어줍니다.
9. 리소스그룹(Resouces Group) 생성 (Node1에서 작업)
[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resource Groups > Add a Resource Group
리소스그룹 이름과 node명을 입력해줍니다.
Fallback Policy 는 Naver Fallback으로 선택해줍니다.
리소스 그룹 Policy 에 대한 설명입니다.
Startup Policy : 클러스터 기동되고 리소스가 올라올 떄 어느 노드에 올라올지 결정
Fallover Policy : 현재 리소스를 가지고 있는 노드가 다운되었을 때 어느 노드로 넘길지 결정
Fallback Policy : 원래 리소스를 가지고 있던 노드가 다운되었다가 다시 복구되었을 때 원래 Active였던 노드로 리소스를 자동으로 되찾게 할 것인지 여부를 설정 (자동으로 되찾게 하면 리소스 그룹을 넘기는 도중 다운타임 발생이 불가피하므로 주로 Never Fallback으로 사용)
10. 리소스그룹(Resouces Gorup) 수정 (Node1에서 작업)
[node1:root]/>smitty hacmp > Cluster Applications and Resources > Resource Groups > Change/Show All Resources and Attributes for a Resource Group > ha_rg 리소스 그룹 선택
생성한 Service IP, Application Controller, Volume Groups 을 입력하여 ha_rg 리소스그룹 정보를 수정해 줍니다.
11. PowerHA Cluster 정보 Synchronize (Node1에서 작업)
[node1:root]/>smitty hacmp > Cluster Applications and Resources > Verify and Synchronize Cluster Configuration
node1에서 생성한 PowerHA 정보를 node2에서도 가져오도록 Sync 동작을 수행합니다.
12. PowerHA 기동
[node1:root]/>smitty clstart
node1, node2를 선택 후 PowerHA 를 기동합니다.
13. PowreHA 상태 확인
[node1:root]/>lssrc -ls clstrmgrES | grep -i state Current state: ST_STABLE [node2:root]/>lssrc -ls clstrmgrES | grep -i state Current state: ST_STABLE
[node1:root]/>clRGinfo ----------------------------------------------------------------------------- Group Name State Node ----------------------------------------------------------------------------- ha_rg ONLINE node1 OFFLINE node2
오늘은 errpt 명령어 수행시 정상적으로 에러 내용이 출력되지 않는 경우에 대해서 알아보겠습니다.
장애내용
먼저 비정상적인 경우의 출력화면을 확인해보겠습니다.
[node1:root]/>errpt | more IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION F31FFAC3 0811170122 N U hdisk0 DE3B8540 0811170122 N U hdisk0 F31FFAC3 0801071122 N U hdisk0 DE3B8540 0801071122 N U hdisk0 F31FFAC3 0725125222 N U hdisk0 DE3B8540 0725125222 N U hdisk0 F31FFAC3 0717010122 N U hdisk0 DE3B8540 0717010022 N U hdisk0 F31FFAC3 0712163022 N U hdisk0 F31FFAC3 0712163022 N U hdisk0 F31FFAC3 0712163022 N U hdisk2 F31FFAC3 0712163022 N U hdisk2 5A7598C3 0712163022 N U fscsi0 5A7598C3 0712163022 N U fscsi1 ...
위의 화면과 같이 errpt 명령어에 DESCRIPTION 부분이 정상적으로 출력 되지 않습니다.
동일한 에러에 대한 정상적인 에러 상세내용
[node2:root]/>errpt -aj F31FFAC3 | more --------------------------------------------------------------------------- LABEL: SC_DISK_PCM_ERR9 IDENTIFIER: F31FFAC3
Date/Time: Tue Jul 12 16:30:25 2022 Sequence Number: 3116 Machine Id: 00C5C1D74C00 Node Id: node2 Class: H Type: INFO WPAR: Global Resource Name: hdisk0 Resource Class: disk Resource Type: mpioosdisk Location: U9117.MMD.065C1D7-V125-C527-T1-W500507680B312370-L0
VPD: Manufacturer................IBM Machine Type and Model......2145 ROS Level and ID............0000 Device Specific.(Z0)........0000063268181002 Device Specific.(Z1)........010020e Serial Number...............600507640083800F5800000000000452
Description PATH HAS RECOVERED
Probable Causes ARRAY CONTROLLER CABLES AND CONNECTIONS
Failure Causes ARRAY CONTROLLER CABLES AND CONNECTIONS
[node1:root]/>errpt -aj F31FFAC3 | more --------------------------------------------------------------------------- LABEL: NONEISK_PCM_ERR9 IDENTIFIER: F31FFAC3
Date/Time: Thu Aug 11 17:01:36 KORST 2022 Sequence Number: 3219 Machine Id: 00C5C1D74C00 Node Id: node1 Class: U Type: NONE WPAR: Global Resource Name: hdisk0 Resource Class: disk Resource Type: mpioosdisk Location: U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0
VPD: Machine Type and Model......2145 ROS Level and ID............0000 Device Specific.(Z0)........0000063268181002 Device Specific.(Z1)........010020e Serial Number...............600507640083800F5800000000000451
또한 에러내용에 대해서 상세내용을 보면 정상적인 상세 내용에서 많은 부분이 삭제되어 출력이 됩니다.
해결 방법
그럼 해결 방법에 대해서 알아보겠습니다.
정상적인 errpt 관련 파일
[node2:root]/var/adm/ras>ls -l errtmplt codepoint.cat -rw-r--r-- 1 bin bin 199512 Jun 20 16:33 codepoint.cat -rw-r--r-- 1 root system 515075 Jun 20 16:33 errtmplt
비정상적인 errpt 관련 파일
[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat -rw-r--r-- 1 root system 177292 Aug 18 14:26 codepoint.cat -rw-r--r-- 1 root system 243954 Aug 18 14:19 errtmplt
errpt 명령어 관련 파일인 [codepoint.cat] 과 [errtmplt] 파일이 있습니다.
해당 파일들은 /var/adm/ras 경로에 존재합니다.
정상적인 파일과 비정상적인 파일의 용량을 비교하면 비정상적인 서버가 용량이 작다는 것을 알 수 있습니다.
[node1:root]/var/adm/ras>ls -l errtmplt codepoint.cat -rw-r--r-- 1 root system 199512 Aug 18 14:45 codepoint.cat -rw-r--r-- 1 root system 515075 Aug 18 14:45 errtmplt
[node1:root]/>errpt | more IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION F31FFAC3 0811170122 I H hdisk0 PATH HAS RECOVERED DE3B8540 0811170122 P H hdisk0 PATH HAS FAILED F31FFAC3 0801071122 I H hdisk0 PATH HAS RECOVERED DE3B8540 0801071122 P H hdisk0 PATH HAS FAILED F31FFAC3 0725125222 I H hdisk0 PATH HAS RECOVERED DE3B8540 0725125222 P H hdisk0 PATH HAS FAILED F31FFAC3 0717010122 I H hdisk0 PATH HAS RECOVERED DE3B8540 0717010022 P H hdisk0 PATH HAS FAILED F31FFAC3 0712163022 I H hdisk0 PATH HAS RECOVERED F31FFAC3 0712163022 I H hdisk0 PATH HAS RECOVERED F31FFAC3 0712163022 I H hdisk2 PATH HAS RECOVERED F31FFAC3 0712163022 I H hdisk2 PATH HAS RECOVERED 5A7598C3 0712163022 I O fscsi0 Additional FC SCSI Protocol Driver Infor 5A7598C3 0712163022 I O fscsi1 Additional FC SCSI Protocol Driver Infor DE3B8540 0712161822 P H hdisk0 PATH HAS FAILED DE3B8540 0712161822 P H hdisk0 PATH HAS FAILED DE3B8540 0712161822 P H hdisk2 PATH HAS FAILED DE3B8540 0712161822 P H hdisk2 PATH HAS FAILED D5676F6F 0712161722 T H fscsi1 ATTACHED SCSI TARGET DEVICE ERROR D5676F6F 0712161722 T H fscsi0 ATTACHED SCSI TARGET DEVICE ERROR F31FFAC3 0712154622 I H hdisk0 PATH HAS RECOVERED F31FFAC3 0712154622 I H hdisk0 PATH HAS RECOVERED F31FFAC3 0712154622 I H hdisk2 PATH HAS RECOVERED F31FFAC3 0712154622 I H hdisk2 PATH HAS RECOVERED 5A7598C3 0712154622 I O fscsi1 Additional FC SCSI Protocol Driver Infor 5A7598C3 0712154622 I O fscsi0 Additional FC SCSI Protocol Driver Infor ...
[node1:root]/>errpt -aj F31FFAC3 | more --------------------------------------------------------------------------- LABEL: SC_DISK_PCM_ERR9 IDENTIFIER: F31FFAC3
Date/Time: Thu Aug 11 17:01:36 KORST 2022 Sequence Number: 3219 Machine Id: 00C5C1D74C00 Node Id: node1 Class: H Type: INFO WPAR: Global Resource Name: hdisk0 Resource Class: disk Resource Type: mpioosdisk Location: U9117.MMD.065C1D7-V124-C426-T1-W500507680B212370-L0
VPD: Manufacturer................IBM Machine Type and Model......2145 ROS Level and ID............0000 Device Specific.(Z0)........0000063268181002 Device Specific.(Z1)........010020e Serial Number...............600507640083800F5800000000000451
Description PATH HAS RECOVERED
Probable Causes ARRAY CONTROLLER CABLES AND CONNECTIONS
Failure Causes ARRAY CONTROLLER CABLES AND CONNECTIONS