320x100
안녕하세요.
오늘은 OS부팅 장애이슈에 대해서 알아보겠습니다.
장애내용
OS를 시작하는 과정에서 HMC 0569 Reference Code 에서 부팅이 되지 않는 경우가 있습니다.
0569코드는 정상적인 IPL Progress Code 이며, HMC에서 설명을 보면 아래와 같은 문구를 확인할 수 있습니다.
FCS SCSI protocol device is being configured (32 bits). |
해결방법
FCS 디바이스를 비롯하여 이와 연결된 Cable, GBIC등 하드웨어의 문제로 인하여 발생할 가능성이 높습니다.
따라서 우선 하드웨어적인 점검이 필요합니다. 또한, 환경에 따라 SAN스위치의 Zoning 정보도 확인할 필요가 있습니다.
1. IBM Boot Debug 로그 수집 및 IBM 분석요청
- Boot Debug 로그 수집 방법
Procedure for data collection during recreate: 1) prepare console logging as for standard boot debug procedure 2) Have switch and storage admins standing by to collect any necessary traces/logs on their equipment 3) Run 'boot -s verbose' from open FW prompt 4) when the boot hangs at LED 569 wait about 5 minutes and press Ctrl \ (Control backslash) This will drop to the KDB > prompt Run the following commands at the prompt: --------------------- set 20 set 10 set 18 lq th -lk efcs efcs fcs0 efcs fcs2 efscsi efscsi fscsi0 efscsi fscsi2 scsidisk th * th -n cfg <-- should see one or more cfg* threads. Example: cfgmgr,cfgefscsi. Note the SLOT#s f slot# <-- slot# from previous step. If there is more than one cfg* thread, repeat "f slot#" for each thread errpt var ctctrl -D -c efcdd.fcs0 ctctrl -D -c efcdd.fcs2 ctctrl -D -c efscsidd.fscsi0 ctctrl -D -c efscsidd.fscsi2 go --------------------- This will exit KDB and resume the boot process. Assume it will remain hung on LED 569. Wait 5 minutes and press Ctrl\ to enter KDB again. |
2. 이중화 구성일 경우 일부 케이블만 절체 후 OS 부팅
- SNAP 데이터 수집 및 IBM 분석요청
- 부팅이 되었을 경우 HBA어뎁터 확인
*** HBA Adapter Error Count 확인 *** # fcstat fcs0 ... Port Speed (supported): 8 GBIT Port Speed (running): 8 GBIT Port FC ID: 0x010000 Port Type: Fabric Attention Type: Link Up Topology: Point to Point or Fabric Seconds Since Last Reset: 26057681 Transmit Statistics Receive Statistics ------------------- ------------------ Frames: 524082100 2103147775 Words: 419926096896 447265157632 LIP Count: 0 NOS Count: 0 Error Frames: 1 Dumped Frames: 0 Link Failure Count: 0 Loss of Sync Count: 4 Loss of Signal: 0 Primitive Seq Protocol Error Count: 0 Invalid Tx Word Count: 15 Invalid CRC Count: 1 ... *** HBA 광량 확인 *** 아래의 URL에서 Tool: Measure RX TX Transceiver Power 메뉴에서 efc_power tool을 다운로드 후 진행 http://ausgsa.ibm.com/projects/d/d29fa/Public_html/IO%20Support%20Site/Fibre%20Channel/FibreChannelHomePage.htm Steps to run
NOTE: the port has to be connected so device drivers can open it. Either with a wrap plug or connected to a switch or target device. TX measurement more negative than -10 dBm is bad. Replace adapter. TX: measurement of or similar to TX: 0000 -> 0.0000 mW, -INF dBm. Replace the adapter RX measurement more negative than -10 dBm, cable needs to be checked first, and then check SFP at switch or target device ( if direct-attach). Examples: # efc_power /dev/fscsi0 TX: 0e13 -> 0.3603 mW, -4.43 dBm RX: 0863 -> 0.2147 mW, -6.68 dBm |
3. 하드웨어 교체 작업
- HBA Adapter 및 GBIC 교체
- 연결된 FC Cable 교체작업
- SAN스위치 SFP 교체
감사합니다.
반응형
'IBM시스템 > 장애이슈' 카테고리의 다른 글
[장애이슈] TTYHOG OVER-RUN(0873CF9F) 에러 (0) | 2023.08.09 |
---|---|
[장애이슈] AIX errpt 명령어 에러 출력내용 오류 수정 (0) | 2022.08.18 |
[장애이슈] EMX0 EEH(Enhanced I/O Error Handling) Error 조치방법 (0) | 2022.07.29 |
[장애이슈] AIX OS 디스크 장애 조치방법(디스크 교체, OS미러링, boot설정) (0) | 2022.05.02 |
[장애이슈] SSH 키 인증 방식 변경(ssh-rsa > ecdsa) 에 따른 서비스 장애 (0) | 2022.04.24 |