320x100

안녕하세요.

오늘은 OS부팅 장애이슈에 대해서 알아보겠습니다.

 

장애내용

OS를 시작하는 과정에서 HMC 0569 Reference Code 에서 부팅이 되지 않는 경우가 있습니다.

0569코드는 정상적인 IPL Progress Code 이며, HMC에서 설명을 보면 아래와 같은 문구를 확인할 수 있습니다.

FCS SCSI protocol device is being configured (32 bits).

 

해결방법

FCS 디바이스를 비롯하여 이와 연결된 Cable, GBIC등 하드웨어의 문제로 인하여 발생할 가능성이 높습니다.

따라서 우선 하드웨어적인 점검이 필요합니다. 또한, 환경에 따라 SAN스위치의 Zoning 정보도 확인할 필요가 있습니다.

1. IBM Boot Debug 로그 수집 및 IBM 분석요청

 - Boot Debug 로그 수집 방법

Procedure for data collection during recreate:

1) prepare console logging as for standard boot debug procedure
2) Have switch and storage admins standing by to collect any necessary traces/logs on their equipment
3) Run 'boot -s verbose' from open FW prompt
4) when the boot hangs at LED 569 wait about 5 minutes and press Ctrl \ (Control backslash)

This will drop to the KDB > prompt
Run the following commands at the prompt:
---------------------
set 20
set 10
set 18
lq
th -lk
efcs
efcs fcs0
efcs fcs2
efscsi
efscsi fscsi0
efscsi fscsi2
scsidisk
th *
th -n cfg  <-- should see one or more cfg* threads. Example: cfgmgr,cfgefscsi. Note the SLOT#s
f slot# <-- slot# from previous step. If there is more than one cfg* thread, repeat "f slot#" for each thread
errpt
var
ctctrl -D -c efcdd.fcs0
ctctrl -D -c efcdd.fcs2
ctctrl -D -c efscsidd.fscsi0
ctctrl -D -c efscsidd.fscsi2
go
---------------------

This will exit KDB and resume the boot process. Assume it will remain hung on LED 569.
Wait 5 minutes and press Ctrl\ to enter KDB again.

2. 이중화 구성일 경우 일부 케이블만 절체 후 OS 부팅

 - SNAP 데이터 수집 및 IBM 분석요청

 - 부팅이 되었을 경우 HBA어뎁터 확인

*** HBA Adapter Error Count 확인 ***
# fcstat fcs0

...
Port Speed (supported): 8 GBIT
Port Speed (running):   8 GBIT
Port FC ID: 0x010000
Port Type: Fabric
Attention Type:   Link Up
Topology:  Point to Point or Fabric

Seconds Since Last Reset: 26057681        

        Transmit Statistics     Receive Statistics
        -------------------     ------------------
Frames: 524082100               2103147775      
Words:  419926096896            447265157632    

LIP Count: 0               
NOS Count: 0               
Error Frames:  1               
Dumped Frames: 0               
Link Failure Count: 0               
Loss of Sync Count: 4               
Loss of Signal: 0               
Primitive Seq Protocol Error Count: 0               
Invalid Tx Word Count: 15              
Invalid CRC Count: 1               
...

*** HBA 광량 확인 ***
아래의 URL에서 Tool: Measure RX TX Transceiver Power 메뉴에서 efc_power tool을 다운로드 후 진행

http://ausgsa.ibm.com/projects/d/d29fa/Public_html/IO%20Support%20Site/Fibre%20Channel/FibreChannelHomePage.htm

Steps to run
  1. copy program efc_power into a directory
  2. chmod +x efc_power
  3. ./efc_power /dev/fscsi# (with # is the fcs/fscsi adapter you want to measure)
 
NOTE: the port has to be connected so device drivers can open it. Either with a wrap plug or connected to a switch or target device.
 
TX measurement more negative than -10 dBm is bad. Replace adapter.
TX: measurement of or similar to TX: 0000 -> 0.0000 mW, -INF dBm. Replace the adapter
RX measurement more negative than -10 dBm, cable needs to be checked first, and then check SFP at switch or target device ( if direct-attach).
 
Examples:
 
# efc_power /dev/fscsi0
TX: 0e13 -> 0.3603 mW, -4.43 dBm
RX: 0863 -> 0.2147 mW, -6.68 dBm

 

3. 하드웨어 교체 작업

 - HBA Adapter 및 GBIC 교체

 - 연결된 FC Cable 교체작업

 - SAN스위치 SFP 교체

 

감사합니다.

 

반응형

+ Recent posts