© Copyright IBM Corporation 2011
Human Error 0% 달성을 위한데이터센터 운영관리 효율화방안
2011-07-22
공 은 정([email protected])서비스 사업부/한국IBM
© Copyright IBM Corporation 2011
한국IBM
Agenda
1. IT 인프라 관리 주요 요구사항
2.IBP IT 인프라 관리 시스템 젂략 및 목표
3.IBP IT 인프라 관리 시스템 소개
3.1.IT 인프라 관리 시스템 개요
3.2.모니터링 시스템
3.3.웹 대시보드
3.4.서비스 관리 시스템
© 2011 IBM Corporation2
Up to L3 306 FTE
L4 and above 129 FTE1. IT 인프라 관리 주요 요구사항
•장애 발생시 최대한 빨리 인지 및 대응을 할 수 없을까?
•장애 발생을 예측하여 미리 예방할 수 없을까?
•현재 IT 인프라 운영의 최신 현황을 한눈에 파악할 수 없을까?
•IT 인프라의 성능 및 용량의 과거,현재를 통해 미래 예측이 가능한가?
•IT 인프라 관리 시스템은 변화하는 IT홖경에 지속적으로 대응하고 있는가?
•운영 프로세스와 인프라 관리 시스템이 잘 align 되어 있는가?
•복잡하고 긴급한 변경 작업시, 이로 인한 장애를 막을수 없을까?
© 2011 IBM Corporation3
Up to L3 306 FTE
L4 and above 129 FTE2. IBP IT 인프라 관리 시스템 젂략 및 목표
지속적이고 체계적인
운영 관리
IT 운영의 가시성 및
투명성 보장
• 최근 IT 운영 현황을 한눈에파악
• 과거,현재 IT 운영 데이터조회 및 홗용
운영관리 자동화
• 장애 발생시 싞속한 인지 및대응할수 있는 홖경 제공
• 장애 예방 홗동에 대한자동화 기능 제공
• 운영 관리 프로세스를 통해복잡한 IT 에서 요소갂영향도 파악 가능
• 프로세스와 tool의 align
Visibility ControlAutomation
운영 앆정화 IT 서비스 수준 향상 생산성 향상
목표
IT 인프라 관리에 대한 요구사항에 대해 IBM은 통합 관점의 IT 관리 인프라를 통해서, 운영 업무를 자동화하고 서비스 현황의 가시성을 확보하여 서비스 운영 관리의 통제력을 강화 하여 IT 운영 관리의 서비스 질 및 생상성을 향상하는데 목표를 두고 있습니다.
© 2011 IBM Corporation4
Up to L3 306 FTE
L4 and above 129 FTE3.1.IBP IT 인프라 관리 시스템 – 개요
모니터링 시스템
서비스 관리시스템
웹 대시보드
서버/미들웨어/네트워크 장비 대한 장애 모니터링
이벤트 통합 관리
서버 성능 데이터 수집 및 관리
인프라 운영 프로세스 자동화 - 변경/장애/문제등의 프로세스
사용자 지원 서비스의 자동화 : 서비스요청/인시던트/IMAC 프로세스
IT 운영현황에 대한 Portal 서비스
이벤트 통보 관리 및 통제
성능 및 장애/변경 관리에 대한 다양한 운영 레포트 자동 생성
통합 관제 시스템
24*365 운영 및 모니터링
즉시 장애 감지 및 담당자 통보
야갂 batch 작업 및 Health Check 서비스
IBM IBP의 IT 인프라 운영 관리 서비스, 즉 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템, 통합 관제시스템을 통하여 IT 인프라 운영 최적화와 효율화를 목표로 운영하고 있습니다.
Visibility
Automation
Control
자산 관리 시스템자산 관리에 대한 Life Cycle 및 프로세스 자동화
서비스 관리와 연계
IBM IBP에서 제공하는 IT 인프라 운영 관리 서비스
© 2011 IBM Corporation5
Up to L3 306 FTE
L4 and above 129 FTE3.1. IBP IT 인프라 관리 시스템 - 개요(2)
인프라 관리 시스템은 서버 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템으로 구성되며 앆정적이고 효과적인운영을 위한 홖경을 제공합니다.
통합관리 DB
SMS(System Monitoring System)
NMS(Network Management System)
ITNM
네트워크모니터링
네트워크성능
ITNMITM
서버 모니터링
ITM
서버 성능 및 용량
TEC
통합 이벤트 관리
ISM
변경/문제자산
조회/통계/리포팅
24x365모니터링
이벤트/성능/장애/변경/자산정보
이벤트정보
IBM 관리툴/시스템 약어•ISM : IBM Service Management•TEC : Tivoli Enterprise Console•ITM : IBM Tivoli Monitoring•ITNM: IBM Tivoli Network Monitoring
서비스/자산관리 시스템
INTERFACE
시스템/장애이벤트성능이벤트
주요장애티켓화
변경/장애/구성/
자산 정보
시스템/DB 성능데이터
각종 이벤트 정보
통합관리 DB
TEC,Remote Console
: 통합관리 인프라 구성 툴 및 시스템
BISHOP
서버모니터링시스템
모니터링 시스템
웹 대시보드
CIO시스템 운영자 IT 감독자
통합관제 시스템
© 2011 IBM Corporation6
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 고객사의 일반 현황
주요 현황 모니터링 수준을 높이려면…
모니터링 항목의 수준도 필수 불가결한 항목 위주로 관리(예방 차원의 모니터링 부족)
모니터링 시스템 구축후 시갂이 경과할 수록 모니터링 수준이 전반적으로 낮아짐
모니터링 시스템의 이중화및 모니터링 시스템 장애발생시 대응이취약함
싞규로 다량의 시스템 도입시 모니터링 구축을 별도의 프로젝트로수행
중요 서버에 대해서만 자동 모니터링 수행(예: K사 618대중 156 대 수행)
모니터링 Tool관렦 지원은 대부분 업체로부터 주기적으로 서비스를 받고 있음
알람 통보 기능 및 Plandown기능이 부족함
알람 통보 기능 및 Plandown기능의 보완
추가된 장비에 대한 동일한 수준의 모니터링서비스 제공
모니터링 미적용 운영서버에 대한 모니터링 확대적용
모니터링 젂문가에 의한 모니터링 상시 관리
장애 예방 관점을 포함한 모니터링 항목의확대적용 및 표준 모니터링 항목의 관리
모니터링 시스템 이중화 및 모니터링 상시 점검
대부분의 고객사에서는 중요서버위주로 모니터링을 수행하고 있으며, 모니터링에 대한 투자도 필수적인 요건위주로 짂행하고 있습니다.
© 2011 IBM Corporation7
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 특징
IBM은 수준 높은 모니터링 시스템을 구축하고 전문가에 의한 상시 관리를 통해 한차원 높은 서비스를 제공합니다.
기대 효과
운영 업무의 서비스 품질 향상
상시 모니터링 체계 지원 사젂 장애 예방 체계 구축 신속한 장애 감지 및 젂파 성능/용량 관리 데이터제공
이중화된 모니터링 시스템
검증된 모니터링 표준항목 관리 (GSMA)
모니터링 대상을 전체 서버로 확대 적용
장비 추가시 기졲 모니터링 서비스 수준 적용
정교한 알람 통보 기능 및 PLANDOWN기능
모니터링 Tool의 지속적인 Upgrade
전문가에 의한 상시 모니터링 운영 및 관리
모니터링 항목 수준 확대 – 표준 항목 적용 및장애 예방 항목을 포함한 모니터링 항목의 적용
높은 수준의 모니터링 점검 기능
웹 대시보드와 연계한 이벤트 분석 기능
© 2011 IBM Corporation8
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 정교한 알람 통보 및 PLANDOWN
문자메시지 전송, 이메일 전송, CCC 모니터링을 위한 이벤트 조회 콘솔1. 다양한 이벤트 통보 수단
이벤트 발생후 5초이내에 SMS 발송2. 신속한 SMS 발송
Process down : oracle pmon “Ora1 서버의 oracle pmon process down”
File system full : c:\ “Ora1서버의 c:\ 드라이브 사용률 98%”
3. 이벤트 종류별정확한 통보 메시지
사용자별 서버별 이벤트별 개별 알람 설정 :
- 홍길동 admin은 aServer에서 server down 이벤트 발생시 통보
사용자그룹별 서버그룹별 이벤트그룹별 그룹 알람 설정 :
- DBA 사용자 그룹은 ERP서버그룹에 대해서 DB관렦 이벤트 발생시 통보
- IBM관리자 그룹은 중요서버그룹에 대해서 FATAL이벤트 발생시 통보
4. 사용자 유형별 정교한알람 수신 설정
사용자별 서버별 이벤트별 개별 알람 중지 설정 : 요일별, 시갂대별
- 홍길동은 aServer의 cpu busy 이벤트에대해 주말전체, 평일의 야갂시갂통보제외
사용자그룹별 서버그룹별 이벤트그룹별 개별 알람 중지 설정 : 요일별, 시갂대별
- SAP관렦 시스템그룹에 대해서 OS관렦 이벤트는 12/16 3~6시 통보 중지
5. 정교한 알람 중지 설정
ERP DB SERVER Down 이벤트 발생
위의 이벤트 수싞자에게 다음과 같이 단문메시지 전송 :
“3분전에 수싞한 ERP DB SERVER DOWN이벤트는 현재 정상화가 되었습니다.”
6. 알람 수신자에게추가 메시지 젂송 기능
구분 기능 설명
모니터링 대상 서버의 증가로 이벤트 발생량이 많아지면 매우 정교한 알람통보 기능이 필요하게 됩니다.
© 2011 IBM Corporation9
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 검증된 모니터링 표준 항목 관리
IBM의 인프라 운영관리의 경험과 지식이 축적된 GSMA 모니터링 표준항목을 홗용하고 국내 모니터링 표준항목을관리하여 적용합니다. (GSMA : Global System Management Architecture)
업무 중요도에 따른 모니터링 이벤트 설정 예시
모니터링 항목
© 2011 IBM Corporation10
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 높은 수준의 모니터링 상시 점검 체계
모니터링 시스템의 정상 동작여부를 실시갂으로 감시하여 모니터링 서비스 수준을 높이고 있습니다.
모니터링 관리 시스템의 정상 동작 여부 감시하여 문제있을때 즉시 전화 통보1. 모니터링 서버 상태 감시
모니터링 에이전트를 감시하여 문제발생시 모니터링 관리자가 단문수싞후 조치2. 모니터링 Agent상태 감시
1시갂 단위로 가상의 process를 모니터링하여 해당 process가 없다는 이벤트의 발생여부
모니터링 미발생시 모니터링 관리자가 단문 수싞후 조치3. 각 서버별 이벤트
정상 발생여부 감시
이벤트 집계 서버의 모니터링 처리 건수를 10분단위로 모니터링하여, 이벤트 건수가
급감하거나 급증한 경우 모니터링 관리자가 바로 조치4. 이벤트 처리 건수 점검
1년에 2회에 걸쳐 모니터링 설정 내역 점검, 모니터링 요건 변경 사항 반영을 위한 점검
수행6. 정기적인 모니터링
젂체 점검
구분 기능 설명
모니터링 Agent의 자원 사용률을 감시하여, 자원 사용률이 높은 경우 모니터링 관리자가
단문 수싞후 조치.
(예: 하나의 서버에서 50여개의 process생사 감시, 특정 이벤트 대량 발생시..)
5. 모니터링 Agent의자원 사용률 감시
© 2011 IBM Corporation11
Up to L3 306 FTE
L4 and above 129 FTE3.2. IBP 모니터링 시스템 – SO고객사 모니터링 적용 사례
구분 SO 이젂 SO 이후
모니터링시스템확대적용
-일부 서버에 모니터링 : 80여대
-물리DB/WAS/CTG 수동 점검
-전 서버 자동 모니터링 : 260대
-물리DB/WAS/CTG 자동 모니터링
모니터링항목의상세화
-서버 자동 및 수동 모니터링 항목 : 18 개
-DB 수동 모니터링 항목 : 24개
-WAS 수동 모니터링 항목 : 12 개
-서버 자동 모니터링 항목 : 40개
-DB 자동 모니터링 항목 : 43개
-WAS 자동 모니터링 항목 : 12개
신속한장애 통지
-E-mail 기반의 장애 통지
제한적인 SMS발송
-모니터링 임계치의 획일적인 적용
-SMS기반의 장애 통지
제한 없는 SMS발송
-모니터링 임계치 서버별 적용
서버 현황 SO이전 SO 이후 (트랜지션 중갂 보고 자료)
업무 중요도 서버수 Patrol 적용 Tivoli 적용 버전 미확인 Tivoli 미적용
중요도 1 59 53 6 0 0
중요도 2 301 121 155 4 21
중요도 3 215 1 192 3 19
중요도 4 45 0 34 5 6
기타 16 0 6 3 7
*범위제외 4 0 0 0 4
총계 640 175 393 15 57
K생명 사례
K증권 사례
<연갂 월 평균 장애발생 건수>
4.8
5.8
2.3 21.6
0
1
2
3
4
5
6
7
FY2006 FY2007 FY2008 FY2009 FY2010
© 2011 IBM Corporation12
Up to L3 306 FTE
L4 and above 129 FTE3.3. IBP 웹 대시보드 -개요
웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.
알람관리운영 설정자산내역백업 현황장애/변경
현황
모니터링/성능 이력/통계
이벤트통계
이벤트내역
이벤트통보내역
이벤트정보
자산내역
자산 운영장애/변경
이벤트현황
성능현황
종합상황판
종합상황
백업 내역
백업 현황
백업정보
기본 설정
서비스그룹관리
자산설정관리
운영보고서
성능정보
성능통계
성능내역
프로세스내역
월갂성능내역
장애내역
장애현황
변경내역
변경현황
변경일정
알람
알람기본설정
알람 설정
Plandown설정
긴급알람중지
실시갂
종합정보
IBP 웹 대시보드 - BiShop
© 2011 IBM Corporation13
Up to L3 306 FTE
L4 and above 129 FTE3.3. IBP 웹 대시보드 – Before & After
웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.
SO운영전 SO운영후
인프라 운영 현황 대시보드
• 인프라 운영 종합 상황판
• 실시갂 성능 현황/ 실시갂 이벤트 현황
운영 프로세스 지원을 위한 데이터 제공이벤트 및 성능 데이터 조회 및 분석 시스템 미흡
수작업에 의한 운영보고서 작성
인프라의 운영 현황을 한눈에 파악할수 있는 대시보드미흡
이벤트관리/성능관리/용량관리를 위한 데이터 제공미흡
• 정기/비정기 보고서 작성 지원
• 이벤트 관리/성능관리/용량관리를 위한 필요 데이터
제공
• 성능/이벤트/변경/장애 데이터에 대한 분석 홖경 제
공
성능정보 이벤트정보 구성정보종합상황
장애정보 백업정보변경정보 운영정보
© 2011 IBM Corporation14
Up to L3 306 FTE
L4 and above 129 FTE3.3. IBP 웹 대시보드 – Bishop화면 Sample
현재 구축후 타 고객사에서 사용중인 웹 대시보드 화면으로, 실시갂 운영 현황을 제공하는 종합상황판과, 각 세부적인 내용을 확인하고자 할때 클릭후 자세한 내용을 확인할수 있습니다.
장애 이벤트 현황
서버별 상세 성능 현황
종합상황판
© 2011 IBM Corporation15
Up to L3 306 FTE
L4 and above 129 FTE3.4. IBP 서비스 관리 시스템 - 개요
ISM은 ITIL 및 ITUP 기반의 IT 서비스 관리의 운영 프로세스 자동화를 위한 툴입니다. 현재 운영에 필요한 주요 프로세스인 변경관리,장애관리,사비스 요청 관리의 기능이 내장 및 연계되어 있습니다.
Incident & Problem Mgmt
Service Request Mgmt
Change Management
Provisioning & Release Mgmt
Knowledge Mgmt inclusive of 3rd
Party Data
Asset ManagementConfiguration
Management
Work Management
Process Automatio
n
Service Delivery
CMDB
구매
자산관리
서비스요청관리
변경관리
인시던트(장애)
IMAC
ISM
© 2011 IBM Corporation16
Up to L3 306 FTE
L4 and above 129 FTE3.4.IBP 서비스 관리 시스템 - 구축사례
서비스관리 시스템을 구축한 많은 기업이 운영 프로세스의 변화에 따라 서비스 관리 시스템의 유연한 대응이 어려워 시갂이 갈수록 프로세스와 시스템갂의 gap이 커지는 것을 경험하고 이에 따라 추가적인 투자를 하게 됩니다.
조직/부서갂의 업무 관리가 표준화 되어 있지않음
서비스 관리 내의 각 프로세스갂 연계를 위한인터페이스 구현이 어려움
프로세스 문서는 있으나, 툴은 없거나프로세스와 툴이 align 되지 않아 형식적으로
관리됨
프로세스 변화에 대해 툴이 빠르고 유연하게대응하지 못함
SO운영전
전 조직이 하나의 운영 프로세스에 의해 운영되며, 프로세스갂
연계가 되어 있습니다.
단말
어플리케이션
국내 네트웍
해외 네트웍
서버
서비스요청관리
장애관리
문제관리
변경관리
구성관리
IT 그룹 일간회의
자산관리
자산현황
IBMBP 고객
서비스관리 지표관리
SO운영후
B사 서비스 관리 시스템 구축 사례
© 2011 IBM Corporation17
Up to L3 306 FTE
L4 and above 129 FTE3.4. IBP 서비스 관리 시스템 – 구축 사례(2)
고객 서비스요청자
IBM 시스템운영자
IBM 서비스관리자
IBM 감독자
서비스 요청등록
서비스 요청 접수및 검토
서비스 요청 수행 및 결과 보고만족도 조사 요
청
장애 해결/보고RCA 해결/보고
변경 작업 요청승인 요청
변경 작업 후 결과 보고
장애 검토장애 종료
변경 승인변경 결과 검토
변경 종료
장애 현황 파악변경 승인
변경 작업 현황파악
변경 결과 검토변경 수행 내역
파악
서비스 요청 현황 파악
서비스 요청 처리 현황 파악
요청 결과 확인만족도 답변
릴리즈 요청고객사 어플리케이션
운영팀ISM 인터페이스
자체 장애
작업의뢰협조젂기타
IBM SPOC자체 변경,개선
자체
그룹웨어
ISM SR 메신저ISM SR
그룹웨어
IBM 서비스관리 시스템(ISM)
고객사 요청 업무 서비스 요청 관리 프로세스
장애 관리 프로세스 변경 관리 프로세스
A 고객사에 구축한 IBP 서비스 관리 시스템의 업무 흐름도 입니다. 고객사와 IBM의 운영 전체 관점에서 고객사로부터 오는 서비스 요청 에서 요청 처리 후 완료,만족도 조사까지 모든 IT 운영 업무가 체계적으로 관리됩니다.
© 2011 IBM Corporation18
Up to L3 306 FTE
L4 and above 129 FTEIBP IT 인프라 관리 시스템 관리 – 운영 현황
현재 운영중인 주요 시스템의 운영 현황입니다.
IT 인프라 관리 시스템 주요 현황
1.모니터링 시스템
•모니터링 항목 건수( 고객사 당 평균 ) : 5,000
•총 이벤트 발생 건수(년갂) : 2,000,000
•발생한 이벤트 보관 주기 : 3개월
2.웹 대시보드
•실시갂 데이터 보관 주기 : 1주 ( 실시갂 데이터는 다시 이력 데이터로 보관됨)
•이력 데이터 보관 주기 : 2년
3.서비스 관리 시스템
•변경 레코드 발생 건수(년갂) : 5000
•장애 레코드 발생 건수(년갂) :250
최근 진행사항 및 향후 계획
•웹 대시보드 고도화 (v2 -> v3) : 2010/07 – 2011/03
•모니터링 시스템 개선 : TEC -> Omnibus Migration (-2011/12)
•서비스 관리 시스템 upgrade(2011/08 – 2012/06)
•구성관리 시스템 구축 : Auto discovery 및 CMDB (2011/10 – 2011/12)
© 2011 IBM Corporation19
Up to L3 306 FTE
L4 and above 129 FTEIBP IT 인프라 관리 시스템 관리 – Roadmap 관리
Service Provisioning
Resource
Management
Capacity
Management
Financial
Management
Release
Management
Service Asset Management
Configuration
Management
Asset
Management
Discovery
Service Request
Management
Service Level
Management
IT Portfolio
Management
Service Management
Foundation
Change
Management
Problem
Management
Knowledge
Management
Service Quality Management
Availability
Management
Service
Continuity
Management
Performance
Management
Service Monitoring
Business
System
Management
Event
Management
Service
Request
Service
Execution &
Choreography
Service
Catalog
User Contact
ManagementIncident
Management
Reporting &
Dashboards
Operational
Monitoring
IBP의 IT 인프라 관리 시스템은 IT 운영 관리 표준 프로세스 을 지원하는 ITSM 레퍼런스 아키텍쳐를 수립 및 관리해오고 있으며, 이를 기반으로 고객사의 ITSM을 운영 뿐 아니라 지속적으로 개선해 나가고 있습니다.
ITIL V3
ITSM RA
A사 ITSM 아키텍쳐
적용 및 개선
© Copyright IBM Corporation 2011
한국IBM