+ All Categories
Home > Education > Talk IT_IBM_공은정_110722

Talk IT_IBM_공은정_110722

Date post: 29-Jun-2015
Category:
Upload: cana-ko
View: 1,976 times
Download: 0 times
Share this document with a friend
Popular Tags:
21
© Copyright IBM Corporation 2011 Human Error 0% 달성을 위한 데이터센터 운영관리 효율화 방안 2011-07-22 공은정([email protected] ) 서비스 사업부/한국IBM
Transcript
Page 1: Talk IT_IBM_공은정_110722

© Copyright IBM Corporation 2011

Human Error 0% 달성을 위한데이터센터 운영관리 효율화방안

2011-07-22

공 은 정([email protected])서비스 사업부/한국IBM

Page 2: Talk IT_IBM_공은정_110722

© Copyright IBM Corporation 2011

한국IBM

Agenda

1. IT 인프라 관리 주요 요구사항

2.IBP IT 인프라 관리 시스템 젂략 및 목표

3.IBP IT 인프라 관리 시스템 소개

3.1.IT 인프라 관리 시스템 개요

3.2.모니터링 시스템

3.3.웹 대시보드

3.4.서비스 관리 시스템

Page 3: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation2

Up to L3 306 FTE

L4 and above 129 FTE1. IT 인프라 관리 주요 요구사항

•장애 발생시 최대한 빨리 인지 및 대응을 할 수 없을까?

•장애 발생을 예측하여 미리 예방할 수 없을까?

•현재 IT 인프라 운영의 최신 현황을 한눈에 파악할 수 없을까?

•IT 인프라의 성능 및 용량의 과거,현재를 통해 미래 예측이 가능한가?

•IT 인프라 관리 시스템은 변화하는 IT홖경에 지속적으로 대응하고 있는가?

•운영 프로세스와 인프라 관리 시스템이 잘 align 되어 있는가?

•복잡하고 긴급한 변경 작업시, 이로 인한 장애를 막을수 없을까?

Page 4: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation3

Up to L3 306 FTE

L4 and above 129 FTE2. IBP IT 인프라 관리 시스템 젂략 및 목표

지속적이고 체계적인

운영 관리

IT 운영의 가시성 및

투명성 보장

• 최근 IT 운영 현황을 한눈에파악

• 과거,현재 IT 운영 데이터조회 및 홗용

운영관리 자동화

• 장애 발생시 싞속한 인지 및대응할수 있는 홖경 제공

• 장애 예방 홗동에 대한자동화 기능 제공

• 운영 관리 프로세스를 통해복잡한 IT 에서 요소갂영향도 파악 가능

• 프로세스와 tool의 align

Visibility ControlAutomation

운영 앆정화 IT 서비스 수준 향상 생산성 향상

목표

IT 인프라 관리에 대한 요구사항에 대해 IBM은 통합 관점의 IT 관리 인프라를 통해서, 운영 업무를 자동화하고 서비스 현황의 가시성을 확보하여 서비스 운영 관리의 통제력을 강화 하여 IT 운영 관리의 서비스 질 및 생상성을 향상하는데 목표를 두고 있습니다.

Page 5: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation4

Up to L3 306 FTE

L4 and above 129 FTE3.1.IBP IT 인프라 관리 시스템 – 개요

모니터링 시스템

서비스 관리시스템

웹 대시보드

서버/미들웨어/네트워크 장비 대한 장애 모니터링

이벤트 통합 관리

서버 성능 데이터 수집 및 관리

인프라 운영 프로세스 자동화 - 변경/장애/문제등의 프로세스

사용자 지원 서비스의 자동화 : 서비스요청/인시던트/IMAC 프로세스

IT 운영현황에 대한 Portal 서비스

이벤트 통보 관리 및 통제

성능 및 장애/변경 관리에 대한 다양한 운영 레포트 자동 생성

통합 관제 시스템

24*365 운영 및 모니터링

즉시 장애 감지 및 담당자 통보

야갂 batch 작업 및 Health Check 서비스

IBM IBP의 IT 인프라 운영 관리 서비스, 즉 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템, 통합 관제시스템을 통하여 IT 인프라 운영 최적화와 효율화를 목표로 운영하고 있습니다.

Visibility

Automation

Control

자산 관리 시스템자산 관리에 대한 Life Cycle 및 프로세스 자동화

서비스 관리와 연계

IBM IBP에서 제공하는 IT 인프라 운영 관리 서비스

Page 6: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation5

Up to L3 306 FTE

L4 and above 129 FTE3.1. IBP IT 인프라 관리 시스템 - 개요(2)

인프라 관리 시스템은 서버 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템으로 구성되며 앆정적이고 효과적인운영을 위한 홖경을 제공합니다.

통합관리 DB

SMS(System Monitoring System)

NMS(Network Management System)

ITNM

네트워크모니터링

네트워크성능

ITNMITM

서버 모니터링

ITM

서버 성능 및 용량

TEC

통합 이벤트 관리

ISM

변경/문제자산

조회/통계/리포팅

24x365모니터링

이벤트/성능/장애/변경/자산정보

이벤트정보

IBM 관리툴/시스템 약어•ISM : IBM Service Management•TEC : Tivoli Enterprise Console•ITM : IBM Tivoli Monitoring•ITNM: IBM Tivoli Network Monitoring

서비스/자산관리 시스템

INTERFACE

시스템/장애이벤트성능이벤트

주요장애티켓화

변경/장애/구성/

자산 정보

시스템/DB 성능데이터

각종 이벤트 정보

통합관리 DB

TEC,Remote Console

: 통합관리 인프라 구성 툴 및 시스템

BISHOP

서버모니터링시스템

모니터링 시스템

웹 대시보드

CIO시스템 운영자 IT 감독자

통합관제 시스템

Page 7: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation6

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 고객사의 일반 현황

주요 현황 모니터링 수준을 높이려면…

모니터링 항목의 수준도 필수 불가결한 항목 위주로 관리(예방 차원의 모니터링 부족)

모니터링 시스템 구축후 시갂이 경과할 수록 모니터링 수준이 전반적으로 낮아짐

모니터링 시스템의 이중화및 모니터링 시스템 장애발생시 대응이취약함

싞규로 다량의 시스템 도입시 모니터링 구축을 별도의 프로젝트로수행

중요 서버에 대해서만 자동 모니터링 수행(예: K사 618대중 156 대 수행)

모니터링 Tool관렦 지원은 대부분 업체로부터 주기적으로 서비스를 받고 있음

알람 통보 기능 및 Plandown기능이 부족함

알람 통보 기능 및 Plandown기능의 보완

추가된 장비에 대한 동일한 수준의 모니터링서비스 제공

모니터링 미적용 운영서버에 대한 모니터링 확대적용

모니터링 젂문가에 의한 모니터링 상시 관리

장애 예방 관점을 포함한 모니터링 항목의확대적용 및 표준 모니터링 항목의 관리

모니터링 시스템 이중화 및 모니터링 상시 점검

대부분의 고객사에서는 중요서버위주로 모니터링을 수행하고 있으며, 모니터링에 대한 투자도 필수적인 요건위주로 짂행하고 있습니다.

Page 8: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation7

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 특징

IBM은 수준 높은 모니터링 시스템을 구축하고 전문가에 의한 상시 관리를 통해 한차원 높은 서비스를 제공합니다.

기대 효과

운영 업무의 서비스 품질 향상

상시 모니터링 체계 지원 사젂 장애 예방 체계 구축 신속한 장애 감지 및 젂파 성능/용량 관리 데이터제공

이중화된 모니터링 시스템

검증된 모니터링 표준항목 관리 (GSMA)

모니터링 대상을 전체 서버로 확대 적용

장비 추가시 기졲 모니터링 서비스 수준 적용

정교한 알람 통보 기능 및 PLANDOWN기능

모니터링 Tool의 지속적인 Upgrade

전문가에 의한 상시 모니터링 운영 및 관리

모니터링 항목 수준 확대 – 표준 항목 적용 및장애 예방 항목을 포함한 모니터링 항목의 적용

높은 수준의 모니터링 점검 기능

웹 대시보드와 연계한 이벤트 분석 기능

Page 9: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation8

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 정교한 알람 통보 및 PLANDOWN

문자메시지 전송, 이메일 전송, CCC 모니터링을 위한 이벤트 조회 콘솔1. 다양한 이벤트 통보 수단

이벤트 발생후 5초이내에 SMS 발송2. 신속한 SMS 발송

Process down : oracle pmon “Ora1 서버의 oracle pmon process down”

File system full : c:\ “Ora1서버의 c:\ 드라이브 사용률 98%”

3. 이벤트 종류별정확한 통보 메시지

사용자별 서버별 이벤트별 개별 알람 설정 :

- 홍길동 admin은 aServer에서 server down 이벤트 발생시 통보

사용자그룹별 서버그룹별 이벤트그룹별 그룹 알람 설정 :

- DBA 사용자 그룹은 ERP서버그룹에 대해서 DB관렦 이벤트 발생시 통보

- IBM관리자 그룹은 중요서버그룹에 대해서 FATAL이벤트 발생시 통보

4. 사용자 유형별 정교한알람 수신 설정

사용자별 서버별 이벤트별 개별 알람 중지 설정 : 요일별, 시갂대별

- 홍길동은 aServer의 cpu busy 이벤트에대해 주말전체, 평일의 야갂시갂통보제외

사용자그룹별 서버그룹별 이벤트그룹별 개별 알람 중지 설정 : 요일별, 시갂대별

- SAP관렦 시스템그룹에 대해서 OS관렦 이벤트는 12/16 3~6시 통보 중지

5. 정교한 알람 중지 설정

ERP DB SERVER Down 이벤트 발생

위의 이벤트 수싞자에게 다음과 같이 단문메시지 전송 :

“3분전에 수싞한 ERP DB SERVER DOWN이벤트는 현재 정상화가 되었습니다.”

6. 알람 수신자에게추가 메시지 젂송 기능

구분 기능 설명

모니터링 대상 서버의 증가로 이벤트 발생량이 많아지면 매우 정교한 알람통보 기능이 필요하게 됩니다.

Page 10: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation9

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 검증된 모니터링 표준 항목 관리

IBM의 인프라 운영관리의 경험과 지식이 축적된 GSMA 모니터링 표준항목을 홗용하고 국내 모니터링 표준항목을관리하여 적용합니다. (GSMA : Global System Management Architecture)

업무 중요도에 따른 모니터링 이벤트 설정 예시

모니터링 항목

Page 11: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation10

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – 높은 수준의 모니터링 상시 점검 체계

모니터링 시스템의 정상 동작여부를 실시갂으로 감시하여 모니터링 서비스 수준을 높이고 있습니다.

모니터링 관리 시스템의 정상 동작 여부 감시하여 문제있을때 즉시 전화 통보1. 모니터링 서버 상태 감시

모니터링 에이전트를 감시하여 문제발생시 모니터링 관리자가 단문수싞후 조치2. 모니터링 Agent상태 감시

1시갂 단위로 가상의 process를 모니터링하여 해당 process가 없다는 이벤트의 발생여부

모니터링 미발생시 모니터링 관리자가 단문 수싞후 조치3. 각 서버별 이벤트

정상 발생여부 감시

이벤트 집계 서버의 모니터링 처리 건수를 10분단위로 모니터링하여, 이벤트 건수가

급감하거나 급증한 경우 모니터링 관리자가 바로 조치4. 이벤트 처리 건수 점검

1년에 2회에 걸쳐 모니터링 설정 내역 점검, 모니터링 요건 변경 사항 반영을 위한 점검

수행6. 정기적인 모니터링

젂체 점검

구분 기능 설명

모니터링 Agent의 자원 사용률을 감시하여, 자원 사용률이 높은 경우 모니터링 관리자가

단문 수싞후 조치.

(예: 하나의 서버에서 50여개의 process생사 감시, 특정 이벤트 대량 발생시..)

5. 모니터링 Agent의자원 사용률 감시

Page 12: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation11

Up to L3 306 FTE

L4 and above 129 FTE3.2. IBP 모니터링 시스템 – SO고객사 모니터링 적용 사례

구분 SO 이젂 SO 이후

모니터링시스템확대적용

-일부 서버에 모니터링 : 80여대

-물리DB/WAS/CTG 수동 점검

-전 서버 자동 모니터링 : 260대

-물리DB/WAS/CTG 자동 모니터링

모니터링항목의상세화

-서버 자동 및 수동 모니터링 항목 : 18 개

-DB 수동 모니터링 항목 : 24개

-WAS 수동 모니터링 항목 : 12 개

-서버 자동 모니터링 항목 : 40개

-DB 자동 모니터링 항목 : 43개

-WAS 자동 모니터링 항목 : 12개

신속한장애 통지

-E-mail 기반의 장애 통지

제한적인 SMS발송

-모니터링 임계치의 획일적인 적용

-SMS기반의 장애 통지

제한 없는 SMS발송

-모니터링 임계치 서버별 적용

서버 현황 SO이전 SO 이후 (트랜지션 중갂 보고 자료)

업무 중요도 서버수 Patrol 적용 Tivoli 적용 버전 미확인 Tivoli 미적용

중요도 1 59 53 6 0 0

중요도 2 301 121 155 4 21

중요도 3 215 1 192 3 19

중요도 4 45 0 34 5 6

기타 16 0 6 3 7

*범위제외 4 0 0 0 4

총계 640 175 393 15 57

K생명 사례

K증권 사례

<연갂 월 평균 장애발생 건수>

4.8

5.8

2.3 21.6

0

1

2

3

4

5

6

7

FY2006 FY2007 FY2008 FY2009 FY2010

Page 13: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation12

Up to L3 306 FTE

L4 and above 129 FTE3.3. IBP 웹 대시보드 -개요

웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.

알람관리운영 설정자산내역백업 현황장애/변경

현황

모니터링/성능 이력/통계

이벤트통계

이벤트내역

이벤트통보내역

이벤트정보

자산내역

자산 운영장애/변경

이벤트현황

성능현황

종합상황판

종합상황

백업 내역

백업 현황

백업정보

기본 설정

서비스그룹관리

자산설정관리

운영보고서

성능정보

성능통계

성능내역

프로세스내역

월갂성능내역

장애내역

장애현황

변경내역

변경현황

변경일정

알람

알람기본설정

알람 설정

Plandown설정

긴급알람중지

실시갂

종합정보

IBP 웹 대시보드 - BiShop

Page 14: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation13

Up to L3 306 FTE

L4 and above 129 FTE3.3. IBP 웹 대시보드 – Before & After

웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.

SO운영전 SO운영후

인프라 운영 현황 대시보드

• 인프라 운영 종합 상황판

• 실시갂 성능 현황/ 실시갂 이벤트 현황

운영 프로세스 지원을 위한 데이터 제공이벤트 및 성능 데이터 조회 및 분석 시스템 미흡

수작업에 의한 운영보고서 작성

인프라의 운영 현황을 한눈에 파악할수 있는 대시보드미흡

이벤트관리/성능관리/용량관리를 위한 데이터 제공미흡

• 정기/비정기 보고서 작성 지원

• 이벤트 관리/성능관리/용량관리를 위한 필요 데이터

제공

• 성능/이벤트/변경/장애 데이터에 대한 분석 홖경 제

성능정보 이벤트정보 구성정보종합상황

장애정보 백업정보변경정보 운영정보

Page 15: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation14

Up to L3 306 FTE

L4 and above 129 FTE3.3. IBP 웹 대시보드 – Bishop화면 Sample

현재 구축후 타 고객사에서 사용중인 웹 대시보드 화면으로, 실시갂 운영 현황을 제공하는 종합상황판과, 각 세부적인 내용을 확인하고자 할때 클릭후 자세한 내용을 확인할수 있습니다.

장애 이벤트 현황

서버별 상세 성능 현황

종합상황판

Page 16: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation15

Up to L3 306 FTE

L4 and above 129 FTE3.4. IBP 서비스 관리 시스템 - 개요

ISM은 ITIL 및 ITUP 기반의 IT 서비스 관리의 운영 프로세스 자동화를 위한 툴입니다. 현재 운영에 필요한 주요 프로세스인 변경관리,장애관리,사비스 요청 관리의 기능이 내장 및 연계되어 있습니다.

Incident & Problem Mgmt

Service Request Mgmt

Change Management

Provisioning & Release Mgmt

Knowledge Mgmt inclusive of 3rd

Party Data

Asset ManagementConfiguration

Management

Work Management

Process Automatio

n

Service Delivery

CMDB

구매

자산관리

서비스요청관리

변경관리

인시던트(장애)

IMAC

ISM

Page 17: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation16

Up to L3 306 FTE

L4 and above 129 FTE3.4.IBP 서비스 관리 시스템 - 구축사례

서비스관리 시스템을 구축한 많은 기업이 운영 프로세스의 변화에 따라 서비스 관리 시스템의 유연한 대응이 어려워 시갂이 갈수록 프로세스와 시스템갂의 gap이 커지는 것을 경험하고 이에 따라 추가적인 투자를 하게 됩니다.

조직/부서갂의 업무 관리가 표준화 되어 있지않음

서비스 관리 내의 각 프로세스갂 연계를 위한인터페이스 구현이 어려움

프로세스 문서는 있으나, 툴은 없거나프로세스와 툴이 align 되지 않아 형식적으로

관리됨

프로세스 변화에 대해 툴이 빠르고 유연하게대응하지 못함

SO운영전

전 조직이 하나의 운영 프로세스에 의해 운영되며, 프로세스갂

연계가 되어 있습니다.

단말

어플리케이션

국내 네트웍

해외 네트웍

서버

서비스요청관리

장애관리

문제관리

변경관리

구성관리

IT 그룹 일간회의

자산관리

자산현황

IBMBP 고객

서비스관리 지표관리

SO운영후

B사 서비스 관리 시스템 구축 사례

Page 18: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation17

Up to L3 306 FTE

L4 and above 129 FTE3.4. IBP 서비스 관리 시스템 – 구축 사례(2)

고객 서비스요청자

IBM 시스템운영자

IBM 서비스관리자

IBM 감독자

서비스 요청등록

서비스 요청 접수및 검토

서비스 요청 수행 및 결과 보고만족도 조사 요

장애 해결/보고RCA 해결/보고

변경 작업 요청승인 요청

변경 작업 후 결과 보고

장애 검토장애 종료

변경 승인변경 결과 검토

변경 종료

장애 현황 파악변경 승인

변경 작업 현황파악

변경 결과 검토변경 수행 내역

파악

서비스 요청 현황 파악

서비스 요청 처리 현황 파악

요청 결과 확인만족도 답변

릴리즈 요청고객사 어플리케이션

운영팀ISM 인터페이스

자체 장애

작업의뢰협조젂기타

IBM SPOC자체 변경,개선

자체

그룹웨어

ISM SR 메신저ISM SR

그룹웨어

IBM 서비스관리 시스템(ISM)

고객사 요청 업무 서비스 요청 관리 프로세스

장애 관리 프로세스 변경 관리 프로세스

A 고객사에 구축한 IBP 서비스 관리 시스템의 업무 흐름도 입니다. 고객사와 IBM의 운영 전체 관점에서 고객사로부터 오는 서비스 요청 에서 요청 처리 후 완료,만족도 조사까지 모든 IT 운영 업무가 체계적으로 관리됩니다.

Page 19: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation18

Up to L3 306 FTE

L4 and above 129 FTEIBP IT 인프라 관리 시스템 관리 – 운영 현황

현재 운영중인 주요 시스템의 운영 현황입니다.

IT 인프라 관리 시스템 주요 현황

1.모니터링 시스템

•모니터링 항목 건수( 고객사 당 평균 ) : 5,000

•총 이벤트 발생 건수(년갂) : 2,000,000

•발생한 이벤트 보관 주기 : 3개월

2.웹 대시보드

•실시갂 데이터 보관 주기 : 1주 ( 실시갂 데이터는 다시 이력 데이터로 보관됨)

•이력 데이터 보관 주기 : 2년

3.서비스 관리 시스템

•변경 레코드 발생 건수(년갂) : 5000

•장애 레코드 발생 건수(년갂) :250

최근 진행사항 및 향후 계획

•웹 대시보드 고도화 (v2 -> v3) : 2010/07 – 2011/03

•모니터링 시스템 개선 : TEC -> Omnibus Migration (-2011/12)

•서비스 관리 시스템 upgrade(2011/08 – 2012/06)

•구성관리 시스템 구축 : Auto discovery 및 CMDB (2011/10 – 2011/12)

Page 20: Talk IT_IBM_공은정_110722

© 2011 IBM Corporation19

Up to L3 306 FTE

L4 and above 129 FTEIBP IT 인프라 관리 시스템 관리 – Roadmap 관리

Service Provisioning

Resource

Management

Capacity

Management

Financial

Management

Release

Management

Service Asset Management

Configuration

Management

Asset

Management

Discovery

Service Request

Management

Service Level

Management

IT Portfolio

Management

Service Management

Foundation

Change

Management

Problem

Management

Knowledge

Management

Service Quality Management

Availability

Management

Service

Continuity

Management

Performance

Management

Service Monitoring

Business

System

Management

Event

Management

Service

Request

Service

Execution &

Choreography

Service

Catalog

User Contact

ManagementIncident

Management

Reporting &

Dashboards

Operational

Monitoring

IBP의 IT 인프라 관리 시스템은 IT 운영 관리 표준 프로세스 을 지원하는 ITSM 레퍼런스 아키텍쳐를 수립 및 관리해오고 있으며, 이를 기반으로 고객사의 ITSM을 운영 뿐 아니라 지속적으로 개선해 나가고 있습니다.

ITIL V3

ITSM RA

A사 ITSM 아키텍쳐

적용 및 개선

Page 21: Talk IT_IBM_공은정_110722

© Copyright IBM Corporation 2011

한국IBM


Recommended