+ All Categories
Home > Education > Talk IT_IBM_문현국_110722

Talk IT_IBM_문현국_110722

Date post: 29-Jun-2015
Category:
Upload: cana-ko
View: 1,328 times
Download: 0 times
Share this document with a friend
Popular Tags:
40
© Copyright IBM Corporation 2009 Human Error 0% 달성을 위한 스마트 IT 인프라 관리 2011-07-22 문현국([email protected] ) 소프트웨어그룹/한국IBM
Transcript
Page 1: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

Human Error 0% 달성을 위한스마트 IT 인프라 관리

2011-07-22

문 현 국([email protected])소프트웨어그룹/한국IBM

Page 2: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Agenda

1.Introduction Human Error

2.How to avoid human errors in IT

Page 3: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

1.Introduction Human Error

2.How to avoid human errors in IT

Page 4: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Introduction to Human Error

Definition of Human Error:

Human Error는 상황이 요구하는 것과, 사람이 의도하는 것 그리고 사람의 실제 행동이 서로 불일치 하는 경우를 말합니다.

Page 5: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Inevitability of Human Error

Source: Brown, A. (2004): Coping with Human Error in IT systems. Queue, 35-41.

Page 6: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Attention Information Bottleneck

Habit Forming

자신이 지각 하는 대로 사물을 해석Perception

Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.

Page 7: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Page 8: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

고정 임계치

Fixed thresholdalert at 11 am

Mean time to recovery

Page 9: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Dynamic 임계치

Abnormal behaviouralert at 7 am

Shortened MTTRPossibleIncident Avoidance

Page 10: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Memory Capacity

Accessibility

Logical Reasoning

인간은 항상 논리적 일 수 없음

잘못된 가정이나 유추로 인해 Error가 발생하며, 이를 해결하기 위한

시도는 종종 더 큰 재난을 부름

Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.

Page 11: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Coming back up...coming...coming

Coming...almost there!

Page 12: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Ooops!

Page 13: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

Time to get a Bigger Wrecker!

Page 14: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Limitations of Human Behavior

O...O...oohhh No!!

Page 15: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Why Do Errors Happen: Accident Causation Model

Source: Reason, J. (2000): Human error: Models and management. British Medical Journal, 320: 768-770.

Failed or

Absent Defenses

HAZARDS

Page 16: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

Canada Hinton Train Collision(1986)

Page 17: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

HintonJasfer EdsonDalehurst

여객열차

화물열차

Page 18: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

HintonJasfer EdsonDalehurst

여객열차

화물열차

Page 19: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

HintonJasfer EdsonDalehurst

여객열차

화물열차

Latent conditions

•업무환경

•피로누적

Active failures

•데드맨 알람 무력화

•비상브레이크 미작동

Accident

Page 20: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

Safety inspectors forget to replace

a valve at the Piper Bravo Oil Rig

Page 21: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What are the Consequences of Human Error?

Faulty equipment causes the

Challenger to explode on liftoff

Page 22: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

How to Avoid Human Error ? Improve System Design

System Design

User-Centered Design

Visibility

ManagingInformation

ConstrainingBehavior

Design for Errors

ReducingComplexity

Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.

We cannot change the human condition, but we can change the conditions under which humans work !

Page 23: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

What is Safety Culture?Safety culture is a term used to describe the way in which safety is managed in the workplace, and often reflects "the attitudes, beliefs, perceptions and values that employees share in relation to safety" (Cox and Cox, 1991)..

Health and Safety Executive (HSE- 영국 소재 작업 환경의 건전성과 안전 위협 요소 관리 조직)가말하는 Safety Culture를 만드는 요소는 다음과 같습니다:

1. 최고 관리자의 리더쉽과 헌신

2. 안전 관리를 위한 훌륭한 line management system

3. 전 직원의 참여

4. 효과적인 커뮤니케이션 및 합의된 목표

5. 변화를 위한 조직의 적극적 대응

6. 작업 환경의 건전성와 health에 대한 많은 관심

7. 개개인의 적극적이고 성실한 태도

How to Avoid Human Error ? Nurturing Safety Culture

만약 상위 조건 중 한 개 이상의 요인이 결핍되면, 조직은 safety monitoring 및 안전 이슈에 대한 awareness 정도가 낮아집니다.

이러한 상황에서 Human Error의 발생은 더욱 빈번해지게 됩니다.

Page 24: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

1.Introduction Human Error

2.How to avoid human errors in IT

Page 25: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Human errors most common reason for IT service outages

XX의 신용카드 고객 중 약 XXXX명의 계좌에서카드대금이 이중 결제된 것으로 나타났다. 시스템에 일부 장애가 발생했고, 이를 복구하는과정에서 전산시스템의 오류가 있었기 때문인것으로 보인다.

XXX 보험사의 주요 Batch Job 이수행이 안되어 차질을 빚었으며, 원인은 어플리케이션 설정 파일의잘못된 수정인 것으로 밝혀졌다.

XX대학교가 2007학년도 정시모집 ‘가’군합격자 조회 시스템을 운영하면서 전산직원의 실수로 15분 동안 지원자 전원이합격한 것으로 나타나 물의를 빚고 있다.

OOO outage down to 'human error'"It was human error when the wrong software was loaded during an update," Windows client marketing manager, "Code was sent out that should not have been. It shouldn't have happened."

Human Error Triggered OOO Cloud OutageAccording to OOO, the hours-long outage of its cloud service was caused by a human error. This could turn potential clients off from the service because of this incident.

Page 26: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Typical Manual Tasks and Human errors of IT Operation

전통적 인시던트/장애 관리 환경의 이슈

담당자지식및경험에의존한장애영향평가

장애복구우선순위판단착오

지연대응

타부문영향미고려

수작업관리환경 Human Error 발생 파급효과

서비스복구지연

비즈니스에영향

장애여부확인

정기점검이상징후미감지 예기치못한서비스중단

장애복구조치 잘못된조치 다른장애유발

장애내용기록 기록누락으로내용공유안됨 동일장애대응지연

Page 27: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Typical Manual Tasks and Human errors of IT Operation

전통적 변경 관리 환경의 이슈

Configuration 설정변경 잘못된설정적용

수작업관리환경 Human Error 발생 파급효과

장애유발

서비스중단

담당자지식및경험에의존한변경영향평가

업무영향판단착오

타부문영향미고려

운영업무지연

타업무에영향

어플리케이션적용

패치적용

적용누락

지연적용

착오적용

서비스중단

보안위협

Page 28: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Typical Manual Tasks and Human errors of IT Operation

가상화 환경 자원 배치 이슈

서비스신청내용확인지연확인

미확인

수작업관리환경 Human Error 발생 파급효과

OS 이미지설치및설정

OS 이미지착오적용

OS 설정착오(호스트명, 사용자, IP,

etc.)

소프트웨어/패치설치설치누락

착오적용(버전등)

네트워크장비설정 잘못된설정적용

재작업

자원 지연 제공

서비스 개발/제공 지연

경쟁력 저하

Page 29: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Typical Manual Tasks and Human errors of IT Operation

전통적 작업 관리 환경의 이슈

작업수행

작업확인

작업미수행

후행작업을먼저수행

함께수행하면안될작업을동시수행

작업수행일혼동

실행된작업을다시실행

작업실패미확인

수작업관리환경 Human Error 발생 파급효과

서비스영향

서비스지연

서비스중단

에러작업복구

미조치(작업홀드)

잘못된복구작업(재작업불가작업재작업, 다른복구작업수행, etc.)

Page 30: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Typical Manual Tasks and Human errors of IT Operation

전통적 현황/구성 관리 환경의 이슈

현황/구성정보관리

정보수집시누락

변경내용지연반영

변경내용미반영

Manual Task Human Error 파급효과

컴플라이언스이슈발생소프트웨어라이센스관리 라이센스수량확인착오

부정확 정보 발생

잘못된 영향 평가

변경에 의한 서비스 장애

Page 31: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

How to Avoid Human Error in IT ? Automation

Improve System Design

Nurturing safety culture

Automation+ +

Page 32: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

How to Avoid Human Error in IT ? Automation

ProcessIT 서비스 관리

지침/규정ITSM 기반 프로세스 자동화

Operation장애/성능 관리

변경

자원 배치

작업/타스크관리

현황/구성 관리

Service Oriented IT Management

Provisioning

Server Configuration

Network Device Configuration

Job Scheduling

IT 자산관리, 구성관리

Page 33: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Automation > Service Oriented IT management

Domain Specific Management

Consolidated

Operations

Management

Business

Service

Management

시스템

성능

네트워크

미들웨어

데이터베이스

어플리케이션

통합 관제

통합 이벤트 관리

이벤트 상관

상세 분석

서비스 중심 모델링

서비스 영향 분석

Page 34: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Automation > Provisioning & Configuration

서버/네트워크/스토리지 등하드웨어

DBMS/WAS 등 미들웨어 어플리케이션 소프트웨어

데이터 센터 인프라 시스템 (물리적 통합 인프라/가상화 자원/클라우드 컴퓨팅 환경)

자원 배치 자동화(Provisioning 자동화)

서버/네트워크 장비 configuration

Operational task 자동화

소프트웨어 분배 패치 관리

가상화 관리

이미지 관리

타스크 자동화IT현황 관리

OS 프로비저닝 서버 프로비저닝

네트워크프로비저닝

스토리지프로비저닝

SW 프로비저닝

Automation

Provisioning

Page 35: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Human Error 최소화 성공 사례 : 인시던트 관리 자동화

Page 36: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Human Error 최소화 성공 사례 : 장애 관리 자동화

Page 37: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

Human Error 최소화 성공 사례 : 가상화 환경 자원 배치 자동화

작업 수행자 실수 발생률 감소

신규 서비스 개발 기간 단축

Page 38: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

TSRM, CCMDB, etc.

ITM, ITCAM, TBSM, OMNIBus

TPM, TEM, TNCM

TWS

TAMforIT, TADDM

ITSM 기반 프로세스 자동화

Service Oriented IT Management

Provisioning

Server Configuration

Network Device Configuration

Job Scheduling

IT 자산관리, 구성관리

Process

Operation

IT 서비스 관리지침/규정

장애/성능 관리

변경

자원 배치

작업/타스크관리

현황/구성 관리

How to Avoid Human Error in IT ? Automation

Tivoli 자동화 솔루션

Page 39: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM

:

Improve System Design

Nurturing safety culture

Automation

Summary

Page 40: Talk IT_IBM_문현국_110722

© Copyright IBM Corporation 2009

한국IBM


Recommended