+ All Categories
Home > Documents > 제 2 장 Predictive Modeling -...

제 2 장 Predictive Modeling -...

Date post: 06-Mar-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
10
제 2 장 Predictive Modeling 1. Problem Formulation( 예제 data 에 대한 설명) BUYTEST §한 소매업 회사가 광고인쇄물 발송(DM:Direct Mailing) 여부에 대한 조사를 통하여 얻은 자료 §이 회사는 지난 24개월 동안 제품을 60$ 이상을 구입한 약 10000명의 고객에게 DM 을 발송 하여 DM 에 대한 응답여부, 인구· 사회적 속성, 거래속성 등으로 이루어진 데이터셋을 구성하였 목표변수(Target variable) 는 RESPONSE PURCHTOT, C1, C2, C3, C4, C6, C7, ID를 제외한 나머지 변수가 입력변수로 사용됨 자료분석의 목적 : 최근에 이 회사는 DM 발송에 따른 비용이 급격히 증가하고 있는 추 에 있으므로 이 회사입장에서는 이와 같은 데이터를 분석하여 DM 에 응답할 가능성이 높은 고 객들을 찾아내어 이들 고객들에게만 DM 을 발송함으러써 DM 발송비용을 줄이고 반대로 응답 회수률을 높일 수 있는 전략을 세울 수 있기를 기대하였음 이를 위해 DM 에 응답할 가능성을 예측하는 적절한 모형을 선정하는 것이 본 자료를 분 석하 는 목적이 됨 범주 변수의 이름 변수의 내용 인구속성 AGE INCOME MARRIED SEX COA6 OWNHOME 나이(년) 년수입(단위:천달러) 1:결혼, 0:미혼 F:여자, M:남자 6개월간의 주소변경여부(1:주소변경) 집의 소유여부(1:소유) 지역소성 LOC CLIMATE 거주지, A- H 거주지의 기온(10, 20, 30) 거래회수 BUY6 BUY12 BUY18 최근 6개월간의 구입회수 최근 12개월간의 구입회수 최근 18 개월간의 구입회수 거래금액 VALUE24 지난 24개월 동안의 구입총액 신용상태 FICO 신용점수 거래속성 ORGSRC DISCBUY RETURN24 고객불류 할인고객 여부(1:할인고객) 지난 24개월 간 상품의 반품여부 응답 RESPONSE PURCHTOT C1 C7 DM 에 대한 응답여부 DM 에 의한 구입총액 DM 에 의한 품목별 구입액 고객번호 ID 고객번호
Transcript
Page 1: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

제 2 장 Predictive Modeling

1. Problem Formulation(예제 data 에 대한 설명)

① BUYTEST

§한 소매업 회사가 광고인쇄물 발송(DM:Direct Mailing)여부에 대한 조사를 통하여 얻은 자료

§이 회사는 지난 24개월 동안 제품을 60$ 이상을 구입한 약 10000명의 고객에게 DM을 발송

하여 DM에 대한 응답여부, 인구·사회적 속성, 거래속성 등으로 이루어진 데이터셋을 구성하였

② 목표변수(Target variable)는 RESPONSE

PURCHTOT, C1, C2, C3, C4, C6, C7, ID를 제외한 나머지 변수가 입력변수로 사용됨

③ 자료분석의 목적 : 최근에 이 회사는 DM 발송에 따른 비용이 급격히 증가하고 있는 추 세

에 있으므로 이 회사입장에서는 이와 같은 데이터를 분석하여 DM 에 응답할 가능성이 높은 고

객들을 찾아내어 이들 고객들에게만 DM을 발송함으러써 DM 발송비용을 줄이고 반대로 응답

회수률을 높일 수 있는 전략을 세울 수 있기를 기대하였음

이를 위해 DM 에 응답할 가능성을 예측하는 적절한 모형을 선정하는 것이 본 자료를 분 석하

는 목적이 됨

범주 변수의 이름 변수의 내용

인구속성

AGE

INCOME

MARRIED

SEX

COA6

OWNHOME

나이(년)

년수입(단위:천달러)

1:결혼, 0:미혼

F:여자, M:남자

6개월간의 주소변경여부(1:주소변경)

집의 소유여부(1:소유)

지역소성 LOC

CLIMATE

거주지, A-H

거주지의 기온(10, 20, 30)

거래회수

BUY6

BUY12

BUY18

최근 6개월간의 구입회수

최근 12개월간의 구입회수

최근 18개월간의 구입회수

거래금액 VALUE24 지난 24개월 동안의 구입총액

신용상태 FICO 신용점수

거래속성

ORGSRC

DISCBUY

RETURN24

고객불류

할인고객 여부(1:할인고객)

지난 24개월 간 상품의 반품여부

응답

RESPONSE

PURCHTOT

C1∼C7

DM에 대한 응답여부

DM에 의한 구입총액

DM에 의한 품목별 구입액

고객번호 ID 고객번호

Page 2: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

2. Project Preliminaries(프로젝트의 등록과 분석흐름도 작성)

① 프로젝트의 등록

② SAS 라이브러리의 등록

③ 분석흐름도 작성

Input Data Source : BUYTEST 데이터 입력 후 몇 개의 변수의 Model role 과 Measurement를 변

화시킴

Model role §RESPONSE 변수는 Target varialbe

§C1∼C7, PURCHTOT변수는 rejected

Measurement §BUY6, BUY12, BUY18 변수는 Interval

§variable 상자에서는 각 변수에 대한 분포를 도표에 의해서 살펴볼 수 있음

아래의 그림은 RESPONSE의 분포(View Distribution of RESPONSE)

View info 아이콘을 클릭한 후 막대의 임의의 부분을 클릭하면 각각의 비율을 볼 수 있음

§회귀분석을 하기 위한 완성된 분석

흐름도

3. Training and Assessment (

모형화와 평가)

① 데이터의 분할

§데이터 마이닝은 많

은 변수를 가지고 있는

대규모의 데이터를 대

상으로 하여 다양한 방

법 론에 의한 분석을

포함하고 있기 때문에

모형의 타당성을 평가

하고 여러 모형을 비교하는 작업이 필요.

§이를 위한 한가지 전략은 데이터를 분석용(training), 평가용(validation), 검증용(test) 데 이터

로 분할하여 분석용데이터를 이용하여 모형을 구축하고 평가용 또는 검증용 데이터를 이용하

여 모형의 비교나 최종적인 평가를 수행

Page 3: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

② 회귀분석에 의한 모형화

③ 모형의 평가

Assessment 노드는 분석에 의하여 얻어진 모형을 다양한 방법으로 평가하는 노드이며 다음과 같

은 기능을 가지고 있음

§평가용과 검증용 데이터에 대한 예측력을 평가할 수 있음

§여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity), 이익(Profit)등을 비교할 수 있음

§분류(Classification)를 위해 적절한 한계 확률값을 결정할 수 있음

④ 리프트 도표

§Assessment Tool 윈도우에서 Regression 선택하고 Name 란에 모형의 이름 입력 (모형 의 이

름을 사용자가 알아보기 쉽게 변경해줌)

§풀다운 메뉴에서 Tools → Lift Chart 선택하면 아래와 같은 평가용 데이터에 대한 리프트 도

표를 보여줌

Page 4: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

§도표에서 아래에

그려진 그림은 Base

line 으로 모형의

구축에 대한 효과가

전혀 없는 경우를

나타내는 선으로 전체

데이터 셋을 임의로

10등분하여 %Respo

nse, %Captured

Response 및 Lift를

계산한 결과를 그린

4. Model Deployment(점수화)

만약 모형에 대한 평가에서 적절한 예측모형이 결정되었다면 선정된 모형을 이용하여 새로운 개

체에 대한 점수를 구할 수 있어야 함

Score 노드는 분석된 모형을 이용하여 새로운 데이터에 대한 점수를 구할 수 있을 뿐만 아니라 분

석흐름도 상의 전 과정을 SAS 데이터 스텝으로 구성된 코드로 얻을 수 있음

§점수화를 위한 분석흐름도(윗줄의 Input data source노드의 data는 새로운 데이터)

§Input data source 노

는 윈도우에서 사용할

데이터로 BUYROLL 지

BUYROLL은 아직

DM이 발송되지 않은

고객들에 대해서

BUYTEST 데이터셋과

유사한 정

보를 가지고 있음.

RESPONSE, PURCHTOT, C1∼C7을 뺀 나머지 변수는 포함

Page 5: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

§Score 실행 시

킨 후 Insight 노

드로 가면 테이

블을 볼 수 있음

5. Missing V

alue Imputati

on (결측값의 보간)

모든 고객에 대해서 완전한 데이터를 얻는다는 것은 불가능한 경우가 많고, 일부 변수에 결측값

을 가지고 있는 고객에 대해서도 DM에 반응할 확률을 계산해야 할 필요가 있을 것임.

입력변수에 결측값이 존재하는 경우에 해결하는 한 가지 방법은 사전에 결측값을 보간

(Imputation)하는 것임

§Data Replacement 노드를 이용하여 결측값 보간

§Data Replacement가 추가된 분석 흐름도

6. Model Interpret

ation(모형의 해석)

① 예측모형을 만드는

가장 중요한 목적 중의

하나는 목표변수를 정

확하게 예측하는 것

§Regression 노드의

Results 선택하면 아래와 같이 나타남

§각 변수의 T-Score를 그래프적으로 표현

T-Score는 Wald-chisquare 통계량의 절대값에 제곱근을 취한 것으로 각 변수의 중요도 를 나

타내는 것

Page 6: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

§Output을 선택하여 odds 비를 살펴보면 오즈비가 1보다 작으면 회귀계수가 음의 값을 갖는

다는 것을 말하고 그 입력변수가 목표변수의 감소방향으로 영향을 미침의 의미

7. Dimension Reduction

① Decision Tree Node에서의 차원 축약

② Variable Selection Node 에서의 차원 축약

§Variable Selection이 추가된 분석흐름도

Page 7: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

§Target Association에

서 Chisquare를 선택한

후 setting을 눌러 원하

는 한계값을 입력

예제에서는 chisquare

field에 10 입력한 후 실

행시킴

§제거된 변수와 남은 변

8. Polynomial

regression Mo

dels

① 기존의 분석흐

름도에 새로운 노

드(다항회귀분석)추

가하기

§노드의 이름 변경

하기 : 오른쪽 마우

스를 클릭한후

About 클릭

Page 8: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

② 교호작용과 이차항

의 추가

§다항회귀분석 노드에

서 Open을 눌러 화면

을 연 다음 풀다운 메뉴

에서 Tools의

Interaction Builder 선

§Input variable 필드에

서 AGE, MARRIED, OWNHOME, CLIMATE, BUY18, VALUED24를 선택하고 Expand 선택 →

선택된 변수들에 의한 모든 이차교호작용이 모형에 포함

다시 Input variable 필드에서 AGE, MARRIED, OWNHOME, CLIMATE, BUY18,

VALUED24를 선택하고 Polynomial 선택 → 세 변수들의 이차항이 모형에 포함

③ 변수선택 방법

의 지정

§Regression 노

드 윈도우에서

Selection

Method 선택

§M e t h o d 에서

Stepwise 선택

§Criteria(모형선

택의 기준)에서

Validation error 선택

significance level의 entry 필드를 0.2, stay 필드를 0.05로 지정

→ 매 단계에서 유의 수준 0.2이하에서 유의한 변수는 모형에 들어오고 들어온 변수 중에서 유의

수준 0.05 하에서 유의 하지 않은 변수는 제거

Page 9: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

④ 타당성의 평가 : Assessment 노드 수행한 후

§Assessment Tool 윈도우에서 두 개의 회귀모형을 선택한 다음 풀다운 메뉴에서 Tools → Lift

chart 선택

→ 리프트 도표에서 다항회귀모형이 표준회귀모형에 비해서 예측력이 좋아졌다는 것을 볼 수 있

⑤ 회귀분석의 결과 보

§Regression Results

윈도우의 Output 선택

하면 아래와 같은 변수

과정선택과정의 요약결

과를 볼 수 있음

Page 10: 제 2 장 Predictive Modeling - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/lecture/Fall99/data_mining/regression_dm.pdf · §여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity),

Recommended