제 2 장 Predictive Modeling -...

제 2 장 Predictive Modeling

1. Problem Formulation(예제 data 에 대한 설명)

① BUYTEST

§한 소매업 회사가 광고인쇄물 발송(DM:Direct Mailing)여부에 대한 조사를 통하여 얻은 자료

§이 회사는 지난 24개월 동안 제품을 60$ 이상을 구입한 약 10000명의 고객에게 DM을 발송

하여 DM에 대한 응답여부, 인구·사회적 속성, 거래속성 등으로 이루어진 데이터셋을 구성하였

음

② 목표변수(Target variable)는 RESPONSE

PURCHTOT, C1, C2, C3, C4, C6, C7, ID를 제외한 나머지 변수가 입력변수로 사용됨

③ 자료분석의 목적 : 최근에 이 회사는 DM 발송에 따른 비용이 급격히 증가하고 있는 추 세

에 있으므로 이 회사입장에서는 이와 같은 데이터를 분석하여 DM 에 응답할 가능성이 높은 고

객들을 찾아내어 이들 고객들에게만 DM을 발송함으러써 DM 발송비용을 줄이고 반대로 응답

회수률을 높일 수 있는 전략을 세울 수 있기를 기대하였음

이를 위해 DM 에 응답할 가능성을 예측하는 적절한 모형을 선정하는 것이 본 자료를 분 석하

는 목적이 됨

범주 변수의 이름 변수의 내용

인구속성

AGE

INCOME

MARRIED

SEX

COA6

OWNHOME

나이(년)

년수입(단위:천달러)

1:결혼, 0:미혼

F:여자, M:남자

6개월간의 주소변경여부(1:주소변경)

집의 소유여부(1:소유)

지역소성 LOC

CLIMATE

거주지, A-H

거주지의 기온(10, 20, 30)

거래회수

BUY6

BUY12

BUY18

최근 6개월간의 구입회수



거래금액 VALUE24 지난 24개월 동안의 구입총액

신용상태 FICO 신용점수

거래속성

ORGSRC

DISCBUY

RETURN24

고객불류

할인고객 여부(1:할인고객)

지난 24개월 간 상품의 반품여부

응답

RESPONSE

PURCHTOT

C1∼C7

DM에 대한 응답여부

DM에 의한 구입총액

DM에 의한 품목별 구입액

고객번호 ID 고객번호

2. Project Preliminaries(프로젝트의 등록과 분석흐름도 작성)

① 프로젝트의 등록

② SAS 라이브러리의 등록

③ 분석흐름도 작성

Input Data Source : BUYTEST 데이터 입력 후 몇 개의 변수의 Model role 과 Measurement를 변

화시킴

Model role §RESPONSE 변수는 Target varialbe

§C1∼C7, PURCHTOT변수는 rejected

Measurement §BUY6, BUY12, BUY18 변수는 Interval

§variable 상자에서는 각 변수에 대한 분포를 도표에 의해서 살펴볼 수 있음

아래의 그림은 RESPONSE의 분포(View Distribution of RESPONSE)

View info 아이콘을 클릭한 후 막대의 임의의 부분을 클릭하면 각각의 비율을 볼 수 있음

§회귀분석을 하기 위한 완성된 분석

흐름도

3. Training and Assessment (

모형화와 평가)

① 데이터의 분할

§데이터 마이닝은 많

은 변수를 가지고 있는

대규모의 데이터를 대

상으로 하여 다양한 방

법 론에 의한 분석을

포함하고 있기 때문에

모형의 타당성을 평가

하고 여러 모형을 비교하는 작업이 필요.

§이를 위한 한가지 전략은 데이터를 분석용(training), 평가용(validation), 검증용(test) 데 이터

로 분할하여 분석용데이터를 이용하여 모형을 구축하고 평가용 또는 검증용 데이터를 이용하

여 모형의 비교나 최종적인 평가를 수행

② 회귀분석에 의한 모형화

③ 모형의 평가

Assessment 노드는 분석에 의하여 얻어진 모형을 다양한 방법으로 평가하는 노드이며 다음과 같

은 기능을 가지고 있음

§평가용과 검증용 데이터에 대한 예측력을 평가할 수 있음

§여러개의 모형에 대하여 리프트(Lift), 민감도(Sensitivity), 이익(Profit)등을 비교할 수 있음

§분류(Classification)를 위해 적절한 한계 확률값을 결정할 수 있음

④ 리프트 도표

§Assessment Tool 윈도우에서 Regression 선택하고 Name 란에 모형의 이름 입력 (모형 의 이

름을 사용자가 알아보기 쉽게 변경해줌)

§풀다운 메뉴에서 Tools → Lift Chart 선택하면 아래와 같은 평가용 데이터에 대한 리프트 도

표를 보여줌

§도표에서 아래에

그려진 그림은 Base

line 으로 모형의

구축에 대한 효과가

전혀 없는 경우를

나타내는 선으로 전체

데이터 셋을 임의로

10등분하여 %Respo

nse, %Captured

Response 및 Lift를

계산한 결과를 그린

선

4. Model Deployment(점수화)

만약 모형에 대한 평가에서 적절한 예측모형이 결정되었다면 선정된 모형을 이용하여 새로운 개

체에 대한 점수를 구할 수 있어야 함

Score 노드는 분석된 모형을 이용하여 새로운 데이터에 대한 점수를 구할 수 있을 뿐만 아니라 분

석흐름도 상의 전 과정을 SAS 데이터 스텝으로 구성된 코드로 얻을 수 있음

§점수화를 위한 분석흐름도(윗줄의 Input data source노드의 data는 새로운 데이터)

§Input data source 노

는 윈도우에서 사용할

데이터로 BUYROLL 지

정

BUYROLL은 아직

DM이 발송되지 않은

고객들에 대해서

BUYTEST 데이터셋과

유사한 정

보를 가지고 있음.

RESPONSE, PURCHTOT, C1∼C7을 뺀 나머지 변수는 포함

§Score 실행 시

킨 후 Insight 노

드로 가면 테이

블을 볼 수 있음

5. Missing V

alue Imputati

on (결측값의 보간)

모든 고객에 대해서 완전한 데이터를 얻는다는 것은 불가능한 경우가 많고, 일부 변수에 결측값

을 가지고 있는 고객에 대해서도 DM에 반응할 확률을 계산해야 할 필요가 있을 것임.

입력변수에 결측값이 존재하는 경우에 해결하는 한 가지 방법은 사전에 결측값을 보간

(Imputation)하는 것임

§Data Replacement 노드를 이용하여 결측값 보간

§Data Replacement가 추가된 분석 흐름도

6. Model Interpret

ation(모형의 해석)

① 예측모형을 만드는

가장 중요한 목적 중의

하나는 목표변수를 정

확하게 예측하는 것

§Regression 노드의

Results 선택하면 아래와 같이 나타남

§각 변수의 T-Score를 그래프적으로 표현

T-Score는 Wald-chisquare 통계량의 절대값에 제곱근을 취한 것으로 각 변수의 중요도 를 나

타내는 것

§Output을 선택하여 odds 비를 살펴보면 오즈비가 1보다 작으면 회귀계수가 음의 값을 갖는

다는 것을 말하고 그 입력변수가 목표변수의 감소방향으로 영향을 미침의 의미

7. Dimension Reduction

① Decision Tree Node에서의 차원 축약

② Variable Selection Node 에서의 차원 축약

§Variable Selection이 추가된 분석흐름도

§Target Association에

서 Chisquare를 선택한

후 setting을 눌러 원하

는 한계값을 입력

예제에서는 chisquare

field에 10 입력한 후 실

행시킴

§제거된 변수와 남은 변

수

8. Polynomial

regression Mo

dels

① 기존의 분석흐

름도에 새로운 노

드(다항회귀분석)추

가하기

§노드의 이름 변경

하기 : 오른쪽 마우

스를 클릭한후

About 클릭

② 교호작용과 이차항

의 추가

§다항회귀분석 노드에

서 Open을 눌러 화면

을 연 다음 풀다운 메뉴

에서 Tools의

Interaction Builder 선

택

§Input variable 필드에

서 AGE, MARRIED, OWNHOME, CLIMATE, BUY18, VALUED24를 선택하고 Expand 선택 →

선택된 변수들에 의한 모든 이차교호작용이 모형에 포함

다시 Input variable 필드에서 AGE, MARRIED, OWNHOME, CLIMATE, BUY18,

VALUED24를 선택하고 Polynomial 선택 → 세 변수들의 이차항이 모형에 포함

③ 변수선택 방법

의 지정

§Regression 노

드 윈도우에서

Selection

Method 선택

§M e t h o d 에서

Stepwise 선택

§Criteria(모형선

택의 기준)에서

Validation error 선택

significance level의 entry 필드를 0.2, stay 필드를 0.05로 지정

→ 매 단계에서 유의 수준 0.2이하에서 유의한 변수는 모형에 들어오고 들어온 변수 중에서 유의

수준 0.05 하에서 유의 하지 않은 변수는 제거

④ 타당성의 평가 : Assessment 노드 수행한 후

§Assessment Tool 윈도우에서 두 개의 회귀모형을 선택한 다음 풀다운 메뉴에서 Tools → Lift

chart 선택

→ 리프트 도표에서 다항회귀모형이 표준회귀모형에 비해서 예측력이 좋아졌다는 것을 볼 수 있

음

⑤ 회귀분석의 결과 보

기

§Regression Results

윈도우의 Output 선택

하면 아래와 같은 변수

과정선택과정의 요약결

과를 볼 수 있음

Date post:	06-Mar-2020
Category:	Documents
Upload:	others
View:	1 times
Download:	0 times

제 2 장 Predictive Modeling -...

Documents