Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d . www.SAS.com
5分鐘輕鬆建模型
【購買基金的潛在客戶在哪裡?】
SAS® Enterprise Miner 實戰講堂
課程資料集下載: http://bit.ly/emfundcus
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS ENTERPRISE MINER (EM) 介紹
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
使用者介面說明
工具列與捷徑紐
參數設定面板
參數說明面板
建模工作畫布
SEMMA工具調色盤專案視窗
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS EM 資料探勘方法論 SEMMA
ample
xplore
odify
odel
ssess
Sample
Explore
Modify
Model
Assess
探勘循環
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SEMMA的分析內涵◼ 透過適當的抽樣 (Sampling) / 變數篩選 (Filter),可以降低資料的處理量,節省系統資源。同時,在分析者
可接受的信度下,反應資料的模式 (Pattern) 及商業內涵 (Insight)。
◼ 透過敘述性的統計方法探索資料特徵,以判斷樣本的品質是否達到分析者的要求,例如:各變數本身的
次數分配是否高度偏移、遺失比例是否過高、兩兩變數間是否存在顯著的線性相關或模式等。
◼ 對資料有進一步瞭解後,分析者可透過補值 (Impute)、變數轉換 (Transform)、維度縮減、主成分分析等常
見的資料前處理方式提升樣本品質,以利後續的分析及建模表現。
◼ 針對應用目的,例如:客戶流失預測、貸款信用評分、銷售回應預測等選擇不同的機器學習模型
(Machine Learning) ,並適當地調整模型參數及最佳化演算法,以期模擬出資料隱含的商業智慧及資料模式。
◼ 透過上述一系列的資料前處理、分析及建模,SAS EM提供自動化的評估標準選取最佳模型,使得企業建
置出獨有、高價、即時的模型應用,並據此擬定具科學根據的最佳決策。
Sample
Explore
Modify
Model
Assess
資料前處理
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS EM 分析節點
Sample抽樣
Explore探索
Modify修正
Model建模
Assess評估
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
資料探勘分析流程
分析流程
定義分析目標
母體資料範圍選擇
分析變數擷取
資料驗證
遺失值處理
衍生變數產生
模型建置
模型佈署規畫
系統整合
評分結果產出
跨模型效能評估
模型調校
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 8
SAS ENTERPRISE
MINER 特點互動介面、建模流程一次完成
抽樣 觀察變數特性 資料分割
補遺失值
選重要變數
決策樹
迴歸
模型比較 預測
資料準備、建置模型、模型比較到預測流程化
介面友善、直覺,輕鬆上手
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 9
SAS ENTERPRISE
MINER 特點快速完成資料準備
拖拉點選即可完成資料準備
資料準備功能完善
Sample抽樣
Explore探索
Modify修正
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 10
SAS ENTERPRISE
MINER 特點提供多種模型與參數設定
許多參數可設定
多種模型供選擇 Model
建模
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 11
SAS ENTERPRISE
MINER 特點模型比較與預測 / 產生SAS程式
自動選出較佳模型後,進行預測
EM搭配SAS程式使用更彈性
模型比較功能:模型比較、評分…等
Assess評估
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS EM 環境設定
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
專案管理架構
分析專案(Projects)
資料館(Libraries)工作畫布
(Diagrams)
模型流程 分析節點
Datasources
Reports
Workspaces
System
EMWS1
EMWS2…
em_dgraph Ids
Part…
My Library
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 14
建立EM專案 新增專案
1. 點選開始> SAS >
SAS Enterprise Miner
2. 選擇新增專案
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 15
建立EM專案 指定專案名稱
專案檔命名方式:• 第一個字元不可以
是數字或特殊符號• 數字可以在第一個
字元後出現• 命名長度不限
1. 輸入專案名稱
2.點選瀏覽
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 16
建立EM專案 指定伺服器路徑
1.選擇路徑後按開啟
2.點選下一步
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 17
建立EM專案 正式進入EM工作環境
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 18
建立流程圖
新增專案 流程圖 資料館 資料集
1. 在流程圖點選右鍵建立流程圖
2.命名流程圖名稱
3.流程圖建立完成
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 19
建立資料館
5
新增專案 流程圖 資料館 資料集
1. 點選檔案>新增>資料館
2. 建立新的資料館,並點選下一步
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 20
建立資料館 資料館命名
資料館命名原則:• 第一個字元不可以
是數字或特殊符號• 最長長度不超過八
個字元
1.資料館命名
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 21
建立資料館 設定資料館路徑
1.設定資料館路徑後點選下一步
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 22
建立資料館 確認建立
1.點選完成
新增專案 流程圖 資料館 資料集
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 23
分析資料集匯入 選擇資料表
新增專案 流程圖 資料館 資料集
1. 在資料來源點選右鍵建立資料來源
2.下一步
3.瀏覽
4.選擇資料後點選確定
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 24
分析資料集匯入 定義變數角色
變數角色設定:主要常用變數角色:✓識別不同人的依據→ID
✓要投入到分析方法中的變數,或是投入到模型中的解釋變數→輸入✓要投入到模型中的反應變數→目標
變數層級設定:主要常用變數層級✓連續型變數→間隔✓類別型無順序變數→名目✓類別型有順序變數→序數✓類別型僅有兩類變數→二元
新增專案 流程圖 資料館 資料集
1.調整變數角色與層級
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 25
分析資料集匯入 選擇資料角色
資料角色設定:主要常用資料角色:✓並未要特別作為訓練、驗證或測試的資料→原始✓運用分析方法後要計算結果(如:分群結果)的資料,或者建模完成後要拿去預測的資料→評分✓要使用關聯規則或購物籃分析的交易資料→交易
新增專案 流程圖 資料館 資料集
1. 調整資料角色
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS EM 實戰-購買基金的潛在客戶在哪裡?
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 27
AGENDA 大綱
環境
設定
資料
匯入
資料
準備
模型
比較
建立
模型預測
建立
模型
模型
比較預測
體驗5分鐘
快速建模
現實生活
的建模
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 28
BACKGROUND 背景說明
◼ 某銀行過去在決定要針對哪些客戶行銷基金時,總是請專員針對客戶的條件一一核對,判斷客戶哪些客戶比較有可能購買基金,但是這樣的方法:
• 浪費人力• 缺乏效率
◼ 於是,某銀行決定導入SAS EM希望能使用資料探勘的方法,從過去大量資料中:
• 找出購買基金的主要條件• 從現有客戶資料,能夠快速了解此客戶是否會購買基金
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 29
DIMENSION 變數構面說明
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 30
DATA 過去行銷活動資料名稱 角色 層級 描述
add_now 輸入 名目 居住地age 輸入 間隔 年齡allprice_6mon 輸入 間隔 近半年信用卡帳單總金額allprice_6mon_bank 輸入 二元 近半年信用卡帳單總金額是否為本行asset 輸入 間隔 行內資產card 輸入 二元 是否有金融卡chi_num 輸入 間隔 子女數credit 輸入 二元 3個月內信用卡新戶credit_old 輸入 二元 是否有信用卡cus_mon 輸入 間隔 與本行往來時間
degree 輸入 序數教育;1為其它、2為高中職、3為專科、4為大學、5為碩士、6為博士
delete_insurance_creditcard 輸入 二元 近一年是否使用信用卡繳保費delete_insurance_deposit 輸入 二元 存款是否扣繳保費ebank_mon 輸入 間隔 網銀使用期間f_rate_atm 輸入 間隔 近一年使用ATM比率-外幣存款f_rate_counter 輸入 間隔 近一年使用臨櫃比率-外幣存款f_rate_ebank 輸入 間隔 近一年使用網銀比率-外幣存款f_rate_phone 輸入 間隔 近一年使用語音比率-外幣存款foreign_currency_loan 輸入 二元 是否有外幣貸款fund 目標 二元 是否在3個月內有購買基金gender 輸入 二元 性別
檔名:purchase_fund.sas7bdat觀測值個數:156666
id ID 名目 客戶編號income 輸入 間隔 年收入insurance 輸入 二元 是否有保險商品
job_g 輸入 名目
職業;1為營造業/運輸/倉儲/
水電燃料、2為製造/零售/批發、3為不動產、4為餐飲/住宿/休閒服務、5為醫療、6為專業技術、7為金融/保險、8為軍/警/
消/公務人員/教育機構、9為學生/其它/家管
liability 輸入 間隔 行內負債marry 輸入 二元 婚姻;1為單身、2為已婚prefer_f 輸入 名目 近一年偏好通路-外幣存款prefer_tw 輸入 名目 近一年偏好通路-台幣存款pro_num 輸入 間隔 持有商品總數sec_1monprice_1yr 輸入 間隔 近一年平均每月證券交易金額sec_freq_1yr 輸入 間隔 近一年證券交易次數secured_loan 輸入 二元 是否有有擔貸款tw_rate_atm 輸入 間隔 近一年使用ATM比率-台幣存款tw_rate_counter 輸入 間隔 近一年使用臨櫃比率-台幣存款tw_rate_ebank 輸入 間隔 近一年使用網銀比率-台幣存款tw_rate_phone 輸入 間隔 近一年使用語音比率-台幣存款unsecured_loan 輸入 二元 是否有無擔貸款
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 31
DATA 以前未行銷基金之現有客戶資料檔名:nofund_customers.sas7bdat觀測值個數:100
名稱 角色 層級 描述add_now 輸入 名目 居住地age 輸入 間隔 年齡allprice_6mon 輸入 間隔 近半年信用卡帳單總金額allprice_6mon_bank 輸入 二元 近半年信用卡帳單總金額是否為本行asset 輸入 間隔 行內資產card 輸入 二元 是否有金融卡chi_num 輸入 間隔 子女數credit 輸入 二元 3個月內信用卡新戶credit_old 輸入 二元 是否有信用卡cus_mon 輸入 間隔 與本行往來時間
degree 輸入 序數教育;1為其它、2為高中職、3為專科、4為大學、5為碩士、6為博士
delete_insurance_creditcard 輸入 二元 近一年是否使用信用卡繳保費delete_insurance_deposit 輸入 二元 存款是否扣繳保費ebank_mon 輸入 間隔 網銀使用期間f_rate_atm 輸入 間隔 近一年使用ATM比率-外幣存款f_rate_counter 輸入 間隔 近一年使用臨櫃比率-外幣存款f_rate_ebank 輸入 間隔 近一年使用網銀比率-外幣存款f_rate_phone 輸入 間隔 近一年使用語音比率-外幣存款foreign_currency_loan 輸入 二元 是否有外幣貸款gender 輸入 二元 性別id ID 名目 客戶編號
income 輸入 間隔 年收入insurance 輸入 二元 是否有保險商品
job_g 輸入 名目
職業;1為營造業/運輸/倉儲/
水電燃料、2為製造/零售/批發、3為不動產、4為餐飲/住宿/休閒服務、5為醫療、6為專業技術、7為金融/保險、8為軍/警/
消/公務人員/教育機構、9為學生/其它/家管
liability 輸入 間隔 行內負債marry 輸入 二元 婚姻;1為單身、2為已婚prefer_f 輸入 名目 近一年偏好通路-外幣存款prefer_tw 輸入 名目 近一年偏好通路-台幣存款pro_num 輸入 間隔 持有商品總數sec_1monprice_1yr 輸入 間隔 近一年平均每月證券交易金額sec_freq_1yr 輸入 間隔 近一年證券交易次數secured_loan 輸入 二元 是否有有擔貸款tw_rate_atm 輸入 間隔 近一年使用ATM比率-台幣存款tw_rate_counter 輸入 間隔 近一年使用臨櫃比率-台幣存款tw_rate_ebank 輸入 間隔 近一年使用網銀比率-台幣存款tw_rate_phone 輸入 間隔 近一年使用語音比率-台幣存款unsecured_loan 輸入 二元 是否有無擔貸款
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 32
SCENARIO 情境說明職員資料準備建立模式預測
主管購買基金的主要條件為?快速了解,未行銷基金客戶會購買基金機率?
過去行銷活動資料檔
抽樣 資料分割 補遺失值
建立決策樹
建立迴歸模型 模型比較
未行銷基金客戶資料檔
預測客戶會購買基金機率
觀察變數特性
轉換變數
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 33
SEMMA資料探勘分析流程及
今天會用到的節點Sample
抽樣
Explore探索
Modify修正
Model建模
Assess評估
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 34
環境設定3步驟
使用EM建模,需先決定專案存檔位置、資料位置並創造流程圖,所以先進行以下環境設定3步驟:
Step 1. 建立專案Step 2. 設置資料館Step 3. 創造流程圖
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 35
環境設定(專案) Step 1
35
1
2
34
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 36
36
環境設定(專案) Step 1
1
2
3
4
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 37
環境設定(專案) Step 1
1
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 38
環境設定(資料館) Step 2
1
2
3
4
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 39
環境設定(資料館) Step 2
1
2
3
4
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 40
環境設定(資料館) Step 2
1
2
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 41
環境設定(流程圖) Step 3
右鍵1
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
開始體驗快速建模及預測
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 43
體驗快速建模與預測體驗快速使用EM建模前,可先將事先準備好,儲存資料屬性,以及資料準備流程的XML檔開啟:
1
2
3
4
5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 44
建立模型準備好建模的資料後,就可使用EM中的許多資料探勘方法來建模:
Model 1. 決策樹-找出可區分客戶是否會購買基金的重要變數及條件Model 2. 迴歸-找出可區分客戶是否會購買基金的重要變數及條件以外,還能判斷變數的重要性
決策樹
迴歸
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 45
體驗快速建模與預測
1
2 拖曳
3 拖曳
4 拖曳5 拖曳
6
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 46
模型比較及預測前面建立兩個模型後,要找出最佳模型,再使用最佳模型預測未來客戶:
◼ 模型比較-比較前面得到的決策樹及迴歸,選出最佳模型◼ 預測未行銷基金的客戶會購買基金機率-馬上使用最佳模型判斷以前未
行銷基金的100位客戶是否會購買基金
模型比較
預測未行銷基金的客戶會購買基金機率
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 47
體驗快速建模與預測
1 2 拖曳
3 拖曳
4 拖曳
5 拖曳
6 拖曳
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 48
體驗快速建模與預測
1 拖曳
2 拖曳
右鍵3
4
5
6
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 49
體驗快速建模與預測
1
2
確認
右鍵3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 50
體驗快速建模與預測前面有看到,參數設定面板中,選取最佳模型的依據是驗證樣本的錯誤分類比率。
依照驗證樣本的錯誤分類比率,選出的最佳模型為決策樹。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 51
體驗快速建模與預測右鍵1
2
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 52
體驗快速建模與預測從這棵樹可看出,客戶的是否有無擔貸款、行內資產及跟本行往來時間就可區分出此客戶是否會購買基金。
於本行沒有無擔貸款、行內資產>=335萬、往來時間>=30個月的客戶比較可能購買基金。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 53
經過剛才的體驗,您是否覺得使用EM建模及預測非常便捷、快速呢?
但是,平常建模並沒有這麼簡單,要先將資料匯入,再經由抽樣、資料分割、補遺失值、變數轉換…等資料準備的程序,才能建構出好的模型。
所以,讓我們繼續看下去…
體驗快速建模與預測
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 54
資料匯入
後續要使用過去行銷活動資料(purchase_fund.sas7bdat)建立模型,建立好模型後,再比較哪個模型較佳,最後使用最佳模型預測以前未行銷基金之現有客戶資料(nofund_customers.sas7bdat),即預測客戶會購買基金的機率。所以需先將下列資料匯入EM中:
Data 1. purchase_fund.sas7bdatData 2. nofund_customers.sas7bdat
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 55
資料匯入(purchase_fund) Data 1
2
右鍵1
3
4
56
7
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 56
資料匯入(purchase_fund) Data 1
1
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 57
資料匯入(purchase_fund) Data 1
1
2
3
4
按shift選擇f_rate_atm
及f_rate_phone,即可選擇這4個變數
5 6
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 58
資料匯入(purchase_fund) Data 1
1
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 59
資料匯入(purchase_fund) Data 1
1 2
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 60
資料匯入(purchase_fund) Data 1
1
2
3
雙擊
4 拖曳
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 613
4
資料匯入(nofund_customers)Data 2
2
右鍵15
6
7
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 62
資料匯入(nofund_customers)Data 2
1
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 63
資料匯入(nofund_customers)Data 2
1
2
3
按shift選擇f_rate_atm
及f_rate_phone,即可選擇這4個變數
4 5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 64
資料匯入(nofund_customers)Data 2
1
3
2
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 65
資料匯入(nofund_customers)Data 2
1
2
3
4
確認
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 66
資料準備
使用過去行銷活動資料(purchase_fund.sas7bdat)建立模型以前,因為有購買基金的人數非常少,屬於稀少事件,因此可先使用抽樣,進行過度抽樣,再將樣本分為訓練及驗證樣本,並且觀察樣本的變數特性,然後將收入、證券交易次數、證券交易金額中遺失值的部分進行補值的動作,最後再將有右偏或左偏的變數進行轉換:
所以可使用EM中的哪些節點來完成上述任務呢?
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 67
資料準備5步驟Step 1. 抽取樣本-當遇到稀少事件時,為了使得事件一定可被抽到樣本中,以讓拿去建模的樣本中一定包含事件,因此會使用過度抽樣的手法Step 2. 資料分割-建模需將資料分為訓練與驗證,訓練樣本拿去建模,驗證樣本則拿來檢驗模型是否有過度配適問題Step 3. 觀察變數特性-先了解變數的特性,如:類別變數的各類人數、數值變數的平均數、標準差,及遺失值情況Step 4. 補遺失值-資料中經常有遺失值,若將這些樣本都刪除,則會損失許多資訊,所以要對遺失值進行補值的動作Step 5. 變數轉換-若之後要建置迴歸模型,迴歸模型易受到離群值的影響,若要降低離群值的影響程度,可以先試著將變數轉換成較對稱的型態
資料分區
抽取樣本
觀察變數特性
補遺失值
變數轉換
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 68
資料準備(抽取樣本) Step 1
1
2 拖曳
3 拖曳
4
右鍵5
6 7
8
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 69
資料準備(抽取樣本) Step 1
原始資料有購買基金的客戶占8.98%;經過過度抽樣後,有購買基金的客戶占50%。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 70
資料準備(資料分割) Step 2
1 拖曳
2 拖曳
3
4
右鍵5
6
7
8
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 71
資料準備(資料分割) Step 2
將70%的樣本切割為訓練資料;30%為驗證資料。兩資料中有及沒有購買基金的客戶各占一半。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 72
資料準備(觀察變數特性) Step 3
12 拖曳
3 拖曳
右鍵4
5
6
7
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 73
資料準備(觀察變數特性) Step 3
之後可針對收入、證券交易次數、證券交易金額補遺失值。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 74
按shift
5
6
7 拖曳
8
9
資料準備(補遺失值)Step 4
1 2 拖曳
3 拖曳4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 75
資料準備(補遺失值)Step 4
7
8
1
按ctrl選擇Income, sec_1monprice_1yr及sec_freq_1yr,
即可選擇這3個變數
2 3
4
右鍵5
6
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 76
資料準備(補遺失值)Step 4
在此,收入、證券交易次數及證券交易金額使用中位數進行補值後,補完的新變數命名為IMP_開頭的變數。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 77
資料準備(變數轉換)Step 5
1 拖曳
2 拖曳
3
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 78
資料準備(變數轉換)Step 5
2按shift選擇
tw_rate_phone及ebank_mon,
即可選擇這些變數
1
3
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 79
資料準備(變數轉換)Step 5
有些變數有右偏或左偏的狀況,可能會造成迴歸線的偏差,所以可考慮使用一些轉換方式,將分布狀況轉為較為對稱的趨勢。與本行往來時間、近半年信用卡帳單總金額的分布有右偏的趨勢,可考慮用對數轉換;補完遺失值的年收入之分布狀況有左偏的趨勢,可考慮用平方轉換。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 80
資料準備(變數轉換)Step 5
1
按ctrl選擇cus_mon及allprice_6mon,即可選擇這2個變數
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 81
資料準備(變數轉換)Step 5
右鍵1
2
3
4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 82
資料準備(變數轉換)Step 5
已將與本行往來時間、近半年信用卡帳單總金額及補完遺失值的年收入轉換,並存成LOG與SQR開頭的變數。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 83
建立模型、模型比較及預測準備好建模的資料後,就可使用EM中的許多資料探勘方法來建模:
Model 1. 決策樹-找出可區分客戶是否會購買基金的重要變數及條件Model 2. 迴歸-找出可區分客戶是否會購買的重要變數及條件以外,還能判斷變數的重要性
前面建立兩個模型後,要找出最佳模型,再使用最佳模型預測未來客戶:
◼ 模型比較-比較前面得到的決策樹及迴歸,選出最佳模型◼ 預測未行銷基金的客戶會購買基金機率-馬上使用最佳模型判斷以前未
行銷基金的100位客戶是否會購買基金
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 84
建立模型、模型比較及預測
1 雙擊
2 圈選
3按ctrl點選
右鍵5
6
7 雙擊右鍵8
9
4 按ctrl點選
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 85
5
6 7
建立模型、模型比較及預測
1 拖曳
2 拖曳3 拖曳
右鍵4
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 86
建立模型、模型比較及預測
1
2
3
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 87
建立模型、模型比較及預測
從此資料可知每個客戶會購買基金的機率。
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .本投影片內容,僅供學習之用,未經著者書面同意,不得以任何形式轉載、重製散播及列印。 88
EM WORKSHOP 結果主管購買基金的主要條件為?快速了解,未行銷基金客戶會購買基金機率?
◼ 從2個模型中的最佳模型-決策樹,可知客戶會購買基金的主要條件為:
• 是否有無擔貸款• 行內資產• 與本行往來時間
◼ 從前面預測所得匯出的資料可知:
• 客戶編號為20000249會購買基金的機率為0.93• 客戶編號為20000615會購買基金的機率為0.93
…
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Q & A