Post on 02-Jan-2016
description
transcript
PEMBENTUKAN MODEL RLBKuliah ke 8 anareg
Dosen: usman bustaman
Model building algoritm• Data collection & preparation: experimental or not
• control experiment• control experiment with covariates• confirmatory observational studies• explanatory observational studies
• (explanatory) Variable selection• Model refinement/selection• Model validation
• Focus pada kuliah 8:• (explanatory) Variable selection
Model building
AB
Model building
AB
(explanatory) Variable selection• Memilih variabel bebas yang cukup
menjelaskan/memprediksi variabel tak bebas, sehingga• Kontribusi variabel bebas lain (yang tidak masuk dalam
model) dapat diabaikan.
• Pertimbangan:• Menjelaskan (explanatory) vs Memprediksi (prediction)• Pertimbangan teoritis vs pertimbangan statistik• Omitting variable bias vs parsimony
• best subset (explanatory) variables
Sebelum itu…• Cek dependent/ndependent variabel transformasi atau
tdk?• - histogram, normality plot
• Cek hubungan antar variabel• - pearson correlation• - scatter plot matrix
Cth: Dependent var.
Cth: independent var.
How to get the best subset…• All possible regression• Forward selection• Backward elimination• Stepwise regression
How to…. All possible regression
MSE(p)
Cp
Netter, ch. 12, p. 423
How to…. All possible regression
How to… w/
• p = jumlah parameter = 1,2,3,…,P• SSRp = Sum square regression w/ p parameter (incl. β0)
• SSEp = Sum square error w/ p parameter (incl. β0)
• SSTO = Sum square total
• Goal: to find the point where adding more X variables is not worthwhile because it leads to a very small increase in R2.
𝑹𝒑𝟐
• Cth: regresi dgn hanya X4 dlm model:
Using plot 𝑹𝒑𝟐
How to… w/ MSE(p)• sangat dipengaruhi oleh p p akan ikut
• use adjusted by df ( )
• only depent on MSE use MSE(p)• Subset X yg meminimumkan MSE(p) atau mendekati
minimum sdmk shg penambahan variabel “tak berguna”
𝑹𝒑𝟐 𝑹𝒑
𝟐
𝑹𝒑𝟐 𝑹𝒂
𝟐
• Cth: regresi dgn hanya X4 dlm model:
Using MSE(p) plot
How to … w/ Cp
• Estimator
• If bias = 0
Total MSE(p)
Bias Random error
Buktikan !
How to … w/ Cp
• Jika diplot Cp vs p:
• model dgn bias kecil akan berada sekitar garis Cp = p• model yang bias akan berada di atas garis Cp = p
• So best subset is:• Memiliki nilai Cp kecil MSE kecil, atau• Bernilai sekitar p bias kecil
Bgm kalau Cp kecil tapi bias ?
Using Cp Plot
Kendala ….• All possible regression mengandung 2(p-1) model yang
harus diteliti,…. Jika p-1 = 10 ada 1024 model yang harus diteliti…
• gunakan komputer (buat algoritma)• pilih 5 atau 3 model terbaik
• sometimes inefficient
Stepwise regression• Prosedur untuk memilih best subset regression• Manual? …. Jangan buat susah hidup yg sudah susah• Gunakan Komputer !
• Steps:• 1. mulai dengan all possible RLS, hitung F*k
• F*k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat ≈ Forward selection
Stepwise regression• 2. misal X4 terpilih pada step 1, maka lakukan all possible
RLB dgn 2 variabel, lalu hitung F*k
• F*k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat
• 3. pertimbangkan adakah dari variabel X dari model pada step sebelumnya ada yang perlu di”buang” dari model, dengan kriteria F*k bernilai paling kecil dan < nilai ttt ≈ backward elimination
• 4. ulangi step 2 dan 3 hingga tak ada lagi variabel yang “layak” untuk masuk dalam model best model
How to…. w/ stepwise regression
How to…. w/ stepwise regression
How to…. w/ stepwise regression
How to…. w/ stepwise regression
How to…. w/ stepwise regression
How to…. w/ stepwise regression