Analiza panel podataka

Analiza panel podatakaBazirano na Panel Data Analysis, Bruderl

(2005)

Aleksandar ZdravkovićAleksandar Zdravković[email protected]@gmail.com

Pregled prezentacije

•Panel podaci•Koncept analize panel podataka (APP)•Fundamentalni problemi ne-eksperimentalnog istraživanja•“Differene-in-differences” estimator•“Pooled” regresija•Model sa kompozitnom slučajnom greškom (Error-component)•Estimator fiksnih efekata (fixed effects)•Primena APP

Panel podaci

• Panel podaci (Panel or longitudinal data) su kombinacija uporednih podataka i vremenskih serija – opservacije date slučajne varijable u određenom vremenskom periodu za sve jedinice posmatranja. Npr, skup opservacija o potrošnji svih pojedinačnih CEE zemalja za period 2011-2012.

Panel podaci

• Skup panel podataka istraživač može kreirati na dva načina:

• Opservacijom – primarni podaci (na bazi periodičnih anketnih isrtraživanja) ili sekundarni (uparivanjem postojećih periodičnih statističkih podataka – primer sa prethodnog slajda)

• Eksperimentom

• Primer eksperimentalnog nastanka panel podataka - Ispitivanje postojanja značajne razlike u rezultatima na ispitu sa aspekta primene tri metoda nastave statistike (poznato?)

Panel podaci

• U zavisnosti od karaktera panela, mogu se identifikovati dve strukture podataka:

• “Duge” panel serije – tipično mali broj uporednih observacija posmatranih u dužem vremenskom periodu, karakteristične za makroekonomske i finansijske analize

• “Kratke” panel serije – tipično veliki broj uporednih opservacija posmatranih u kraćem vremenskom periodu, karakteristične za mikroekonomska i sociološka istraživanja

• Ekonometrijsku analizu u domenu panel podataka je tehnički jednostavnije sprovesti i suštinski razumeti analizom “dugih” panel serija

Panel podaci

• Prednosti korišćenja panel podataka u ekonometrijskoj analizi:

• Sadrže više informacija: imaju veći varijabilitet, manju kolinearnost, daju veći broj stepeni slobode…

• Omogućavaju analizu individualnih efekata

• Sadrže informaciju o vremenskom poretku događaja

• Omogućavaju kontrolu nad problematičnim konsekvencama struktura podataka koji su rezultat ne-eksperimentalnog istraživanja

Koncept APP

• Analiza panel podataka (APP) predstavlja prirodnu ekstenziju ANOVA analize i uporedne regresije

• Primer 4_1 – uticaj bračnog statusa na zarade (4 ispitanika, 6 godina)

Koncept APP

•Primer 4_1 – uticaj bračnog statusa na zarade (4 ispitanika, 6 godina)

Koncept APP

• Posmatramo samo godinu 4, u kojoj je došlo do promene bračnog statusa dva ispitanika

• U ANOVA terminologiji, zarada bi bila proučavana (zavisna) varijabla, a bračni status “kontrolisani” faktor (nezavisna varijabla)

• Pretpostavimo da je naš cilj da ispitamo hipotezu da li osobe u braku zarađuju različito od osoba koje nisu u braku, odnosno da li postoji kauzalna veza bračno stanje -> zarada

• ANOVA i uporedna regresija bi nam dali odgovor na pitanje da li postoji statistički značajna razlika, a regresija još i informaciju o smeru kauzalne veze (osobe u braku zarađuju više – proveriti u SPSSu)

Koncept APP

• I dalje smo u godini 4…

• Rezultati uporedne regresione analize ukazuju da promena bračnog statusa rezultuje, u proseku, porastom zarade za 2500, i rezultat je statistički značajan za nivo značajnosti od 10%.

• Da li na osnovu samo ovog rezultata mi možemo da zaključimo da je naša hipoteza tačna?

• Odgovor je NE! Zašto?

Koncept APP

• Mi ne posedujemo zaista eksperimentalne podatke, gde istraživač ima mogućnost da izabere slučajan uzorak i primeni neki tretman na kontrolnu grupu.

• Umesto toga, mi imamo uzorak opservisanih podataka, koji mogu dati pristrasnu sliku ako se proizvoljno tumače – šta ako je smer kauzalne veze obrnut, tj. ljudi koji zarađuju više imaju tendenciju da stupaju češće u brak? Šta ako sposobnije osobe više zarađuju i brže ulaze u brak (problem izostavljanja uticajnih varijabli)

• Ukoliko bismo posmatrali samo godinu 4 na grafikonu, mi zaista ne bismo mogli da zaključimo ništa pouzdano o prirodi veze zavisne i nezavisne varijable.

Koncept APP

• Uporedni varijabilitet između opservacija se u terminologiji APP naziva “between” varijabilitetom

• Mogućnosti empirijskog zaključivanja samo na bazi between varijabiliteta (ako nisu čvrsto teorijski fundirana) su vrlo ograničene kao posledica ne-eksperimentalne prirode opservisanih podataka.

• Kvalitativni pomak APP se ogleda u uzimanju u obzir i varijabiliteta posmatrane varijable na nivou individualne jedinice posmatranja, npr. uzimanja u obzir kako su plata i bračni status varirali tokom svih 6 godina kod ispitanika u našem primeru

• Varijabilitet unutar jedinice posmatranja se u APP terminologiji naziva “within” varijabilitetom

Fundamentalni problemi ne-eksperimentalnog istraživanja

• Ekspirementalno istraživanje omogućava direktnu estimaciju kauzalnih efekata jer istraživač ima mogućnost direktne manipulacije uzorka i podataka putem kontrolnih tretmana

• Kod opservisanih podataka, takva mogućnost ne postoji, što značajno uvećava opasnot od pristrasnog i nepouzdanog ocenjivanja usled prisustva potencijalne endogenosti nezavisnih varijabli

• Endogenost predstavlja ključni problem ne-eksperimentalnog istraživanja

• Endogenost nije ništa drugo nego narušavanje (pete) pretpostavke klasičnog linearnog modela - Slučajne greške nisu korelisane sa vrednostima nezavisne varijable, Covar (u,X)=0

Fundamentalni problemi ne-eksperimentalnog istraživanja

• Šta uzrokuje endogenost u opservisanim podacima?

• Pristrasnost samo-izbora (Self-selection bias) i neopažena heterogenost (unobserved heterogeneity), koji su direktna posledica izostavljanja uticajne varijable u modelu. U našem primeru, postoji mogućnost da se sposobniji ljudi, koji više zarađuju, “samo-biraju” za brak. S obzirom da mi ne opažamo sposobnost, prilikom regresione analize ona će ostati u slučajnoj grešci, koja će biti visoko korelisana sa nezavisnom varijablom.

• Simultanost ili dvostruki kauzalitet, u slučaju da su osobe koje zarađuju više sklonije stupanju u brak, ali i osobe koje stupe u brak teže ka većim zaradama.

“Differnce-in-differences” estimator (DID)

• DID estimacija nije klasična ekonometrijska estimacija, ali je vrlo pouzdana u ocenjivanju kauzalnih efekata kod eksperimentalnog istraživanja.

• Koristi istovremeno i within i between informacije o varijabilitetu

• U našem slučaju DID estimaciju je moguće primeniti jer je nezavisna varijabla binomna (veštačka), što se može interpretirati kao 1=jedinica podvrgnut tretmanu, 0=jedinica nije podvrgnuta tretmanu

• U slučaju da je kontrolna (nezavisna) varijabla numerička, ovaj metod nije moguće primeniti


• Kako funkcioniše DID estimacija?

• Izračuna se within aritmetička sredina za svaku jedinicu posmatranja pre (AVBT) i posle (AVAT) “tretmana”, u našem slučaju pre treće i posle četvrte godine kad je kod dvoje ispitanika nastupila promena bračnog statusa

• Izračuna se razlika within aritmetičkih sredina posle i pre tretmana (difference…) za svaku jedinicu posmatranja, DifAB = AVAT - AVBT

ID Treated AV BT AV AT Dif AB1 no 1000 1000 0

2 no1983.33

32016.66

633.3333

33 yes 3000 3500 5004 yes 4000 4500 500


• Izračuna se between aritmetička sredina razlika iz prethodnog koraka (DifAB) posebno za jedinice posmatranja podvrgnute tretmanu (AVT) i bez tretmana (AVNT)

• Izračuna se razlika between aritmetičkih sredina tretiranih i netretiranih jedinica (…in-differences), što daje konačan DID = AVT - AVNT

AV T AV NT DID

500 16.66666 483.3333


• Logika estimacije

• Utvrditi da li je prosečna plata osoba u braku veća od osoba koje nisu u braku – between estimacija

• Utvrditi da li povećanje plate korespondira promeni bračnog stanja – within estimacija

• Rezultat estimacije sugeriše da promena bračnog stanja dovodi do rasta zarade od 483, što je znatno manje od rezultata dobijenog inicijalnom uporednom regresijom (samo u 4. godini) gde je povećanje bilo 2500.

• Neuspeh uporedne regresije da precizno i pouzdano objasni efekte bračnog statusa proizilazi iz zanemarivanja within varijabiliteta, odnosno neopažene heterogenosti

Pooled regresija

• Pitanje – Šta bi se desilo kada bismo umesto uporedne regresije za jednu godinu, ocenili regresiju koja uzima u obzir sve opservisane odnose bračnog statusa i zarade

• Pretpostavimo da inicijalno krećemo od uporednog ekonometrijskog modela

• Y(i) = β1 + β2*X(i) + u(i), u(i)-N(0, Var(u))

• Proširenje uporednog modela vremenskom dimenzijom u slučaju APP daje model sledećeg oblika

• Y(i,t) = β1 + β2*X(i,t) + u(i,t), u(i,t)-N(0, Var(u))

• Ovakav ekonometrijski model je poznat kao “pooled” regresija

Pooled regresija

• Pitanje – Da li će ocena regresionog koeficijenata dobijen pooled regresijom biti nepristrasna – odnosno biti približno jednaka DID oceni 483?

• Ukoliko pooled model ocenimo metodom najmanjih kvadrata, dobićemo ocenjenu vrednost regresionog koeficijenta 1833.33 (Uraditi u SPSSu)

• Ova ocena je preciznija od ocene na bazi uporedne regresije za godinu 4, ali je i dalje vrlo pristrasna

• Korišćenje panel podataka, iako popravlja rezultate, samo po sebi ne garantuje nepristrasnost – pooled estimacija i dalje ne uzima u obzir within varijabilitet i potencijalu neopaženu heterogenost

Model sa kompozitnom slučajnom greškom (Error-component)

• Pitanje – da li je moguće da regresionim modelom ipak dođemo do približno tačnog rezultata, odnosno nepristrasnog ocenjivanja?

• Odgovor: Da, ukoliko regresioni metod a priori eliminiše potencijalni efekat neopažene heterogenosti, odnosno endogenosti u modelu

• Ukoliko u modelu postoji neopažena heterogenost pooled regresioni model oblika

• Y(i,t) = β1 + β2*X(i,t) + u(i,t), u(i,t)-N(0, Var(u))

• ne odražava pravu specifikaciju modela.


• Neopažena heterogenost podrazumeva postojanje bitne varijable izostavljene u modelu (često i nemerljive prirode)

• Pretpostavimo je da u pooled regresiji izostavljena varijabla v(i), koja ima sledeće karakteristike:

• Razlikuje se po jedinicama posmatranja (zavisi od i)

• Za datu jedinicu posmatranja je “konstantna” u vremenu, ili preciznije rečeno ne zavisi od vremena.

• U našem primeru, pretpostavka je da izostavljena varijabla, koja meri sposobnost, razlikuje od ispitanika do ispitanika, ali je za svakog ispitanika ista za svih 6 godina


• Ukoliko izostavimo varijablu v(i) iz modela, specifikacija naše slučajne greške u(i,t) neće više biti “slučajna”, odnosno više ne važi pretpostavka u(i,t)-N(0, Var(u))

• Faktički, varijabla v(i) će predstavljati komponentu greške u(i), koja se sada sastoji od dve komponente: prave greške e(i,t)-N(0, Var(e)) i izostavljene varijable v(i), u(i,t)=e(i,t)+v(i)

• Takav model je poznat kao model sa kompozitnom greškom (Error-component)

• Y(i,t) = β1 + β2*X(i,t) + v(i) + e(i,t), e(i,t)-N(0, Var(e))


• Kako se otarasiti efekta izostavljene (često i nemerljive) varijable v(i)?

• Prva ideja – umesto originalnih vrednosti koristiti model prvih diferenci (First-difference)

• Y(i,t) – Y(i,t-1) =

= (β1 - β1) + (β2*X(i,t) - β2*X(i,t-1))+ (v(i) – v(i)) + (e(i,t) – e(i,t-1))

• dY(i,t) = β2*dX(i,t) + de(i,t)

• Diferenciranje eliminiše neopaženu heterogenost, a da pri tom ne menja prirodu regresione veze – koeficijent β2

• Međutim, ovaj metod ima svojih nedostataka, pre svega jer elimiše jedan sekvencu (poslednju) uporednih podataka, odnosno koristi manje informacija iz uzorka od pooled regresije - što u slučaju “kratkih” panela može biti veliki problem

Estimator fiksnih efekata (fixed effects)

• Estimator fiksnih efekata donosi kvalitativno poboljšanje estimacije modela sa kompozitnom greškom, jer koristi više raspoloživih informacija i uzima u obzir within varijabilitet.

• Kako funkcioniše estimator fiksnih efekata

• Izračunavamo within aritmetičku (WAV) sredinu zavisne i nezavisne varijable za svaku jedinicu posmatranja – u našem slučaju WAV wage za zaradu i WAV marr za bračni status za svakog ispitanika ponaosob

ID WAV wage WAV marr1 1000 02 2000 03 3250 0.54 4250 0.5


• Šta se dešava sa izostavljenom varijablom v(i)?

• Ako pretpostavimo da je varijabla v(i) striktno konstantna u vremenu, njena within aritmetička sredina je

• [v(i) + v(i) + v(i) + v(i) + v(i) + v(i)]/6 = v(i)

• Neovisno od toga što ne možemo da je merimo, prethodna tabela se može proširiti fiktivnom kolonom koja izražava within prosek za svakog ispitanika

ID WAV wage WAV marr WAV v(i)1 1000 0 v(i)2 2000 0 v(i)3 3250 0.5 v(i)4 4250 0.5 v(i)


• Sledeći korak je da within aritmetičku sredinu, za datu jedinicu posmatranja, oduzmemo od svake vremenske opservacije

• Ovaj postupak su APP terminologiji naziva “Time-demeaning”

• Npr., u slučaju našeg prvog ispitanika, pojedinačne vrednosti njegovih zarada se po godinama kreću 1000, 1050, 950, 1000, 1100, 900, a (within) aritmetička sredina je 1000

• Time-demeaning postupak faktički znači da se od svake opservacije zarade po vremenu oduzima within aritmetička sredina: (1000 – 1000), (1050 – 1000), (950 – 1000)…

• Tako se dobija transformisana vrednost osnovnih podataka o zaradi Twage


• Time-demeaning postupak se primenjuje i na nezavisnu varijablu, ali i hipotetički na izostavljenu varijablu

• Šta se dešava sa izostavljenom varijablom prilikom time-demeaning postupka – biva potpuno eliminisana iz modela. Zašto?

• U poslednjem koraku ocenjujemo običnu OLS regresiju sa transformisanim podacima o zavsinoj i nezavisnoj varijabli – uraditi to u SPSSu

• U našem primeru, dobija se vrednost regresionog koeficijenta 500, što je vrlo blisko pravoj vrednosti kauzalnog efekta dobijenih DID estimatorom 483.


• Videli smo da estimator fiksnih efekata ima prednosti u odnosu na alternativne metode ocenjivanja (uporedna, pooled i first-difference regresija):

• Eliminiše neopaženu heterogenost

• Koristi više informacija iz uzorka

• Daje nepristrasne ocene

• Ali ima i svojih suštinskih ograničenja, npr:

• Ne rešava problem simultanosti, koji predstavlja drugi izvor endogenosti u modelu

• Ne uzima u obzir moguće vremenske efekte

Primena APP

• Analiza panel podataka je vrlo popularna u akademskim empirijskim istraživanjima (mnogo više nego u praktičnim analizama – zašto?)

• Radovi sa analizom panel podataka se lako pišu i imaju “dobru prođu” u časopisima

• Tipičan rad sa APPom podrazumeva specifikaciju pooled/kompozitnog modela sa jednom glavnom nezavisnom eksplanatornom varijablom i većim brojem nezavisnih kontrolnih varijabli

Primena APP

• Prednosti ovakvog pristupa pisanju naučnih radova:

• Lako je preuzeti postojeći model iz literature i primeniti ga na novi set podataka

• Kada se podaci jednom ubace u softver, lako je sprovesti estimaciju pooled regresije ili estimaciju fiksnih efekata, pa i kompleksnijih panel modela ako se koriste napredniji ekonometrijski softveri (npr. Stata)

• Velika fleksibilnost u empirijskoj specifikaciji modela – varijable se lako mogu uključivati i isključivati iz modela u potrazi za “optimalnom” empirijskom specifikacijom

• Lako se demonstrira robustnost estimacije – kod radova sa APP, recenzenti nisu toliko zainteresovani za dokazivanje ispunjenosti klasičnih pretpostavki, koliko za robustnost relacija i koeficijenta determinacije, što se lako demonostrira uporednim prikazom rezultata dobijenih različitim metodama ocenjivanja ili varijacijama osnovne specifikacije modela

Primena APP

• Vratimo se na sam početak i analizu rada Impact of inlation na prvoj sesiji, podaci u fajlu primer1

• U tom radu su korišćeni panel podaci za 13 zemalja i 16 godina

• Sada znamo da su u datom radu korišćene pooled regresije panel podataka

• Za vežbanje – oceniti jednu od regresija (uticaj inflacije na BDP, investicije ili nezaposlenost) korišćenjem estimacije fiksnih efekata i proveriti robutnost estimacije – da li se veličina, znak i statistička značajnost regresionih koeficijenata i eksplanatorna moć modela značajno menjaju kada se koristi estimator fiksnih efekata?

Date post:	19-Dec-2015
Category:	Documents
Upload:	-
View:	142 times
Download:	18 times

Analiza panel podataka

Documents