Analys och prediktion
av bostadsrättens pris i Stockholms innerstad
med hjälp av multipel regressionsanalys
Victor Reyes
Examensarbete inom teknisk fysik, grundnivå
Institutionen för Matematik, inriktning Matematisk Statistik
Kungliga Tekniska Högskolan
Handledare: Gunnar Englund
May 21, 2013
Abstract
The purpose of this study is to find out which factors have impact on residential andcommercial prices in Stockholm inner city, and to what extent, and to create a modelthat can predict the price. For these purposes multiple regression analysis is used. Themodel assumes that an absolute change in one factor gives a relative change in the price.Data on the final price, apartment’s and regions characteristics were collected and addedto the model. The model was improved by excluding of non-significant variables. Theresults are presented in tables and charts. With use of those importance of each factorcan be read off and the final price predicted. The final model is considered to be satisfyingthe study’s purpose.
Sammanfattning
Syftet med denna studie är att reda ut vilka faktorer som har verkan på bostadsrättens-priser i Stockholmsinnerstad och i vilken utsträckning, samt att skapa en modell som kanpredicera dessa pris. För dessa ändamål används multipel regressionsanalys. Modellenantar att en absolut förändring i en faktor ger en relativ förändring i priset. Data överslutpriset, lägenheters och områdens egenskaper samlades in och sattes in i modellen.Modellen förbättrades genom att icke-signifikanta variabler uteslöts. Resultatet presen-teras i form av tabeller och diagram. Med hjälp av dessa kan vikt av varje faktor kanoch slutpriset prediceras. Därmed anses den slutliga modellen uppfylla studiens syfte.
Innehåll
1 Inledning 3
2 Regressionsanalys. Teoretisk bakgrund 4
2.1 Den klassiska normala linjära regressionsmodellen (KLNR-modellen) . . . 42.1.1 Introduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.2 Definition och viktig terminlogi . . . . . . . . . . . . . . . . . . . 42.1.3 Antaganden till den klassiska modellen . . . . . . . . . . . . . . . 5
2.2 Minstakvadratmetod skattningen - Ordinary Least Squares estimation . 62.3 Konsekvenser av avvikilser till KLR-modellen och dess åtgärder . . . . . 7
2.3.1 Frånvaro av relevanta kovariater och närvaro av irrelevanta kovariater 72.3.2 Icke-linjäritet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.3 Heteroskedasticitet . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3.4 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3.5 Perfekt multikollinearitet . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Tester för antaganden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5 Hypotesprövning, F-test och BIC-kriterium . . . . . . . . . . . . . . . . . 10
2.5.1 Hypotesprövning . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5.2 F-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.5.3 BIC-kriterium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Indikator-kovariater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.7 White’s kovariansskattning . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.7.1 Justering för kluster . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Metod 13
3.1 Datainsamling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.1.1 Datans trovärdighet . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Förstudie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.2.1 Byggårsperiod indikators . . . . . . . . . . . . . . . . . . . . . . . 143.2.2 Områden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.2.3 Uppfyllning av antaganden . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Genomförande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Kapitel 0. INNEHÅLL
3.3.1 Utelämnande av icke signifikanta variabler . . . . . . . . . . . . . 163.3.2 Kovariater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Resultat 18
4.1 Tabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Diagram och grafer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5 Diskutioner 31
5.1 Den slutliga modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.1.1 Predikering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.1.2 Strukturtolkning . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Linjära modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.3 Slutsatser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.4 Felkällor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6 Referencer 34
2
Kapitel 1
Inledning
Innehavande av sin egen bostad har länge förknippats med hög status. Det är bådeprestigefull och bra investering in sin/sin familjs framtid och trygghet. I stora städer,speciellt i huvudstaden dit alla söker sig är det även en objekt till spekulationer. Me-delvärdet på priset på bostadsrätt i Stockjolms innerstad är nu 3 Mkr. Dessutom ärbostadsmarknaden inte särskilt transparent. Det är bara 8%1 som har hög förtroendepå mäklaren. Det är därför viktigt att förstå vilka faktorer som påverkar slutpriset ochi vilken utsträckning.Detta problem studerades med hjälp av multipel Regressionsanalys, vilket beskriver hurförändringen i en oberoende variabel orsakar förändringen i en beroende variabeln.
1http://www.fastighetsbyran.se/Pressrum/Pressmeddelanden/2010/Fortroende/
Kapitel 2
Regressionsanalys. Teoretisk bakgrund
2.1 Den klassiska normala linjära regressionsmodellen
(KLNR-modellen)
2.1.1 Introduktion
Regressionsanalys är en statistik metod som undersöker hur förändringen i en av obero-ende variabler orsakar förändringen i det beroende variabeln, när alla andra oberoendevariabler hålls fixa. Regressionsmodell är därefter en ekvation bäst anpassad till givendata. Att den är normal innebär att dess felterm är normalfördelade. Att den är lin-
jär betyder att det finns enlinjär samband mellan den beroende och dem oberoendevariablerna. Att den är klassisk innebär att den är giltig under vissa antaganden(2.1.3)
2.1.2 Definition och viktig terminlogi
Den klassiska normala linjära regressionsmodellen definieras som:
𝑦𝑖 =∑𝑘
𝑗=0 𝑥𝑖𝑗𝛽𝑗 + 𝜖𝑖; 𝑖 = 1, ..., 𝑛;
I ekvationen 𝑦𝑖 betecknar den observerade beroende variabeln som påverkasäv enmängd {𝑥𝑖𝑗}𝑘𝑗=0, oberoende eller förklarande variablerna. Dem oberoende variablernakommer att vidare kallas kovariater. {𝛽𝑗}𝑘𝑗=0 står för koefficienter för respektive kovariat𝑥𝑖𝑗. Dessa koefficienter och oftast även deras varians är okända och ska skattas med hjälpav regressionsanalys. 𝜖𝑖 är normalfördelad feltermen. Det är oftast bekvämare att skrivadet i matris form:
𝑌 = 𝑋𝛽𝑇 + 𝜖
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
där Y är en 1×k matris
𝑌 =
⎛⎜⎝ 𝑦1...𝑦𝑘
⎞⎟⎠;
X är en n×k matris
𝑋 =
⎛⎜⎝ 𝑥11 . . . 𝑥𝑛1.... . .
...𝑦1𝑘 . . . 𝑥𝑛𝑘
⎞⎟⎠;
𝛽 är 1× n matris,
𝛽 =
⎛⎜⎝ 𝛽0
...𝛽𝑛−1
⎞⎟⎠och 𝑒 är 1× k matris,
𝜖 =
⎛⎜⎝ 𝜖1...𝜖𝑘
⎞⎟⎠2.1.3 Antaganden till den klassiska modellen
För användning av KLR-modellen behövs att data uppfyller 5 grundantaganden:
1. Det finns ett linjärt samband mellan den beroende variabeln och dem förklarandeoberoende kovariaterna och feltermen.
Matematiskt uttryckt i matris form: 𝑌 = 𝑋𝛽𝑇 + 𝑒,
Eventuella avvikilser:
∙ Frånvaro av relevanta kovariater och närvaro av irrelevanta kovariater.
∙ Icke-linjäritet
2. Väntevärdet av feltermerna är lika med noll, d.v.s. att medelvärde av feltermernasdistribution är noll.
Matematiskt uttryckt i matris form: 𝐸[𝑒] = 0
3. Alla feltermerna har samma varians(homoskedastiska), korrelerar inte med varand-ra och är normalfördelade.
Matematiskt uttryckt i matris form: 𝐸[𝑒𝑒′] = 𝜎𝐼
Eventuella avvikilser:
5
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
∙ Heteroskedasticitet
4. Antal observationer är större än antal oberoende variabler samt det finns inte någonperfekt linjär samband emellan oberoende variabler.
Matematiskt uttryckt i matris form: 𝑟𝑎𝑛𝑔𝑋 ≤ 𝑁
Eventuella avvikilser:
∙ Perfekt multikoliniaritet
2.2 Minstakvadratmetod skattningen - Ordinary Le-
ast Squares estimation
Minsta kvadratmetod skattningen (på engelska Ordinary Least Squares - OLS) är sta-tistik metod som bäst skattar okända parametrar under KLR-modellens antaganden1(antagandendiskuteras i kapitel 2.1.3). Metoden skattar 𝛽 sa att feltermernas kvadratsumma mini-meras. Skattningen av någon parameter med hjälp av OLS-metod betecknas med hatt.Som exempel, betecknas skattningen av 𝛽 som 𝛽. Under KMR-modellens antagandenhar OLS-skattningen följande egenskaper:
∙ Minimerar feltermernas kvadratsumma. Det följer ur definitionen.
∙ Ger den högsta 𝑅2.
∙ Är väntevärdesriktig skattning.
∙ Är bäst väntevärdesriktig skattning emellan alla möjliga skattningarna.
∙ Asymptotiskt väntevärdesriktig.
1Econometrics, sida 43
6
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
Tabell 2.1: OLS definitioner
Matematiskt uttryckt Förklaring
𝑌 = 𝑋𝛽𝑇 + 𝜖 KLR-modellen
𝛽 = (𝑋𝑇𝑋)−1𝑋𝑇𝑌 OLS-skattningen av 𝛽
𝜖 = 𝑌 −𝑋𝛽 OLS-skattningen av feltermen
𝑋𝑇 𝜖 = 0 minimeras feltermernas kvadratsumma
𝐶𝑜𝑣(𝛽|𝑋) = (𝑋𝑇𝑋)−1|𝜖|2(𝑛−𝑘−1) OLS-skattningen av varians-kovariansmatris
𝐸(𝛽|𝑋) = 𝛽OLS-skattningen av 𝛽 är väntevärdesriktig skatt-ning
2.3 Konsekvenser av avvikilser till KLR-modellen och
dess åtgärder
Avvikelser från KLR-modellen kan försämra OLS-estimering avsevärt. I detta avsnitt skakonsekvenser av avvikelser och åtgärder som kan minimera dem negativa konsekvensernadiskuteras.
2.3.1 Frånvaro av relevanta kovariater och närvaro av irrelevanta
kovariater
Konsekvenser av dem relevanta kovariaternas frånvaro:
∙ OLS-metoden ger icke-väntevärdesriktig skattningen av koefficienter till kovariatersom är korrelerade till den frånvarande relevanta kovariaten. Om den frånvaranderelevanta kovariaten är ej-korrelerad med kovariater som används i modellen fåsicke-väntevärdesriktig skattning endast av intercept termen.
∙ Skattning av varians-kovanrians matris blir icke-väntevärdesriktig och snedvridenuppåt.
Konsekvenser av dem irrelevanta kovariaternas närvaro:
∙ Skattningen av varians-kovanrians matris blir större i magnituden, dock förblirskattningen väntevärdesriktig.
Åtgärder:
∙ En bra strategi är att inkludera alla kovariater som kan tänkas kunna påverka denförklarande kovariaten. Det är bättre att få flera irrelevanta kovariater först än attmissa en relevant. Irrelevanta kovariater kan sedan identifieras med hjälp av F-testoch BIC-kriterium (se mer i kapitel 2.5)
7
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
2.3.2 Icke-linjäritet
Linjäritet innebär att enabsolut förändring i 𝑋𝑛 ger en absolut förändring i Y. ∆𝑋 →𝛽∆𝑌 Icke-linjäritet innebär att det inte finns något linjärt samband mellan den förkla-rande kovariaten och en eller flera kovariater. Ett exempel är hur människans längd berorpå ålder. Det kan modelleras med en exponentiell funktion 𝑙��𝑛𝑔𝑑 = 𝑒−𝛽��𝑙𝑑𝑒𝑟
, d.v.s. att människa växer snabbt tills 18 år och efter ett tag minskar tillväxten tills såsmåningom avstannar helt.Konsekvenser:
∙ OLS-metoden ger icke-väntevärdesriktig skattningen av koefficienter.
Åtgärder:
∙ Transformering av variabler
Sammanfattningen av tre populära transformationer:
1. Log-log trasformation. Om den sanna sambandet är på form 𝑌 = 𝛽0𝑋𝛽1
1 𝑋𝛽2𝜖, kandet transformeras till 𝑙𝑛𝑌 = 𝑙𝑛𝛽0 + 𝛽1𝑙𝑛𝑋1 + 𝛽2𝑙𝑛𝑋2 + 𝑙𝑛𝜖. Det senare är enlinjär ekvation, där 𝛽1 och 𝛽2 koefficienter kallas för elasticitet. Detta ekvationenkan tolkas som att relativt(i procent) förändring i 𝑋𝑛 ger relativ förändring i Y.%∆𝑋 →≈ %∆𝑌
2. Semilog transformation. Transformerar den urspungliga 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝜖
till
(a) 𝑌 = 𝑙𝑛𝛽0 + 𝛽1𝑙𝑛𝑋1 + 𝛽2𝑙𝑛𝑋2 + 𝑙𝑛𝜖. Denna ekvation kan tolkas som att enrelativ förändring i 𝑋𝑛 ger en absolut förändring i Y. %∆𝑋 →≈ ∆𝑌
(b) eller till 𝑙𝑛𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝜖. Denna ekvation kan tolkas som att enabsolut förändring i 𝑋𝑛 ger en relativ förändring i Y .∆𝑋 →≈ %∆𝑌
3. Polynomiell transformation. Det icke-linjära sambandet mellan den beroende vari-abeln och en kovariat approximeras med dess Taylors utveckling. Oftast ändvändsendast kvadrat- och kubiktermer. 𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 + 𝜖 transformeras till𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛾1𝑋
21 + 𝛽2𝑋2 + 𝛾2𝑋
32 + 𝜖
2.3.3 Heteroskedasticitet
Heteroskedasticitet innebär att variansen av alla feltermer 𝜖𝑖 är inte detsamma.Konsekvenser:
∙ På grund av heteroskedasticitet är skattningen 𝑐𝑜𝑣(𝛽) inte längre väntevärdesriktig,vilket gör intervalsskattning och hypotesprövning omöjligt. Skattningen av 𝛽 förblirväntevärdesriktig.
8
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
Åtgärder:
∙ Användning av heteroskedasticitetskonsistenta kovariansskattningarna. I denna stu-die används White’s heteroskedasticitetskonsistenta kovariansskattning (Se kapitel2.7)
∙ Tranformering av variabler kan i vissa fall eliminera heteroskedasticitet. Om viantar att feltermens standardavvikelse är proportionell till väntavärdet av den för-klarande kovariaten, dvs vår modell 𝑦 = 𝑥𝛽 + 𝑒 kan skrivas som 𝑦 = 𝑥𝛽(1 + 𝑣)
där v är oberoende av x. Om man nu logaritmerar vår ekvation fås att 𝑙𝑛(𝑦) =
𝑙𝑛(𝑥𝛽) + 𝑙𝑛(1 + 𝑣), där variansen av den andra termen i högerled är oberoendeav x. Denna ekvation blir därmed homoskedastisk, d.v.s. att alla ferltermerna hardetsamma varians.
Som den andra åtgärden visar att kan heteroskedasticitet vara tecken för modellensmisspecifikation, d.v.s. att om man upptäcker heteroskedasticitet, ska man i första handse till att modellens specifikation är rätt innan användning av White’s heteroskedastici-tetskonsistenta kovariansskattning.
2.3.4 Clustering
Kluster innebär att datan innehåller delmängder grupperade efter en viss egenskap. Dettainnebär att om flera observationer hör till en viss grupp, är deras feltermer i en viss delkorrelerade. Om flera observationer hör till olika grupp är deras feltermer okorrelerade.Konsekvenser:
∙ Kovariansskattningen blir icke-väntevärdesriktig.
Åtgärder:
∙ Justering avWhite’s heteroskedasticitetskonsistenta kovariansskattning. (Se kapitel2.7.1)
2.3.5 Perfekt multikollinearitet
Multikollinearitet innebär att det finns en linjärt (perfekt multikollinearitet) eller nästanlinjärt (imperfekt multikollinearitet) samband mellan 2 eller flera kovariater, d.v.s. 𝑥1 =
𝛼𝑥2 + 𝛾𝑥3. Perfekt multikollinearitet uppstår ofta vid felaktig användning av indikator-kovariat (se kapitel 2.6)Konsekvenser:
∙ Perfekt multikollinearitet gör skattningen av 𝛽 koefficienter omöjligt.Betrakta ett exempel, där 𝑦 = 𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 och 𝑥1 = 𝑥2 + 𝑥3. Om man nusubtraherar ett konstant 𝑎 från 𝛽1 och adderar den till 𝛽2 och 𝛽3 får man att
9
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
𝑦 = (𝛽1 + 𝑎)𝑥1 + (𝛽2 − 𝑎)𝑥2 + (𝛽3 − 𝑎)𝑥3 = 𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 + 𝑎(𝑥1 − 𝑥2 − 𝑥3) =
𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3’, d.v.s. säga att man får samma ekvation trots utbytte av koefficienter.
∙ Imperfekt multikollinearitet försämrar inte predicering styrka, men skattningen avvarians ökar, vilket i sin tur försämrar hypotesprövning.
Åtgärder:
∙ Om perfekt multikollinearitet uppstår pga. fel användning indikator-kovariat ge-nom utelämnande av en av kollinjära variabler. Den utelämnade kovariat sätts tillreferenskategori.
2.4 Tester för antaganden
I detta stycke nämns vissa tester för antaganden. Bakomliggande teori presenteras inte,utan den intresserade hänvisas till referenslistan i kapitel 6.
∙ Test för linjäritet:Efter regression plottas residualerna och/eller dem predicerade priset mot varjekovariat. Om sambandet inte ser linjär ut är det ett tecken på linjäritet.
∙ Test för heteroskedastisitet:White’s heteroskedasticitets test.
∙ Test för icke-normal fördelning av residualer:Residualerna plottas tillsammans med normalfördelningens täthetsfunktion. De skainte skilja sig mycket åt.
2.5 Hypotesprövning, F-test och BIC-kriterium
2.5.1 Hypotesprövning
Hypotesprövning innebär att man ställer upp en hypotes angående hur fördelningenav någon stokastiska variabel Z ser ut och prövar om den stämmer. Denna hypotesbrukar kallas nollhypotesen och betecknas𝐻0. För att pröva en hypotes, hittas en lämpligtestvariabel 𝛾* som är en observation av 𝛾(𝑍). Nollhypotesen ska då väljas så att om𝛾* ∈ 𝐶, där C är något område, förkastas 𝐻0. Området C väljs så att sannolikhet att𝛾(𝑍) ∈ 𝐶 är lika med 𝛼. 𝛼 bestäms av testaren och kallas signifikantnivå(anges oftast
10
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
i procenter). Det är den högsta tillåtna av testaren sannolikheten att nollhypotesenförkastas om den är sann. I samband med signifikants nivå införs ofta begrepp p-värde. P-värde är sannolikhet att nollhypotesen förkastas om den är sann. Några av de populärastetesterna är t-test, F-test och 𝜒2-test.
2.5.2 F-test
F-test kan användas för prövning såväl en enkel som multipel hypotes. F-testvariabel förhypotesprövning av J linjära restrektioner med K parameter inkluderat intercept termoch N observationer ser ut på följande sätt:
𝐹 = [|𝜖𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑|2−|𝜖𝑓𝑢𝑙𝑙|2]/𝐽|𝜖𝑟𝑒𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑑|2/𝑁−𝐾
F kovariat har F(J, N-K) distribution med J och (N-K) är frihetsgrader under nollhypo-tesen. Om F kovariat är ”för stor” förkastar man nollhypotes. F-test är exakt signifikantunder antagande att feltermerna är normalfördelade. Även om feltermerna inte är nor-malfördelade, är F-test asymptotiskt signifikant.
2.5.3 BIC-kriterium
BIC (eng. Bayesian information criterion) kriterium används främst för att identifieringav irrelevanta kovariater i modellen. BIC är en funktion som minimerar feltermernaskvadratsumma och antalet variabler. Om feltermerna är normalfördelade har formelenför BIC följande utseende:
𝐵𝐼𝐶 = 𝑙𝑛( |𝜖|2
𝑁) + 𝐾𝑙𝑛(𝑁)/𝑁
, där N och K är antal observationer respektive kovariater. BIC-kriterium har en viktigegenskap att den väljer den sanna modellen bland alla modeller, om den sanna modellenfinns bland modeller att välja.
2.6 Indikator-kovariater
En indikator-kovariat eller bara indikator är kovariat som används för att visa om obser-vationer har vissa egenskarer eller inte. En indikator kan anta antingen 1 eller 0, där 1står för sant och 0 för falskt. Man interpreterar indikators koefficient som en förflyttningupp eller ner av intercept term. Som exempel, kan indikatorer användas för att betecknavilken område observation hör till och detta område kan ge förflyttning upp eller nerav intercept term jämfört med referensnivån. Om man multiplicerar två indikatorer sombetecknar olika egenskarper skapas det en ny indikator som betecknar innehav av bådeegenskaperna. Som exempel, om man multiplicerar indikator för område med indikator
11
Kapitel 2. Regressionsanalys. Teoretisk bakgrund
för byggperiod får man en indikator som säger att huset ligger i ett visst område ochbyggdes under en viss period. Indikatorer kan även multipliceras med kvantitativa ko-variater. Då är tolkning av den nya kovariaten är olika lutning. Som exempel, om manmultiplicerar indikator för område med yta, fås en ny kovariat som kan tolkas att ytager högre eller lägre pris ett område jämfört med ett annat.
2.7 White’s kovariansskattning
White’s heteroskedasticitetskonsistenta kovariansskattning:
𝐶𝑜𝑣(𝛽) = (𝑋𝑇𝑋)−1(∑𝑛
𝑖=1(𝑒𝑖𝑥𝑖)𝑇 (𝑒𝑖𝑥𝑖)(𝑋
𝑇𝑋)−1
är en väntevärdesriktig skattning och ska alltid användas ifall man upptäcker heteroske-dasticitet.
2.7.1 Justering för kluster
Om datan är klusterade, ska man använda den justerade White’s heteroskedasticitets-konsistenta kovariansskattning som ser ut på följande sätt:
𝐶𝑜𝑣(𝛽) = (𝑋𝑇𝑋)−1(∑𝑛𝑘𝑙
𝑖=1(𝑢𝑇𝑗 𝑢𝑗)(𝑋
𝑇𝑋)−1
där
𝑢𝑗 =∑
𝑗𝑘𝑙𝑒𝑖𝑥𝑖
𝑛𝑘𝑙 är det totala antalet av kluster.
12
Kapitel 3
Metod
3.1 Datainsamling
Data samlades in i första hand från slupris.se och begränsades med en tidsperiod på 6månader (från den 15 oktober till den 15 april) över Stockholms innerstad. Sidan innehöllföljande parametrar för varje lägenhet: antalet rum, boyta, månadsavgiften, våningen,byggår, närvaro av hiss, balkong, öppet spis, huruvida lägenheten är etage samt visnings-månad. Andra relevanta uppgifter som adresser av idrotsplatser, parklekar, fritidsgårdaroch grundskolorr togs från Stockholm stads websida, ränta togs från Statistiska Central-byrås (SCB) websida och geografiska koordinater för vattens gränser inom Stockholmområde togs från Google Maps.
3.1.1 Datans trovärdighet
Datan från slutpris.se är inte alltid korrekt eftersom slutpris.se samlar in datan frånmäklarnas webbsidor. Det är antagligen sista budet som slutpris.se registrerar, vilketkan skilja sig ibland från det aktuella slutpriset. Här är citat från slutpris.se:
Uppgifter om lägenheter på slutpris.se bygger på den information som mäkla-re tillhandahåller och publicerar i lägenhetsprospekt. slutpris.se kan därmedinte garantera att uppgifterna för varje enskilt objekt är korrekta. I undan-tagsfall kan t ex en lägenhet av misstag publiceras som såld på slutpris.se,eller visa ett pris som avviker från den slutliga köpeskillingen. Slutpris.seansvarar inte för några följder av sådana eventuella fel eller avvikelser.1
Härav behövde datan inspekterades. Detta ledde till att alla lägenheter som saknade dataom byggår (sammanlagd 453 lägenheter) togs bort. Även 8 lägenheter med orimliga pristogs bort. Efter borttagning kvarstod datan om 1913 lägenheter. Av kvarvarande datankorrigerades informationen om 21 lägenhet till: hissavsaknande ändrades till närvaro av
1http://slutpris.se/about/
Kapitel 3. Metod
hiss för 7 lägenheter, våningsändring genomfördes för 14 lägenheter till. Efter genomfördaändringar togs ett stickprov på 30 lägenheter och jämfördes med informationen frånmäklarnas websidor. Bara en lägenhet hittades, vars pris skilde sig, dock mindre än 2%.Därmed ansågs datan taget från slutpris.se vara tillräckligt trovärdig.
3.2 Förstudie
I förstudie analyseras data med hjälp av tabeller, grafer. I tabeller ser man enskilda ko-variaters medelvärde, standardavvikelse samt min- och maxvärde.( se tabell 4.6) I graferplottades priset mot en enskild kovariater i taget. Även en enkel regression genomfördes,där den enda kovariat förutom intercept term var yta. Regressionen visade att enbartyta förklarar nästan 84% av priset.
3.2.1 Byggårsperiod indikators
När priset plottades mot byggåret insågs att 5 tydliga bebyggelseperioder fanns (se figur4.13). Därmed skapades 5 indikatorer:
Tabell 3.1: Bebyggelse period
Kovariat Kort sammanfattning
Bygg till1919 Alla hus som byggdes till och med 1919
Bygg 1920-53 Alla hus som byggdes från och med 1920 till och med 1953
Bygg 1959-72 Alla hus som byggdes från och med 1959 till och med 1972
Bygg 1973-99 Alla hus som byggdes från och med 1973 till och med 1999
Bygg 2000-13 Alla hus som byggdes från och med 2000 till och med 2013
Perioden 2000-2013 användes som referenskategori.
3.2.2 Områden
Stockholms innerstad består av 37 stadsdelar:Storkyrkan, Klara, Jakob, Södra Johannes, Norra Johannes, Södra Adolf Fredrik, Nor-ra Adolf Fredrik, Gustav Vasa, Östra Matteus, Västra Matteus, Engelbrekts k:a, Tek-niska Högskolan, Universitetet, Hjorthagen-Värtahamnen, Hedvig Eleonora, Oscars k:a,Djurgården, Gärdet, Kungsholm, Östra S:t Göran, Marieberg, Stadshagen, Kristineberg,Fredhäll, Lilla Essingen, Stora Essingen, Mariatorget, Södra Station, Norra Högalid,Mellersta Högalid, Södra Högalid, Reimersholme-Långholmen, Västra Katarina, ÖstraKatarina, Norra Sofia, Södra Sofia och Södra Hammarbyhamnen.Därmed skapades det 36 indikatorer, en för varje stadsdel förutom Djurgården, eftersomdet inte fanns några sålda lägenheter i Djurgården över valda perioden. Se figur 3.1
14
Kapitel 3. Metod
Figur 3.1: Karta över Stockholms stadsdelar
På grund av stort antal stadsdelar grupperades dessa enligt följande metod:Full regressionsanalys genomfördes, varefter områdena sorterades efter deras beta-koefficienter,där området med lägsta beta-koefficienten sattes till referens. 5 områdesgrupp skapadessådana att differensen i varje grupp mellan områdena med den högsta och den lägstakoefficient var 0,05 vilken motsvarar ungefär 5%. Se figurer 3.1 och 3.2 samt tabellen 4.8Den blåa området valdes som referensområde.
3.2.3 Uppfyllning av antaganden
∙ Residualerna är nästan normalfördelade (se figur 4.8). Detta innebär att hypotes-prövning kunde utföras.
∙ När predicerade värde plottades mot det verkliga upptäcktes icke-linjäritet (graf4.11). Varefter plottades enskilda kovariater mot residualer (kapitel 4.2). Eftersomyta visades den största avvikelse av linjärt samband (dessutom visade förstudienatt yta på egen hand förklarar mer än 80% av priset), adderades en kvadrattermyta2. Tester gjordes om, och man kunde då konstatera att icke-linjäritet avhjälptes.
15
Kapitel 3. Metod
Figur 3.2: Grupperade stadsdelar
∙ White’s heteroskedasticitets test pekar att heteroskedasticitet förekommer, varförWhite’s heteroskedasticitetskonsistenta kovariansskattning användes.
∙ Att residualerna är icke-korrelerade ifrågasattes. Det finns orsaker att tro att resi-dualerna korrelerar efter område, d.v.s. att om en lägenhet som ligger inom GustafVasa stadsdel har en positiv residual, tenderar andra lägenheter som också lig-ger i denna stadsdel att ha en positiv residual. Härav genomfördes justeringar avWhite’s heteroskedasticitetskonsistenta kovariansskattning för rumslig klustering.
3.3 Genomförande
Semilog modellen valdes, där den beroende variabeln(priset) logaritmedes. Denna mo-dell antar att en absolut förändring i kovariater ger en relativ förändring i den förklarandekovariaten. Alla kovariater som fanns i tabellen sattes in, varefter regression genomfördes.Modellen testades sedan för KNLR-modellens antaganden(se kapitel 2.1.3). Om modelleninte uppfyllde antaganden tillämpades åtgärder som är beskrivna i section 2.3.
3.3.1 Utelämnande av icke signifikanta variabler
I denna studie sattes signifikansnivån till 5%. Efter regressionen kovariat med högsta p-värde som är över 5% togs bort. Det gjordes om och om igen tills en modell med endast
16
Kapitel 3. Metod
signifikanta kovariter var kvar.
3.3.2 Kovariater
Tabell 3.2: Kovariater
.
Kovariat Enhet Kort sammanfattning
Yta 𝑚2 Lägenhetens yta
Yta2 𝑚4 Kvadrattermen av lägenhetens yta
Rum Tal Antalet rum i lägenheten
Våning Tal Våning lägenheten ligger på
Månadsavgift SEK Månadsavgiften för lägenheten
Bygg1919 Indikator Alla hus som byggdes till och med 1919
Bygg1920-53 Indikator Alla hus som byggdes från och med 1920 till och med 1953
Bygg1959-72 Indikator Alla hus som byggdes från och med 1959 till och med 1972
Bygg1973-99 Indikator Alla hus som byggdes från och med 1973 till och med 1999
Bygg2000-13 Referens. Alla hus som byggdes från och med 2000 till och med 2013
Bolåneränta N år % Medel bolåneränta i procenter vid den månad lägenheten såldes
Avståndet till . . .
. . . vatten km Minsta avståndet till vattnet
. . . grundskola km Avståndet till närmaste grundskolan
. . . fritidsgård km Avståndet till närmaste fritidsgården
. . . idrotsplats km Avståndet till närmaste idrotsplatsen
. . . parklek km Avståndet till närmaste parkleken
Hiss Indikator Tillgänglighet av hiss
Balkong Indikator Tillgänglighet av balkong
Öppenspis Indikator Tillgänglighet av öppen spis
Etage Indikator Lägenhetens typ (etage eller ej)
Grå IndikatorStadsdelar: Stora Essingen, Hjorthagen-Värtahamnen, Södra Hammarby-hamnen, Lilla Essingen
Röd IndikatorStadsdelar: Södra Högalid, Kristineberg, Fredhäll, Stadshagen, TekniskaHögskolan, Marieberg.
Blå IndikatorStadsdelar: Mellersta Högalid, Södra Sofia, Västra Katarina, Östra Kata-rina, Norra Högalid, Östra S:t Göran, Maratorget, Södra Station
Grön IndikatorStadsdelar: Norra Johannes, Södra Adolf Fredrik, Norra Sofia,Reimersholme-Långholmen, Gärdet, Kungsholm, Östra Matteus, GustavVasa, Klara, Jakob, Storkyrkan, Västra Matteus, Norra Adolf Fredrik
Gul Indikator Stadsdelar: Engelbrekts k:a, Oskars k:a, Hedvig Eleonora
Stora Essingen Referens
17
Kapitel 4
Resultat
4.1 Tabeller
Tabell 4.1: Den slutliga modellen
Kovariater Koeff. Std. avvikelse. F-värde p-värde Justerade koeff.
Yta 0.0214311 0.0005585 38.37 0 1.359211
Yta2 -0.0000551 0.00000335 -16.43 0 -0.5017286
Måndasavgift -0.0000491 0.00000401 -12.26 0 -0.1460377
Rum 0.054345 0.006915 7.86 0 0.1263004
Område Grå -0.1617838 0.0120403 -13.44 0 -0.104521
Område Gul 0.1601122 0.0102579 15.61 0 0.1037971
Byggperiod 3 och 4 -0.1025633 0.0141514 -7.25 0 -0.0853745
Område Röd -0.1047101 0.0079617 -13.15 0 -0.0809169
Våning 0.0136594 0.0011853 11.52 0 0.0745238
Område Grön 0.04823 0.0052528 9.18 0 0.0601128
Balkong 0.0390493 0.004575 8.54 0 0.0484279
Byggperiod 2 -0.0374974 0.0122123 -3.07 0.002 -0.0471777
Ränta -0.0944915 0.0153752 -6.15 0 -0.0360726
Byggperiod 1 0.0268 0.0131325 2.04 0.041 0.0297834
Öppen spis 0.0270569 0.0084507 3.2 0.001 0.024136
Intercept 14.19364 0.0504093 281.57 0
Kapitel 4. Resultat
Tabell 4.2: Kvantitativa variabler
Kovariater Koeff. Std. avvikelse. F-värde p-värde Justerade koeff.
Yta 0.021431 0.000559 38.37 0 1.359211
Yta2 -5.5E-05 3.35E-06 -16.43 0 -0.50173
Måndasavgift -4.9E-05 4.01E-06 -12.26 0 -0.14604
Rum 0.054345 0.006915 7.86 0 0.1263
Våning 0.013659 0.001185 11.52 0 0.074524
Ränta -0.09449 0.015375 -6.15 0 -0.03607
Tabell 4.3: Kvalitativa kovariater. Områden
Kovariater Koeff. Std. avvikelse. F-värde p-värde Justerade koeff.
Område Grå -0.1617838 0.0120403 -13.44 0 -0.104521
Område Gul 0.1601122 0.0102579 15.61 0 0.1037971
Område Röd -0.1047101 0.0079617 -13.15 0 -0.0809169
Område Grön 0.04823 0.0052528 9.18 0 0.0601128
19
Kapitel 4. Resultat
Tabell 4.4: Kvalitativa kovariater. Bebyggelseperioder
Kovariater Koeff. Std. avvikelse. F-värde p-värde Justerade koeff.
Byggperiod till 1919 0,0268 0,0131325 2,04 0,041 0,0297834
Byggperiod 1920-53 -0,0374974 0,0122123 -3,07 0,002 -0,0471777
Byggperiod 1959-99 -0,1025633 0,0141514 -7,25 0 -0,0853745
Tabell 4.5: Kvalitativa kovariater. Balkong, öppen spis
Kovariater Koeff. Std. avvikelse. F-värde p-värde Justerade koeff.
Balkong 0,0390493 0,004575 8,54 0 0,0484279
Öppen spis 0,0270569 0,0084507 3,2 0,001 0,024136
Tabell 4.6: Sammanfattade statistik
Variabel Medelvärde Std. Avvikelse Min Max
Pris 3346977 1505467 1300000 1.30E+07
Rum 2.11565 0.91881 1 6
Yta 56.0321 25.074 14 182
Avgift 2647.84 1174.83 241 7800
Våning 2.62036 2.15697 -1 17
Ålder 78.1905 32.7144 0 375
Byggår 1934.48 32.7071 1638 2012
Ränta 2.94063 0.15093 2.81 3.54
Arbetslöshet -3.2425 1.31348 -10.5 -1.4
Köpa -80.275 2.82846 -84.3 -71.6
Soltimmar/månad 83.4118 74.2857 25 256
Avstånd till. . .
. . . vatten 552.794 293.289 12 1392
. . . idrotsplats 682.558 372.127 26 1674
. . . grundskola 228.77 140.754 0 906
. . . park 225.659 160.159 0 1085
. . . fritidshem 247.121 140.624 0 906
. . . fritidsgård 647.663 347.57 0 1470
Tabell 4.7: Korrelation matris
Korrelation Yta Rum Avgift Ålder Våning
Yta 1.0000
Rum 0.9037 1.0000
Avgift 0.8045 0.7509 1.0000
Ålder -0.0925 -0.1372 -0.2526 1.0000
Våning 0.0785 0.0782 0.1256 -0.2764 1.0000
20
Kapitel 4. Resultat
Tabell 4.8: Gruppering av stadsdelar
Stadsdel Färg-område
Stora Essingen GråHjorthagen-Värtahamnen GråSödra Hammarbyhamnen GråLilla Essingen Grå
Södra Högalid RödKristineberg RödFredhäll RödStadshagen RödTekniska Högskolan RödMarieberg Röd
Mellersta Högalid BlåSödra Sofia BlåVästra Katarina BlåÖstra Katarina BlåNorra Högalid BlåÖstra S:t Göran BlåMaratorget BlåSödra Station Blå
Norra Johannes GrönSödra Adolf Fredrik GrönNorra Sofia GrönReimersholme-Långholmen GrönGärdet GrönKungsholm GrönÖstra Matteus GrönGustav Vasa GrönKlara GrönJakob GrönStorkyrkan GrönVästra Matteus GrönNorra Adolf Fredrik Grön
Engelbrekts k:a GulOskars k:a GulHedvig Eleonora Gul
21
Kapitel 4. Resultat
Figur 4.11: Förstudie. Residualer mot observerade ln(Pris)
Figur 4.12: Förstudie. Residualerna mot yta. Utan ytas kvadraterm
29
Kapitel 5
Diskutioner
5.1 Den slutliga modellen
5.1.1 Predicering
Den slutliga modellen (tabellen 4.1.) har en förklaringsgrad på 93% procenter och relativafel på ungefär 10%. Från figur 4.1 ser man att den predicerar slutpris ganska bra för allalägenheter förutom dem vars värde överstiger 9Mkr. Detta kan förklaras med att demdyraste lägenheterna kännetecknas med parametrar som är svårt att skatta såsom lyx,exklusivitet etc., d.v.s. att de dyra lägenheterna är på något sätt unika.
5.1.2 Strukturtolkning
För att kunna jämföra koefficienternas vikt skapades så kallade standardiserades beta-koefficienter. Koefficienterna sorterades efter sin ”vikt”. Kvantitativa och kvalitativa ko-variater diskuteras separat. Kovariaternas påverkan anges i procenter [(𝑒𝑏𝑒𝑡𝑎−1]*100%).
Signifikanta kovariater
Signifikanta variabler delades i två grupp:
∙ Kvantitativa kovariater (tabel 4.2):
– Boyta är en kovariat med största vikten. En extra kvadratterm pekar på attju större boyta är desto mindre relativ ändring ger varje extra meter.
– Varje 1000 kr i månadsavgiften minskar priset med ca 5% (motsvarar ca 150Tkr minskning räknad för en lägenhet på 3Mkr, vilket är prisets medelvärde).Det tycks vara lagom mycket, då detta belopp(150 Tkr) räcker att betala extrahyran i cirka 12 år.
Kapitel 5. Diskutioner
– Ett extra rum ökar däremot priset med ca 5.5% (170 Tkr). Detta ska tas meden nypa salt och kan tolkas som att det i allmänhet föredras flerrumslägen-heterna.
– Varje extra våning räknad från bottenvåningen ökar priset med ca 1,4% (40Tkr). Detta kan förklaras delvis med en finare utsikt från högre våningar,delvis mindre väsen från gatan.
– Varje extra procentdecimal i ränta ökar priset med ca 1% (30 Tkr); dennakovariat var ganska stabil över hela perioden, men skulle kunna få en störrebetydelse vid finanskriser etc. (då en procentändring i ränta skulle öka prisetmed ca 10%).
∙ Kvalitativa kovariater:
1. Område (tabel 4.3 och 4.8)Det blåa området (större delar av Södermalm) sattes som referens och andraområden jämfördes med den. Det gulla området (Östermalm) ökar priset medca 17% och den gröna (Norrmalm) med ca 5%. Det gråa området (avlägs-na innerstadens områden) minskar priset med ca 15% och den röda (vänst-ra Kungsholmen) med ca 10%. Därmed har man rangordnat Stockholms in-nerstads områden efter populäritet/prestige. Detta anses vara ett intressantämne för vidare studier.
2. Bebyggelse perioder (tabel 4.4)Det blev totalt 4 bebyggelse perioder: år 1638 - 1919, 1920 - 1953, en samman-fogad period år 1959-1999. Årsperioden 2000 - 2013 valdes som referensperiod,d.v.s. att prisskillnaden jämfördes med denna period. Perioden 1638-1919 ökarpriset med ca 3%. Denna period karakteriseras med jugendstil i arkitektur,höga tak och stora fönster. Period 1920-1953 minskar priset med ca 4%. Dennaperiod karakteriseras med funktionalismen i arkitektur, stora fönster. Perio-den 1959 - 1999 bestod ursprungligen av 2 områden som visade sig ha ungefärsamma inverkan på priset som nämligen är en minskning på ca 10%. Dennaperiod karakteriseras med trångboddhet.
3. Balkong ökar priset med ca 4% och öppen spis med ca 3%. (Tabel 4.5).
Icke-signifikanta kovariater
Följande varibaler visades sig vara icke-signifikanta:
∙ Hiss. Att hiss inte är signifikant, är ganska förvånande. Detta kan förklaras att av1913 lägenheter saknar 443 hiss. Alla lägenheter som ligger på minst 5 våning harhiss. Av dem 443 lägenheter som saknar hiss ligger 126 på 3:e eller 4:e våningar.
32
Kapitel 5. Diskutioner
Ännu 109 ligger på 2:a våningen. Det vill säga att de flesta lägenheter antingen hartillgång till hiss eller inte ligger på höga våningar.
∙ Etagelägenhet. Detta tyder på att etagelägenheter inte verkar vara populära. Denkan kankse tyckas vara jobbig att vara tvungen gå ner och upp på trapporna, sär-skilt för äldre människor. Avståndet till närmaste idrotsplatsen, parkleken, fritids-gårder och grundskolas samt avståndet till vattnet. Det är också ganska förvånande,då många mäklarannonser betonade att lägenheten är nära till grönaområden, sko-lor, vattnet och så vidare. Icke-signifikans kan förklaras delvis med att avståndeträknades som flygväg, vilken kan bidra till fel, och delvis att den finns en stormängd av grundskolor, parklekar med mera i Stockholms innerstad.
5.2 Linjära modellen
Även linjära modellen testades, denna hade dock icke-normalfördelade residualerna (figur4.10) samt heteroskedasticitet var något högre. Även antagande att en absolut förändringi en kovariat ger en absolut förändring i priset. Att exempelvis balkong ger samma ökningför en etta på 30 meter som för en sexa på 130 meter är inte särskilt trovärdig.
5.3 Slutsatser
Syfte med denna studie var att reda ut hur priset formas samt kunna predicera slutpriset.En loglinjär regressionsmodell användes för uppfyllningar av dessa mål. Modellen antaratt absolut förändring i en kovariat ger en relativ ändring i den beroende variabeln.Modellen inkluderade kovariater från tabellen 3.2. Värdena på skattade parametrarnaanses vara rimliga ger en bra tolkning kovariaters vikt och skulle kunna användas vidköp av en lägenhet.
5.4 Felkällor
Jag misstänker att några viktiga kovariater är utelämnade i min modell. Dessa är främstrenoveringsår samt husets totala antal våningar.En noggrannare områdesindelning kunde ge bättre prestanda, men avsågs kompliceramodellen alldeles för mycket; det var 36 olika stadsdelen
33
Kapitel 6
Referencer
∙ Kennedy, K. A Guide to Econometrics 6 edition, 2008.
∙ Lang, H. Topics on Applied Mathematical Statistics version 0.93, 2012.
∙ Blom, G. Enger, J. Englund, G. Grandel, G. Holst, L. Sannolikhetsteori och sta-tistikteori med tillämpningar 5 upplaga, 2005.
∙ White, H. A heteroskedasticity-consistent covariance matrix estimator and a directtest for heteroskedasticity. Econometrica 48: 817–830, 1980.
∙ Rogers, W. H. Regression standard errors in clustered samples. Stata TechnicalBulletin 13: 19–23, 1993.
∙ Mäklarstatistik. http://www.maklarstatistik.se/.
∙ Blocket. [http://www.blocket.se/.
∙ Fredric Beroire. Stockholms byggnader, arkitektur och statsbild, 2012.
∙ Andersson, K. Bengtsson, B. Bladh, M. Cars, G. Feldmann, B. Jacobsson, E. Fa-miljebostäder. Flera kapitel i svensk bostadspolitik, 2006.
∙ Statistiska centralbyrån. http://www.scb.se/.
∙ Konjunkturinstitutet http://www.konj.se/.
∙ Google Maps. https://maps.google.se/.
∙ Stockholms stad http://www.stockholm.se.