+ All Categories
Home > Documents > Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das...

Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das...

Date post: 13-Jul-2020
Category:
Upload: others
View: 5 times
Download: 1 times
Share this document with a friend
282
Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Methodenlehre II, SoSe 2015 Holger Dette Ruhr-Universit¨ at Bochum 4. Juni 2015 1 / 282
Transcript
Page 1: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple RegressionMethodenlehre II,

SoSe 2015

Holger Dette

Ruhr-Universitat Bochum

4. Juni 2015

1 / 282

Page 2: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression

Methodenlehre II

I Prof. Dr. Holger DetteI NA 3/73I Telefon: 0234 322 8284I Email: [email protected] Internet: http://www.ruhr-uni-bochum.de/mathematik3/

http://www.ruhr-uni-bochum.de/mathematik3/dette.htmlI Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10I Thema: Das allgemeine lineare Modell und seine Anwendungen

in der Psychologie

2 / 282

Page 3: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression

Statistik-Team

I Ubung: Dienstag, 12.15–13.15 Uhr, HZ0 70Ria Van Hecke; [email protected]

I Tutorium: SPSSI Maxi Godel::

Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO03/974

I Pia Brinkhaus:Di 10:00-12:00 in UFO 01/06

I Ricarda Weiland:Mo 14:00-16:00 in GAFO 02/368Di 08:00-10:00 in GAFO 02/368

I Phillip Ozimek:Do 14:00-16:00 in GAFO 03/901

I Malte Kobelt:Do 14:00-16:00 in GAFO 03/974

3 / 282

Page 4: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression

E-Learning

Zur Unterstutzung von Vorlesung und Ubung gibt es einenBlackboardkurs:

I Kurs-ID: 112131-ss15I Kursbezeichnung: ”Statistische Methodenlehre II“I Passwort: mlehre2.

Dort gibt es:I Folien zu Vorlesung und Ubung,I Ubungsaufgaben und Tests, mit denen Bonuspunkte fur die

Klausur erzielt werden konnen undI (zum Semesterende) eine Probeklausur.

4 / 282

Page 5: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression

Das allgemeine lineare Modell:

”Ein mathematisches Modell - viele statistischeVerfahren“

Inhaltsverzeichnis

1. Grundlegende Prinzipien der schließenden Statistik am Beispieldes t-Tests

2. Das lineare Regressionsmodell, multiple Regression undKorrelation

3. Das ”allgemeine“ lineare Modell

5 / 282

Page 6: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression

Literatur

A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,5th Edition, Pearson Prentice Hall

J. Bortz, Statistik, 6. Auflage, Springer

M. Rudolf, J. Muller, Multivariate Verfahren, Hogrefe

P. Zofel, Statistik fur Psychologen, Pearson Studium

6 / 282

Page 7: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1. Grundlegende Prinzipien der schließendenStatistik am Beispiel des t-Tests

1.1 Schatzer und Konfidenzintervalle

1.2 t-Test fur eine Stichprobe

1.3 Zweistichprobenprobleme

1.4 Einfaktorielle Varianzanalyse

7 / 282

Page 8: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.1 Schatzer und Konfidenzintervalle

8 / 282

Page 9: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beurteilende Statistik

----

:Spezielle Verteilungen

ti:i• .., ...-i _ ...-i C'l

-.r.. lfJ

",':: ...-i

I :::... 0

'? :::: Ci)

-" >=1". - J \ 0,....,(• Ci) , t:: ..-'<: ( q

"it I 8 I

VI b.O-..; 'Z N _ I ' 2 V

8 80Cl

I

----.. -'-

N - :- 1 N

...-i1C'l - I

'> ...-i - C'l b

11 .-...

. N ""-' '-" '--, S-

I b.O"B I >=1C\l ......, ;:l 'ij C\l :;:::

-0 >=1 S 2 C\l _ "'"" 0 Q)

;;. lfJ>=1:>

111 BEURTEILENDE STATISTIK

So, wenn Ihr es bis zu diesem Punkt geschafft und1 wirklich alles verstanden habt, dann könntet Ihr Euch nun entspannt zurücklehnen und die beurtei-lende Statistik komplett auf Lücke setzen: Denn Ihr habt schon jetzt genug Statistikwissen, um die zum Bestehen notwendige Punktzahl zu erreichen. Falls Ihr Euch aber dessen nicht so sicher seid oder falls Ihr einfach mehr wollt als "nur bestehen", so solltet Ihr aufmerksam die nächsten Seiten lesen, denn oft gibt es bei diesem Thema richtig viele Punkte abzusahnen. In den letzten Kapiteln haben wir uns mit Zufallsvariablen, Wahrscheinlich-keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei die Parameter der Verteilungen bekannt und man konnte unmittelbar losle-gen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt sind. In solch einer Situation kann man mit der beurteilenden Statistik - aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits-

" U8ER. PliS LJoUfl.J (JI.!!) Wil<. HI/BEI.! WiR. WAS /.JiSSHJ: lJin ,zOM

iT, f:rJf()lIlTIOIJ

'KüoCSCHwsr G.iGEA/S(j{ltfrEN J)'(fi{,E#./SCI(I/ PT!/..) J)ff( <1 X

GROM l>6lJ Af,rTHEi" i.X)'-

1 gemeinsam mit Herrn Dr. Romberg.

221

(Oestreich & Romberg, 2012)

9 / 282

Page 10: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.1 Beispiel: IntelligenzquotientFragestellung: Haben (15-jahrige) Kinder aus Bochum einenhoheren Intelligenzquotienten als 100?

I 10 Kinder (zufallig ausgewahlt) machen einen IQ-TestDaten: y1, . . . , y10 Stichprobe

i 1 2 3 4 5yi 104 98 106 99 110i 6 7 8 9 10yi 107 100 97 108 112

I Hypothese (IQ der Kinder ist niedriger als 100):

H0 : µ ≤ 100

Alternative (IQ ist hoher als 100):

H1 : µ > 100

Dabei ist µ der (unbekannte) Erwartungswert derGesamtpopulation der (15-jahrigen) Kinder aus Bochum

10 / 282

Page 11: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Prinzip der schließenden Statistik

Auf Grund der Stichprobe y1, . . . , y10 sollen Aussagen uber dasMerkmal der Grundgesamtheit getroffen werden. Zum Beispiel

I Wie groß ist µ (Schatzung)?

I Kann man ein Intervall bestimmen, in dem µ liegt(Konfidenzintervall)?

I Gilt

H0 : µ ≤ 100 (IQ ist nicht hoher)

oder gilt

H1 : µ > 100 (IQ ist hoher)?

(statistischer Test)

11 / 282

Page 12: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Grundlegende Schwierigkeit:

I µ ist der Erwartungswert der Population der 15-jahrigen KinderI Auf Basis der Stichprobe soll auf die Grundgesamtheit

geschlossen werden−→ Fehler, Unsicherheiten sind moglich!

I Beispiel: ”zufallig“ wahlen wir 5 hochbegabte Kinder (IQ ≥ 130)fur die Stichprobe aus. Vermutlich wird dadurch µ uberschatzt!

I Ziel der schließenden Statistik:Quantifizierung der Unsicherheit, z. B.mit welcher Wahrscheinlichkeit macht ein statistischer Testeinen Fehler, falls (aufgrund von Daten) fur H1 (IQ ist hoher als100) entschieden wird, obwohl in Wirklichkeit H0 gilt?

I Notwendig fur diese Quantifizierung:Mathematische Modellannahmen

12 / 282

Page 13: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Zusatzliche Modellannahme: Normalverteilung

I Allgemein gangige Annahme: Intelligenz in einer bestimmtenAltersgruppe der Bevolkerung ist normalverteilt

ϕ(x) =1√

2πσ2exp

(−1

2 (x − µσ

)2)

µ : Erwartungswertσ2 : Varianz

I Deutung: Ist Y der IQ eines zufallig aus der Populationausgewahlten Individuums, so gilt

P(a ≤ Y ≤ b) =

∫ b

aϕ(x)dx

I Diese Modellannahme sollte man stets rechtfertigen (wie mandas machen kann, sehen wir spater)

13 / 282

Page 14: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Interpretation der Wahrscheinlichkeiten:

a b

I Die Wahrscheinlichkeit, dass eine Beobachtung zwischen denWerten a und b liegt, entspricht der Flache unter der Kurve imIntervall [a, b].

I In Formeln:P(a ≤ Y ≤ b) =

∫ b

aϕ(x)dx

14 / 282

Page 15: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Verschiedene Normalverteilungen N(µ, σ2)

Dichten der Normalverteilung mit verschiedenen Parametern

-4 -2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

0.5

N(0,0.707)N(0,1)N(1,1.25)N(2,2)

I µ: ErwartungswertI σ2: VarianzI Beachte: unter jeder Kurve ist die Flache genau 1

15 / 282

Page 16: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Motivation der Modellannahme derNormalverteilung

16 / 282

Page 17: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Zusatzliche Modellannahme: NormalverteilungI Mathematisches Modell (hier n = 10): y1, . . . , yn sind

Realisierungen von Zufallsvariablen

Yi = µ+ εi , i = 1, . . . , n

I yi : IQ-Messung fur i-tes Kind(Realisation der Zufallsvariablen Yi )

I µ: (unbekannter) Erwartungswert der Population(hier der 15-jahrigen Kinder aus Bochum)

I ε1, . . . , εn: unabhangige Zufallsvariable, normalverteilt mitErwartungswert 0 und Varianz σ2.Interpretation: Messfehler, genetische Variabilitat, Tagesform ...

I Mathematische Statistik z. B. Maximum Likelihood (in diesemBeispiel auch der gesunde Menschenverstand) liefert Schatzerfur µ:

µ = y · =1n

n∑i=1

yi = 104.1

I Wie genau ist diese Schatzung? Wie sehr streut dieseSchatzung?

17 / 282

Page 18: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Zusatzliche Modellannahme: NormalverteilungI Maß fur die Genauigkeit: Varianz (je kleiner die Varianz, desto

”genauer“ die Schatzung)I Mathematische Statistik (Methodenlehre I): die Varianz des

Schatzers µ ist:

Var(µ) =σ2

nI Beachte:

I Je großer der Stichprobenumfang n, desto kleiner die Varianzvon µ. D.h. desto genauer ist die Schatzung.

I Fur die Beurteilung der Genauigkeit muss man die Varianz σ2

der Population kennen.

I Mathematische Statistik: Schatzung fur den Parameter σ2

σ2 =1

n − 1

n∑i=1

(yi − y ·)2 = 28.32

σ2µ =

σ2

n = 2.832

18 / 282

Page 19: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Zusatzliche Modellannahme: NormalverteilungI Oft wird der Schatzer zusammen mit dem Standardfehler

angegeben

µ = 104.1µ+ σµ = 105.78µ− σµ = 102.42

I σµ = σ√n =

√σ2

n = 1.683 ist der Standardfehler des Schatzersµ (Schatzung fur Streuung des arithmetischen Mittels)

I σ = 5.322 ist die aus den Daten geschatzteStandardabweichung (Schatzung fur die Streuung einereinzelnen Beobachtung)

I Deutung: Vor der Datenerhebung ist µ zufallig. Falls dieNormalverteilungsannahme korrekt ist, ist auch µ normalverteiltmit:

- Erwartungswert µ- Varianz σ2

n

19 / 282

Page 20: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

40 60 80 100 120 140 160

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

x

Dic

hte

40 60 80 100 120 140 160

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

x

40 60 80 100 120 140 160

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Verschiedene Normalverteilungen

x

Y1 ~ N (104.1, 28.32)

((Y1 ++ Y2)) 2 ~ N (104.1, 28.32/2)

((∑∑i==1

10Yi)) 10 ~ N (104.1, 2.832)

40 60 80 100 120 140 160

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

x

Dic

hte

40 60 80 100 120 140 160

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

x

20 / 282

Page 21: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.2 Schatzverfahren (Erwartungswert einer Populationunter Normalverteilungsannahme)

I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µ

I Rechtfertigung der Unabhangigkeits- undNormalverteilungsannahme

I µ = 1n∑n

i=1 yi Schatzung fur den Erwartungswert µ derPopulation

I σ2 = 1n−1

∑ni=1(yi − y ·)2 Schatzung fur die Varianz der

Population (σ Schatzung fur die Standardabweichung)

I σ2µ = σ2

n Schatzung fur die Varianz von µ

I Schatzung fur den Standardfehler von µ : σµ =√

σ2

n = σ√n

21 / 282

Page 22: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output: die Schatzer fur die Daten ausBeispiel 1.1 (Intelligenzquotient)

Statistik StandardfehlerStatistik Statistik Statistik

VarianzStandardabweichungMittelwertN

Intelligenzquotient

Gültige Werte (Listenweise) 10

28,3225,3221,683104,1010

Deskriptive Statistik

µ = 104.1(Mittelwert)σµ = 1.683(Standardfehler)σ2 = 28.322(empirische Varianz)σ = 5.322(Standardabweichung)

22 / 282

Page 23: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output: die Schatzer fur die Daten ausBeispiel 1.1 (Intelligenzquotient)

V1

median 105.0000000

mean 104.1000000

SE.mean 1.6829207

CI.mean .0.95 3.8070312

var 28.3222222

std.dev 5.3218627

coef.var 0.0511226

23 / 282

Page 24: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beachte:I

µ =1n

n∑i=1

yi ; σ2 =1

n − 1

n∑i=1

(yi − y ·)2 ; σµ =

√σ2

n

hangen von den Daten y1, . . . , yn ab (sind also vorDatenerhebung zufallig)

I (µ− a σµ, µ+ a σµ

)ist (vor der Datenerhebung) ein zufalliges Intervall, das miteiner bestimmten Wahrscheinlichkeit den Erwartungswert µenthalt

a −→ 0 =⇒Wahrscheinlichkeit ≈ 0a −→∞ =⇒Wahrscheinlichkeit ≈ 1

I Gesucht: zufalliges Intervall, das den unbekanntenErwartungswert mit einer vorgegebenen Wahrscheinlichkeitenthalt: Konfidenzintervall

24 / 282

Page 25: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Das KonfidenzintervallI Gebe eine Wahrscheinlichkeit 1− α vor (z. B. 1− α = 95%)I Bestimme a so, dass das zufallige Intervall

(µ− a σµ, µ+ a σµ)

den Parameter µ mit Wahrscheinlichkeit 1− α enthalt.I Mathematische Statistik liefert

a = tn−1,1−α2

(1− α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden

I Diese Werte sind tabelliert oder durch Software verfugbar.I Das Intervall

I =(µ− tn−1,1−α2 σµ, µ+ tn−1,1−α2 σµ

)heißt (1− α) Konfidenzintervall fur µ.

25 / 282

Page 26: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Verschiedene t-Verteilungen

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

t t t

Dichten der t– Verteilung mit verschiedenen Freiheitsgraden

100

4

1

Dichten der t– Verteilung mit verschiedenen Freiheitsgraden

fn(t) =1√πn

Γ((n + 1)/2)

Γ(n/2)

(1 +

t2

n

)−(n+1)/2

26 / 282

Page 27: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Das Quantil der t-Verteilung mit nFreiheitsgraden

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte der t4 -Verteilung

t 4, 0.95 = 2.132

0.95

P(T4 ≤ t4,0.95) =

∫ t4,0.95

−∞f4(t)dt = 0.95

27 / 282

Page 28: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beispiel 1.3 (Fortsetzung von Beispiel 1.1)

I Berechnung eines 90% Konfidenzintervalls fur µ

I n = 10, µ = 104.1, σ2 = 28.32I α = 10%

I (aus Tabelle bzw. Software) t9,0.95 = 1.833I 90% Konfidenzintervall fur µ = (101.02, 107.18)

I Beachte:I Ein (1− α)-Konfidenzintervall ist ein ”zufalliges“ Intervall, das

den (unbekannten) Erwartungswert mit Wahrscheinlichkeit1− α enthalt.

I Die Aussage ”das Intervall (101.02, 107.18) enthalt denunbekannten Erwartungswert der Population mitWahrscheinlichkeit 90%“ hat keinen Sinn!

28 / 282

Page 29: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Erklarung des Begriffs ”zufalliges“ Intervall durchein ”fiktives“ Experiment

I Annahme: das Experiment (Untersuchung des IQ von 10Kindern) kann N mal (unabhangig) wiederholt werden (z. B.1000 mal)

I jeweils 10 Daten liefern ein (1− α)-Konfidenzintervall(z. B. 95 % Konfidenzintervall)Datensatz 1 −→ Konfidenzintervall I1Datensatz 2 −→ Konfidenzintervall I2

...Datensatz N −→ Konfidenzintervall IN

I ca. (1− α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den(unbekannten) Erwartungswert µ der Population

29 / 282

Page 30: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.4 Konfidenzbereich fur den Erwartungswert einer Po-pulation unter Normalverteilungsannahme

I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µ

I Rechtfertigung der Unabhangigkeits- undNormalverteilungsannahme

I Bestimme das tn−1,1−α2 Quantil der t-Verteilung mit n − 1Freiheitsgraden (aus Tabelle oder Software)

I Das Intervall

(µ− tn−1,1−α2 σµ, µ+ tn−1,1−α2 σµ)

ist ein (1− α) Konfidenzintervall fur µ

I In vielen Softwarepaketen erhalt man direkt dasKonfidenzintervall als Ausgabe (z. B. in SPSS)

30 / 282

Page 31: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output: Konfidenzintervall fur die Datenaus Beispiel 1.1 (Intelligenzquotient)

MittlereDifferenzSig. (2-seitig)dfT ObereUntere

90% Konfidenzintervall der Differenz

Testwert = 100

Intelligenzquotient 7,181,024,100,03892,436

Test bei einer Sichprobe

Beachte:

I SPSS liefert nur ein Konfidenzintervall fur die Differenz µ− 100=⇒ 90% Konfidenzintervall fur den Erwartungswert µ

(101.02, 107.18)

31 / 282

Page 32: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output: Konfidenzintervall fur die Daten ausBeispiel 1.1 (Intelligenzquotient)

One Sample t-test

data: IQ

t = 2.4362 , df = 9, p- value = 0.0376

alternative hypothesis : true mean is not equal to 100

90 percent confidence interval :

101.015 107.185

sample estimates :

mean of x

104.1

32 / 282

Page 33: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.2 t-Test fur eine Stichprobe

33 / 282

Page 34: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beispiel 1.5 (Fortsetzung von Beispiel 1.1)

Frage: Ist der IQ der Kinder aus Bochum hoher als 100?

H0 : µ ≤ 100 H1 : µ > 100

H0 nennt man Nullhypothese und H1 heißt Alternative.I Intuitiv wurde man fur H1 entscheiden, falls der Mittelwert der

Stichprobe

µ =1

10

10∑i=1

yi

”groß“ istI Beachte: µ andert sich, falls man die Daten anders skaliert!I Besser: entscheide fur H1, falls µ groß im Verhaltnis zu dem

Standardfehler σµ ist (Invarianz bzgl. unterschiedlicherSkalierungen)

34 / 282

Page 35: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls

T =µ− 100σµ

> c

Fragen:I Wie legt man den kritischen Wert c fest?

I Bei dem Verfahren konnen 2 Fehler auftreten

I Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohlH0 in Wirklichkeit stimmt (d. h. der IQ ist nicht hoher als 100)

I Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ isthoher als 100)

Ziel: ”kleine“ Wahrscheinlichkeiten fur Fehler erster und zweiter Art

35 / 282

Page 36: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Grundlegendes Prinzip der TesttheorieI Der kritische Wert c wird festgelegt, indem man eine maximal

tolerierbare Wahrscheinlichkeit α fur einen Fehler erster Artvorgibt (α-Fehler)!

I Diese Wahrscheinlichkeit heißt Niveau des Tests.I Damit hat man keine Kontrolle uber die Wahrscheinlichkeit eines

Fehlers zweiter Art (β-Fehler)I Z. B. soll die Wahrscheinlichkeit fur Fehler erster Art maximalα = 5% = 0.05 sein.

=⇒ (mathematische Statistik, Tabelle, Software)

n = 10, c = tn−1,1−α = t9,0.95 = 1.833

T =µ− 100σµ

=104.1− 100√

2.832= 2.436 > 1.833

D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%zu Gunsten der Alternative H1 : µ > 100 verworfen(signifikantes Ergebnis zum Niveau 5 %)

36 / 282

Page 37: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Erklarung des Begriffs Niveau durch ein ”fiktives“Experiment

I Annahme: Das Experiment (Untersuchung des IQ von 10Kindern) kann N mal (unabhangig) wiederholt werden (z. B.1000 mal)

I jeweils 10 Daten liefern ein Ergebnis fur den Test zum Niveau α(z.B. Niveau 5 %)Datensatz 1 −→ Testergebnis 1Datensatz 2 −→ Testergebnis 2

...Datensatz N −→ Testergebnis N

I Falls die Nullhypothese H0 : µ ≤ 100 ”wahr“ ist, so wirdmaximal in ca. αN (z. B. 5% 1000 = 50) Fallen fur dieAlternative

H1 : µ > 100

entschieden.

37 / 282

Page 38: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Fehler erster und zweiter Art

in der Population giltH0 H1

Entscheidung auf- richtige β-Fehlergrund der Stich- H0 Entscheidungprobe zugunsten richtigevon: H1 α-Fehler Entscheidung

Beachte:

I Die Wahrscheinlichkeiten fur α-Fehler und β-Fehler verandernsich gegenlaufig.

I Bei festem Niveau (Wahrscheinlichkeit fur α-Fehler) kann dieWahrscheinlichkeit fur einen β-Fehler durch Vergroßerung desStichprobenumfangs verkleinert werden.

I Bei festem Stichprobenumfang wird ”nur“ der Fehler erster Artkontrolliert.

38 / 282

Page 39: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Die Verteilung von T falls µ = 100 ist.

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Dichte der t9 -Verteilung

α = 5 %

p– Wert

t 9, 0.95 = 1.833 T n = 2.436

I Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls Tgroßer als der kritische Wert ist)

I Blaue Flache: Niveau (α)I Rote Flache: p-Wert: Wahrscheinlichkeit einen Wert großer als

2.436 zu beobachten: P(T > 2.436) = 0.0188I Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird

H0 abgelehnt (signifikantes Ergebnis)39 / 282

Page 40: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Testverfahren fur den Erwartungswert einerStichprobe unter Normalverteilungsannahme

1.6 Einstichproben t-Test fur rechtsseitige Hypothesen

I Hypothesen: H0 : µ ≤ µ0 ; H1 : µ > µ0 (rechtsseitigeHypothese)

I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und

NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls

T =µ− µ0σµ

> tn−1,1−α

gilt, bzw. falls der p-Wert < α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ

40 / 282

Page 41: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Vertauschen der Hypothesen

1.7 Einstichproben t-Test fur linksseitige Hypothesen

I Hypothesen: H0 : µ ≥ µ0 ; H1 : µ < µ0 (linksseitigeHypothese)

I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und

NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls

T =µ− µ0σµ

< −tn−1,1−α = tn−1,α

gilt, bzw. falls der p-Wert < α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ

41 / 282

Page 42: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Tests fur zweiseitige Hypothesen

1.8 Einstichproben t-Test fur zweiseitige Hypothesen

I Hypothesen: H0 : µ = µ0 ; H1 : µ 6= µ0 (zweiseitigeHypothese)

I Daten y1, . . . , yn (Stichprobe) mit Erwartungswert µI Rechtfertigung der Unabhangigkeits- und

NormalverteilungsannahmeI H0 wird zum Niveau α verworfen, falls

|T | = | µ− µ0σµ

| > tn−1,1−α/2

gilt, bzw. falls der p-Wert kleiner als α ist.I µ: Schatzer fur µ; σµ: Schatzer fur den Standardfehler vonµ

42 / 282

Page 43: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Die Verteilung von T , falls µ = 100 ist.

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

α = 2,5 % α = 2,5 %

p– Wert p– Wert

Dichte der t9 -Verteilung

t 9, 0.975 = 2.262 T n = 2.436 t 9, 0.025 = -2.262 -T n = -2.436

I Blaue Flache: Niveau α; Rote Flache: p-Wert(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betraggroßer als 2.436 ist P(|T | > 2.436) = 0.038

I Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wirdH0 abgelehnt!

43 / 282

Page 44: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output bei Anwendung des t-Tests auf dieDaten aus Beispiel 1.1 (Intelligenzquotient)

MittlereDifferenzSig. (2-seitig)dfT ObereUntere

90% Konfidenzintervall der Differenz

Testwert = 100

Intelligenzquotient 7,181,024,100,03892,436

Test bei einer Sichprobe

Beachte:

I SPSS liefert nur den p-Wert fur den zweiseitigen t-Test ausBeispiel 1.8!

I Den p-Wert fur den einseitigen Test erhalt man als0.038/2 = 0.019.

44 / 282

Page 45: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output bei Anwendung des t-Tests auf dieDaten aus Beispiel 1.1 (Intelligenzquotient)

One Sample t-test

data: IQ

t = 2.4362 , df = 9, p- value = 0.0376

alternative hypothesis : true mean is not equal to 100

90 percent confidence interval :

101.015 107.185

sample estimates :

mean of x

104.1

45 / 282

Page 46: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beispiel: t-Test fur den Vergleich von zwei

”verbundenen“ Stichproben

I Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8vorgestellten Verfahren besteht in dem Vergleich von

”verbundenen“ Stichproben (vorher - nachher Untersuchungen)I Beispiel: Untersuchung der Einstellungen von 9 Jungen

gegenuber neutralen Personen vor und nach einemFrustrationserlebnis (Sundenbockfunktion).

VPn 1 2 3 4 5 6 7 8 9Einstell- vorher 38 32 33 28 29 37 35 35 34ung nachher 33 28 34 26 27 31 32 36 30

∆ -5 -4 1 -2 -2 -6 -3 1 -4

46 / 282

Page 47: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Prinzip: ”Differenzenbildung“I Prinzip:

I Falls kein Unterschied zwischen den Einstellungen vor und nachdem Frustrationserlebnis besteht sollten die Differenzen (nachher- vorher) ”klein“ sein.

I Durch Differenzenbildung (nachher - vorher) erhalt man die

”Daten“ ∆1, . . . ,∆9I Rechtfertigung der Voraussetzungen fur den t-Test aus 1.8 fur

diese ”Daten“.I Wende den t-Test fur eine Stichprobe auf die ”Daten“

∆1, . . . ,∆9 an und teste die Hypothesen

H0 : µ = 0, H1 : µ 6= 0

I Wegen

|T | =

∣∣∣∣−2.6670.816

∣∣∣∣ = 3.27 > 2.31 = t8,0.975

besteht zum Niveau α = 0.05 ein signifikanter Unterschied.

47 / 282

Page 48: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output: t-Test fur gepaarte Stichproben

Standardfehlerdes Mittelwertes

Standard-abweichungNMittelwert

vorher

nachher

Paaren 1

1,1153,346930,78

1,1193,358933,44

Statistik bei gepaarten Stichproben

SignifikanzKorrelationN

vorher & nachherPaaren 1 ,025,7339

Korrelationen bei gepaarten Stichproben

Standardfehlerdes Mittelwertes

Standard-abweichungMittelwert ObereUntere

95%Konfidenzintervall

der Differenz

Gepaarte Differenzen

vorher - nachherPaaren 1 4,550,784,8162,4492,667

Test bei gepaarten Stichproben

Sig.(2-seitig)dfT

vorher - nachherPaaren 1 ,01183,266

Test bei gepaarten Stichproben

48 / 282

Page 49: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output: t-Test fur gepaarte StichprobenMittelwert Standardabweichung SA des Mittelwerts

vorher 33.44444 3.35824 1.119413

nachher 30.77778 3.34581 1.115270

One Sample t-test

data: Differenzen

t = 3.266 , df = 8, p- value = 0.01142

alternative hypothesis : true mean is not equal to 0

95 percent confidence interval :

0.7838222 4.5495112

sample estimates :

mean of x

2.666667

Pearson ’s product - moment correlation

data: vorher and nachher

t = 2.8511 , df = 7, p- value = 0.02465

alternative hypothesis : true correlation is not equal to 0

95 percent confidence interval :

0.1342322 0.9396851

sample estimates :

cor

0.7330087

49 / 282

Page 50: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.9 Bemerkungen (zu den statistischen Verfahren1.2, 1.4, 1.6, 1.7, 1.8)

I Mathematische Statistik⇒ unter der Normalverteilungsannahmesind alle hier vorgestellten Verfahren optimal

I Die Normalverteilungsannahme kann (und sollte) manrechtfertigen. Mogliche Verfahren sind:

I statistische Tests fur die Hypothese

H0 : Y1, . . . ,Yn normalverteilt

In SPSS ublich sind- Kolmogorov-Smirnov-Test- Shapiro-Wilk Test

I Explorative Verfahren. In SPSS ublich: QQ-Plot

I Besteht die Normalverteilungsannahme diese Uberprufung nicht,so sind z. B. nichtparametrische Verfahren anzuwenden.

50 / 282

Page 51: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS Output: QQ-Plot fur die Daten ausBeispiel 1.1

Beobachteter Wert

11511010510095

Erw

arte

ter

Wer

t vo

n N

orm

al

115

110

105

100

95

Q-Q-Diagramm von Normal von Intelligenzquotient

51 / 282

Page 52: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R Output: QQ-Plot fur die Daten aus Beispiel 1.1

100 105 110

9510

010

511

0

Beobachteter Wert

Erw

arte

ter

Wer

t

52 / 282

Page 53: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Der QQ-PlotI Unter der Modellannahme gilt: die Großen Yi sind normalverteilt

mit Erwartungswert µ und Varianz σ2

I Der QQ-Plot vergleicht grafisch die empirischen Quantile der”Daten“ y1, . . . , yn mit den Quantilen der Normalverteilung mitErwartungswert µ und Varianz σ2.(1) 1/n-Quantil der Stichprobe y1, . . . yn =⇒ kleinste der

Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)(1− 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µund Varianz σ2 =⇒ (im Beispiel 1.1 istz(1) = 104.1− 1.64 · 5.32 = 95.37)1

(2) 2/n-Quantil der Stichprobe y1, . . . , yn =⇒ zweitkleinste derBeobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)(2− 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µund Varianz σ2 =⇒ (in Beispiel 1.1 istz(2) = 104.1− 1.04 · 5.32 = 98.57)

(3) usw.I Der QQ-Plot ist das Streudiagramm der Daten

(y(1), z(1)), . . . , (y(n), z(n))I In in vielen Fallen enthalt dieses Diagramm noch die

Winkelhalbierende des entsprechenden Quadranten.1http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf 53 / 282

Page 54: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.3 Zweistichprobenprobleme

54 / 282

Page 55: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.10 Beispiel: Erkennen von Zahlenreihen

I Studierende der Fachrichtungen Mathematik (M) undPsychologie (P) machen einen Zahlengedachtnistest

I Wie viele Ziffern konnen sich maximal gemerkt werdenI Wiedergabe in Original und umgekehrter Reihenfolge

I Daten (P. Zofel: Statistik fur Psychologen)

M 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16M 14 17 15 13 16 13P

I Frage: Haben Studierende der Mathematik ein besseresZahlengedachtnis als Studierende der Psychologie?

55 / 282

Page 56: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Mathematisches Modell (n1 = 14, n2 = 8)

I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2

Yij : Ergebnis der j-ten Versuchsperson in Gruppe i(Mathematik: i = 1, Psychologie i = 2)

µi : unbekannter Erwartungswert in der Population i(Mathematik: i = 1, Psychologie: i = 2)

εij : Messfehler, Tagesform ...

ni : Stichprobenumfang in Gruppe i

I Normalverteilungs- und UnabhangigkeitsannahmeI in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit

Erwartungswert µi und Varianz σ2i vor

I in jeder Gruppe sind die Beobachtungen unabhangigI unabhangige Stichproben

56 / 282

Page 57: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SchatzerI Schatzer werden wie in 1.2 fur jede Gruppe durchgefuhrt

Mathematiker (i = 1): µ1 = y 1· = 1n1

∑n1j=1 y1j = 14.64

σ21 =

1n1 − 1

n1∑j=1

(y1j − y 1·)2 = 3.94⇒ σµ1 =

√σ2

1n1

= 0.53

Psychologen (i = 2): µ2 = y 2· = 1n2

n2∑j=1

y2j = 13.75

σ22 =

1n2 − 1

n2∑j=1

(y2j − y 2·)2 = 4.79⇒ σµ2 =

√σ2

2n2

= 0.77

I Auch Konfidenzbereiche werden gruppenweise bestimmtz. B. ist unter Normalverteilungsannahme(

µ1 − tn1−1,1−α2 σµ1 , µ1 + tn1−1,1−α2 σµ1

)ein 90% Konfidenzintervall fur µ1. Fur das spezielleDatenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (ausTabelle)](13.70, 15.58) als 90% Konfidenzintervall fur µ1

57 / 282

Page 58: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output fur die Daten aus Beispiel 1.10

Schatzer fur die Parameter in den einzelnen Gruppen

VarianzMittelwertMathematik

Psychologie

Insgesamt 4,22714,32

4,78613,75

3,94014,64StudienfachStudienfach

Gemerkte Zahlen

Beachte:I SPSS liefert hier die Schatzer fur Erwartungswert und Varianz

der einzelnen GruppenI SPSS liefert außerdem Schatzer fur Erwartungswert und Varianz

der gesamten Stichprobe

58 / 282

Page 59: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output fur die Daten aus Beispiel 1.10

Schatzer fur die Parameter in den einzelnen Gruppen

Mittelwert Varianz

Mathematik 14.64286 3.939560

Psychologie 13.75000 4.785714

Insgesamt 14.31818 4.227273

59 / 282

Page 60: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Tests zum Vergleich der Erwartungswerte

I Nullhypothese: Zahlengedachtnis der Psychologiestudenten istnicht schlechter als das der Mathematikstudenten

H0 : µ1 ≤ µ2

I Alternative: Zahlengedachtnis der Mathematikstudenten istbesser als das der Psychologiestudenten

H1 : µ1 > µ2

I Rezept: Verwerfe die Nullhypothese H0 zu Gunsten derAlternative H1, falls die Differenz

y 1· − y 2·

der Schatzer fur die Erwartungswerte ”groß“ ist.

60 / 282

Page 61: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Rezept im Fall von Varianzhomogenitat, d. h.(σ2

1 = σ22)

I Verwerfe H0 zu Gunsten von H1, falls y 1· − y 2· ”groß“ ist.I Normiere diese Große mit einem Schatzer fur die Standardfehler

der Mittelwertdifferenz:I σµ1−µ2 =

√( 1

n1+ 1

n2)σ2

I σ2 = 1n1+n2−2{(n1 − 1)σ2

1 + (n2 − 1)σ22}: Schatzer fur Varianz

(die in beiden Gruppen dieselbe ist)I Entscheide fur die Alternative H1 : µ1 > µ2, falls

Tn1,n2 =y 1· − y 2·σµ1−µ2

> tn1+n2−2,1−α

gilt. Dabei ist tn1+n2−2,1−α das (1− α)-Quantil der t-Verteilungmit n1 + n2 − 2 Freiheitsgraden

I Im Beispiel ergibt sich fur einen Test zum Niveau α = 5%

σ2 = 4.24, t20,0.95 = 1.725 =⇒ T14,8 = 0.979

d. h. die Hypothese H0 kann nicht verworfen werden.61 / 282

Page 62: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Testverfahren fur die Erwartungswerte von zweiStichproben unter Normalverteilungsannahme

1.11(a) Einseitiger t-Test fur zwei unabhangige Stich-proben (rechtsseitige Hypothese)

I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2

1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2

2)I Rechtfertigung der Voraussetzungen

I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2

1 = σ22

I Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten derAlternative H1 : µ1 > µ2 verworfen, falls

Tn1,n2 =y 1· − y 2·σµ1−µ2

> tn1+n2−2,1−α

gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√

( 1n1

+ 1n2

)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.

62 / 282

Page 63: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.11(b) Einseitiger t-Test fur zwei unabhangige Stich-proben (linksseitige Hypothese)

I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2

1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2

2)I Rechtfertigung der Voraussetzungen

I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2

1 = σ22

I Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten derAlternative H1 : µ1 < µ2 verworfen, falls

Tn1,n2 =y 1· − y 2·σµ1−µ2

< −tn1+n2−2,1−α = tn1+n2−2,α

gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√

( 1n1

+ 1n2

)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.

63 / 282

Page 64: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.11(c) t-Test fur zwei unabhangige Stichproben (zwei-seitige Hypothesen)

I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2

1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2

2)I Rechtfertigung der Voraussetzungen

I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)I Varianzhomogenitat, d. h. σ2

1 = σ22

I Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied derErwartungswerte in beiden Gruppen) wird zu Gunsten derAlternative H1 : µ1 6= µ2 verworfen, falls

|Tn1,n2 | =|y 1· − y 2·|σµ1−µ2

> tn1+n2−2,1−α2

gilt, bzw. der p-Wert < α ist. σµ1−µ2 =√

( 1n1

+ 1n2

)σ2 istder Schatzer fur den Standardfehler der Mittelwertdifferenz.

64 / 282

Page 65: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Bemerkung zur Varianzhomogenitat

Ist die Annahme der Varianzhomogenitat

σ21 = σ2

2

nicht erfullt, so

I wird die vorgegebene Wahrscheinlichkeit fur einen α-Fehler nichteingehalten (der Test halt sein Niveau nicht)

I ist die Wahrscheinlichkeit fur einen β-Fehler großer

I von Interesse ist daher auch ein Test fur die Hypothesen

H0 : σ21 = σ2

2 H1 : σ21 6= σ2

2

und ein Verfahren, das ohne die Annahme derVarianzhomogenitat auskommt.

65 / 282

Page 66: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Rezept (fur Test auf Varianzhomogenitat)I Die Nullhypothese H0 : σ2

1 = σ22 gilt genau dann, wenn

F =σ2

1σ2

2= 1

I Schatze den Quotienten der beiden Varianzen, durch

Fn1−1,n2−1 =σ2

1σ2

2=

1n1−1

∑n1j=1(y1j − y 1·)

2

1n2−1

∑n2j=1(y2j − y 2·)

2

I Die Nullhypothese H0 wird zu Gunsten der AlternativeH1 : σ2

1 6= σ22 verworfen, falls

Fn1−1,n2−1 > c2 oder Fn1−1,n2−1 < c1

giltI Die kritischen Werte c1 und c2 werden so festgelegt, dass die

Wahrscheinlichkeit fur einen Fehler erster Art maximal α ist!

66 / 282

Page 67: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.12 F -Test fur den Vergleich von zwei Stichprobenva-rianzen

I TeststatistikFn1−1,n2−1 =

σ21σ2

2

I Die NullhypotheseH0 : σ2

1 = σ22

(die Varianzen sind gleich) wird zu Gunsten der Alternative

H1 : σ21 6= σ2

2

verworfen, falls mindestens eine der Ungleichungen

Fn1−1,n2−1 < Fn1−1,n2−1,α2

Fn1−1,n2−1 > Fn1−1,n2−1,1−α2

erfullt istI Fn1−1,n2−1,β bezeichnet das β-Quantil der F -Verteilung mit

(n1 − 1, n2 − 1) Freiheitsgraden

67 / 282

Page 68: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Verschiedene F -Verteilungen

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

F F F F

Dichten der F– Verteilung mit verschiedenen Freiheitsgraden

2, 10

4, 4

10, 1

20, 20

fm,n(x) =Γ( m+n

2 )

Γ( m2 )Γ( n

2 )

(m2

)m2 x m

2 −1

(1 + mn x)

m+n2

(x ≥ 0)

68 / 282

Page 69: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Das Quantil der F -Verteilung mit (n1, n2)Freiheitsgraden

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Dichte der F4, 4 -Verteilung

F 4, 4; 0.9 = 4.107

0.9

P(F4,4,≤ F4,4,0.9) =

∫ F4,4,0.9

−∞fm,n(x) dx = 0.90

69 / 282

Page 70: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Der F -Test auf Varianzhomogenitat fur dieDaten aus Beispiel 1.10 (n1 = 14, n2 = 8)

I σ21 = 3.94 σ2

2 = 4.79 ⇒ F13,7 = 0.823

I Fur das Niveau α = 10% erhalt man

F13,7,0.05 = 0.3531 F13,7,0.95 = 3.5503

und damit kann die Nullhypothese zum Niveau 10% nichtverworfen werden

I Beachte: Oft wird der Test 1.12 verwendet, um dieVoraussetzungen fur den t-Test zu uberprufen

I In diesem Fall wahlt man oft ein großeres Niveau (→ kleinereWahrscheinlichkeit fur β-Fehler)

I Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dannt-Test) hat nicht das Niveau α.

I Was macht man, falls F -Test H0 verwirft?

70 / 282

Page 71: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.13(a) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)

I Dateny11, . . . , y1n1 (Gruppe 1; Erwartungswert µ1; Varianz σ2

1)y21, . . . , y2n2 (Gruppe 2; Erwartungswert µ2; Varianz σ2

2)I Rechtfertigung der Voraussetzungen

I Unabhangigkeit in und zwischen den GruppenI Normalverteilungsannahme (in beiden Gruppen)

I Varianzen in den Gruppen sind nicht notwendig gleichI Teststatistik

T Wn1,n2

=y 1· − y 2·

τ

I Dabei ist

τ =√τ 2 =

√σ2

1n1

+σ2

2n2

die Schatzung fur den Standardfehler von y 1· − y 2·

71 / 282

Page 72: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.13(b) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)

I Die NullhypotheseH0 : µ1 ≤ µ2

(Erwartungswert der ersten Population nicht großer als derder Zweiten) wird zu Gunsten der Alternative

H1 : µ1 > µ2

fallsT W

n1,n2> tf ,1−α

gilt, bzw. der p-Wert < α ist. Dabei bezeichnet

f =(σ2µ1

+ σ2µ2

)2

σ4µ1

n1−1 +σ4µ2

n2−1

die geschatzten Freiheitsgrade der t-Verteilung.

72 / 282

Page 73: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.13(c) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)

I Die NullhypotheseH0 : µ1 ≥ µ2

(Erwartungswert der ersten Population nicht kleiner als derder Zweiten) wird zu Gunsten der Alternative

H1 : µ1 < µ2

verworfen, falls

T Wn1,n2

< tf ,α = −tf ,1−α

gilt, bzw. der p-Wert < α ist. Dabei bezeichnet

f =(σ2µ1

+ σ2µ2

)2

σ4µ1

n1−1 +σ4µ2

n2−1

die geschatzten Freiheitsgrade der t-Verteilung.

73 / 282

Page 74: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.13(d) t-Test fur zwei unabhangige Stichproben mitnicht notwendig gleichen Varianzen (Welch-Test)

I Die NullhypotheseH0 : µ1 = µ2

(kein Unterschied der Erwartungswerte in beiden Gruppen)wird zu Gunsten der Alternative

H1 : µ1 6= µ2

(es besteht ein Unterschied) verworfen, falls

|T Wn1,n2| > tf ,1−α2

gilt, bzw. der p-Wert < α ist. Dabei bezeichnet

f =(σ2µ1

+ σ2µ2

)2

σ4µ1

n1−1 +σ4µ2

n2−1

die geschatzten Freiheitsgrade der t-Verteilung.

74 / 282

Page 75: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Bemerkung: t-Test oder Welch-Test?

I Sind die Voraussetzungen fur den t-Test erfullt(Normalverteilung, Unabhangigkeit, Varianzhomogenitat),so ist dieses Verfahren optimal, d. h. dieser Test minimiert unterallen Tests zum Niveau α die Wahrscheinlichkeit fur einenβ-Fehler.

I Ist die Voraussetzungen der Varianzhomogenitat beim t-Testnicht erfullt, so wird die vorgegebene Wahrscheinlichkeit fureinen α-Fehler nicht eingehalten.

I Der Welch-Test ist eine ”Naherungslosung“, d. h. dieWahrscheinlichkeit fur einen α-Fehler ist ”nur“naherungsweise α.

I Der Welch-Test hat im Fall der Varianzhomogenitat eine großereWahrscheinlichkeit fur einen β-Fehler als der t-Test.

75 / 282

Page 76: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output fur die Daten aus Beispiel 1.10

SignifikanzF Sig. (2-seitig)dfT

T-Test für die MittelwertgleichheitLevene-Test der Varianzgleichheit

Varianzen sind gleich

Varianzen sind nicht gleich

Gemerkte Zahlen

,35813,523,952

,33920,979,752,103

Test bei unabhängigen Stichproben

Standardfehlerder Differenz

MittlereDifferenz ObereUntere

95% Konfidenzintervall der Differenz

T-Test für die Mittelwertgleichheit

Varianzen sind gleich

Varianzen sind nicht gleich

Gemerkte Zahlen

2,911-1,125,938,893

2,796-1,010,912,893

Test bei unabhängigen Stichproben

Beachte:I SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenitat

sondern ein ”robustes“ Verfahren (Levene-Test)I SPSS liefert nur einen p-Wert fur den zweiseitigen t-Test aus Beispiel

1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)I SPSS liefert ein Konfidenzintervall fur die Differenz µ1 − µ2 =⇒ 95%

Konfidenzintervall fur die Differenz der Erwartungswerte (unter derAnnahme gleicher Varianzen)

(−1.01, 2.796)76 / 282

Page 77: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output fur die Daten aus Beispiel 1.10

Levene ’s Test for Homogeneity of Variance ( center = mean)

Df F value Pr(>F)

group 1 0.103 0.7516

20

Two Sample t-test

data: values by ind

t = 0.9789 , df = 20, p- value = 0.3393

alternative hypothesis : true difference in means is not equal to 0

95 percent confidence interval :

-1.009852 2.795566

sample estimates :

mean in group M mean in group P

14.64286 13.75000

Welch Two Sample t-test

data: values by ind

t = 0.952 , df = 13.523 , p- value = 0.3578

alternative hypothesis : true difference in means is not equal to 0

95 percent confidence interval :

-1.125361 2.911075

sample estimates :

mean in group M mean in group P

14.64286 13.75000

77 / 282

Page 78: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.4 Einfaktorielle Varianzanalyse

78 / 282

Page 79: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.14 Beispiel: Fortsetzung von Beispiel 1.10

I An dem Zahlengedachtnistest (vgl. Beispiel 1.10) nehmen auchnoch 7 Studierende der Geisteswissenschaften (G) teil.

M 14 14 15 12 13 19 17 13P 13 14 13 12 16 16 10 16G 11 13 13 10 13 12 13 -M 14 17 15 13 16 13 - -P - - - - - - - -G - - - - - - - -

I Frage: Existieren Unterschiede hinsichtlich desZahlengedachtnisses zwischen dem Studierenden derPsychologie, Mathematik und Geisteswissenschaften?

79 / 282

Page 80: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2, 3

Yij : Ergebnis der j-ten Versuchsperson in Gruppe i(Mathematik: i = 1, Psychologie: i = 2,Geisteswissenschaften: i = 3)

µi : unbekannter Erwartungswert in der Population i(Mathematik: i = 1, Psychologie: i = 2,Geisteswissenschaften: i = 3)

εij : Storgroßen (Erwartungswert 0 und Varianz σ2)

I Normalverteilungs und UnabhangigkeitsannahmeI in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit

Erwartungswert µi vorI in jeder Gruppe sind die Beobachtungen unabhangigI unabhangige Stichproben

I NullhypotheseH0 : µ1 = µ2 = µ3

80 / 282

Page 81: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Schatzer und KonfidenzbereicheI Schatzer fur Erwartungswert und Varianz werden in den

einzelnen Gruppen durchgefuhrt

I Beispiel:y i· σ2

i σµi niMathematik (i = 1) 14.64 3.94 0.53 14Psychologie (i = 2) 13.75 4.79 0.60 8Geisteswissenschaften (i = 3) 12.14 1.48 0.46 7

I µ1 = 14.64 ist Schatzer fur den ”Erwartungswert derMathematiker“

I Beachte: t6,0.95 = 1.943, µ3 + σµ3 t6,0.95 = 13.03µ3 − σµ3 t6,0.95 = 11.25, also ist das Intervall

[11.25, 13.03]

ein 90% Konfidenzintervall fur den ”Erwartungswert derGeisteswissenschaftler“

81 / 282

Page 82: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output

NStandardfehler

des MittelwertesVarianzMittelwertMathematik

Psychologie

Geisteswissenschaften

Insgesamt 29,3894,38413,79

7,4591,47612,14

8,7734,78613,75

14,5303,94014,64StudienfachStudienfach

Gemerkte Zahlen

82 / 282

Page 83: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output

Mittelwert Varianz SF des Mittelwerts N

Mathematik 14.64286 3.939560 0.5304688 14

Psychologie 13.75000 4.785714 0.7734431 8

Geisteswissenschaften 12.14286 1.476190 0.4592215 7

Insgesamt 13.79310 4.384236 0.3888195 29

83 / 282

Page 84: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Prinzip der VarianzanalyseI Ziel: Test fur die Hypothese ”es bestehen keine Unterschiede

zwischen den Gruppen“

H0 : µ1 = µ2 = µ3

I Idee: Bestimme die Streuung der Daten:I Mittelwert aus allen Daten:

y ·· =1n

3∑i=1

ni∑j=1

yij

wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungenbezeichnet.

I Varianz (n = n1 + n2 + n3)

1n − 1

3∑i=1

ni∑j=1

(yij − y ··)2

und versuche Unterschiede in der Merkfahigkeit aufgrund derGruppenzugehorigkeit durch eine Zerlegung der Streuung bzgl.der Gruppen zu erklaren!

84 / 282

Page 85: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Prinzip der VarianzanalyseI Zerlegung der Summe der QuadrateI Haufig verwendete Abkurzungen: SS ≡ Sum of squares;

SAQ ≡ Summe der AbweichungsquadrateI Summe der Quadrate innerhalb der Gruppen (within groups)

SSR =

3∑i=1

ni∑j=1

(yij − y i·)2

und

y i· =1ni

ni∑j=1

yij

den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet.I Summe der Quadrate zwischen den Gruppen (between groups)

SSM =

3∑i=1

ni (y i· − y ··)2

85 / 282

Page 86: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Prinzip der Varianzanalyse

I Zerlege die Summe der Quadrate in eine durch das Modellerklarte Summe (Varianz zwischen den Gruppen) und eineSumme von Quadraten der nicht erklarten Varianz (Varianzinnerhalb der Gruppen)

SST =3∑

i=1

ni∑j=1

(yij − y ··)2

︸ ︷︷ ︸Gesamtvarianz (Total)

=3∑

i=1

ni∑j=1

(yij − y i·)2

︸ ︷︷ ︸Gesamtvarianz innerhalb der Gruppen

+3∑

i=1ni (y i· − y ··)2

︸ ︷︷ ︸Varianz zwischen den Gruppen

86 / 282

Page 87: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

F -Test fur die Hypothese H0 : µ1 = µ2 = µ3(gleiche Erwartungswerte in den drei Gruppen)

I Vergleiche die Varianz zwischen den Gruppen mit der Varianzinnerhalb der Gruppen

F =1

3−1∑3

i=1 ni (y i· − y ··)2

129−3

∑3i=1∑ni

j=1(yij − y i·)2

Falls F ”groß“ ist, wird die Nullhypothese H0 abgelehnt.I Mathematische Statistik ⇒ Test zum Niveau α verwirft die

Nullhypothese H0, falls

F > F2,26,1−α

gilt (Vergleich mit dem (1− α)-Quantil der F -Verteilung mit (2,26) Freiheitsgraden), bzw. falls der zugehorige p-Wert des Testskleiner als α ist.

87 / 282

Page 88: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beispiel 1.15 (Fortsetzung von Beispiel 1.14)I Frage: ”besteht ein Unterschied zwischen den Studierenden der

Facher Psychologie, Mathematik und Geisteswissenschaftenbzgl. des Zahlengedachtnisses“Genauer: Besteht ein Unterschied zwischen denErwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3

I n1 = 14, n2 = 8, n3 = 7; α = 5% F2,26,0.95 = 3.37

F =SSM/2SSR/26 =

14.63.6 = 4.06 > 3.37

I D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%abgelehnt.

I In anderen Worten: zwischen den Studierenden derverschiedenen Facher besteht ein Unterschied

I Beachte: In vielen Fallen ist man an der Frage interessiert,zwischen welchen Gruppen ein Unterschied besteht. Diese Fragebeantwortet der F -Test nicht!

88 / 282

Page 89: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

F -Verteilung

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

Dic

hte

F == 4.06

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

Dic

hte

Dichte der F2,26 −− Verteilung

F2,26,0.95 == 3.37

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

Dic

hte

http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm89 / 282

Page 90: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

F -Verteilung

2.5 3.0 3.5 4.0 4.5 5.0

0.00

0.05

0.10

0.15

x

Dic

hte

F2,26,0.95 == 3.37 F == 4.06

Dichte der F2,26 −− Verteilung ((Zoom))

αα == 5%

p−Wert

2.5 3.0 3.5 4.0 4.5 5.0

0.00

0.05

0.10

0.15

x

Dic

hte

I Blaue Flache: Niveau des TestsI Rote Flache: p-Wert (Wahrscheinlichkeit, dass ein Wert großer

als F = 4.06 beobachtet wird)

90 / 282

Page 91: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Varianzanalysetabelle (k bezeichnet die Anzahlder Gruppen)

Variabilitat Sum of Squares df SS/df F

zwischen SSM k − 1 SSM/(k − 1) SSMk−1 /

SSRn−k

innerhalb SSR n − k SSR/(n − k)gesamt SST n − 1 SST/(n − 1)

Beispiel (Zahlengedachtnis)

Variabilitat Sum of Squares df SS/df Fzwischen 29.2 2 14.6 4.06innerhalb 93.6 26 3.6gesamt 122.8 28

91 / 282

Page 92: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output

SignifikanzFMittel der QuadratedfQuadratsumme

Zwischen den Gruppen

Innerhalb der Gruppen

Gesamt 28122,759

3,5992693,571

,0294,05514,594229,187

Gemerkte Zahlen

92 / 282

Page 93: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output

Df Sum Sq Mean Sq F value Pr(>F)

ind 2 29.19 14.594 4.055 0.0293 *

Residuals 26 93.57 3.599

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

93 / 282

Page 94: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Beispiel 1.16 (Fortsetzung von Beispiel 1.15)I Bei signifikantem Ergebnis der Varianzanalyse (d. h. die

Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sichdie Frage:

”Welche Gruppe ist maßgeblich fur die Signifikanzverantwortlich?“

I Losungsvorschlag: paarweise Vergleiche!Gruppe 1 - Gruppe 2; H12 : µ1 = µ2Gruppe 1 - Gruppe 3; H13 : µ1 = µ3Gruppe 2 - Gruppe 3; H23 : µ2 = µ3

I Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.1.11(b)) durchgefuhrt.

I Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe dieHypothese H0 : µ1 = µ2 = µ3, falls mindestens ein Paarvergleichsignifikant ist das Niveau α einhalt.

I Die t-Tests fur die paarweisen Vergleiche sind mit Niveau α/3durchzufuhren. Man dividiert durch 3, da 3 paarweise Vergleichedurchgefuhrt werden (Bonferroni-Methode)

94 / 282

Page 95: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Paarweise Vergleiche (α = 5%):I Zwei-Stichproben t-Test-Statistik fur den Vergleich von Gruppe

i mit Gruppe j :

Ti,j =|Yi· − Yj·|

σij

σ2ij =

( 1ni

+1nj

)( 1ni + nj − 2{(ni − 1)σ2

i + (nj − 1)σ2j })

i j Ti,j ni nj tni+nj−2,1−α′/2 p-Wert signifikant1 2 0.98 14 8 2.61 0.339 nein1 3 3.04 14 7 2.62 0.007 ja2 3 1.72 8 7 2.74 0.109 nein

Beachte: Die paarweisen Vergleiche werden zum Niveauα′ = α/3 = 5%/3 = 0.0167 durchgefuhrt ( 3 Vergleiche).

I Mit dieser Methode kann man zum Niveau 5% einensignifikanten Unterschied zwischen den Gruppen feststellen.

I Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveaudes Verfahrens wird unterschatzt).

I Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahrennicht zu empfehlen.

95 / 282

Page 96: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Post-Hoc-Test ”Bonferroni“ in SPSSI Verwendet andere Schatzung fur den Standardfehler der

Differenz der Mittelwerte aus Gruppe i und j :

σ2ij =

(1ni

+1nj

)(1

n − 3

3∑k=1

(nk − 1)σ2k

)

I An Stelle der Quantile der t-Verteilung mit ni + nj − 2Freiheitsgraden mussen dann die Quantile der t-Verteilung mitn − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3)

I Das Niveau fur die Paarvergleiche muss dann wieder durch dieAnzahl der Vergleiche dividiert werden (im Beispiel α/3)

I Adjustierung der p-Werte erfolgt durch Multiplikation derp-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.Z. B.

0.894 = 3 · P(|T12| > 0.893/0.841)

Dabei berechnet sich die Wahrscheinlichkeit mit einert-Verteilung mit 26 = 29− 3 Freiheitsgraden.

96 / 282

Page 97: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output paarweise Vergleiche mit derBonferroni-Methode

SignifikanzStandardfehlerMittlere

Differenz (I-J) ObergrenzeUntergrenze

95%-Konfidenzintervall

Psychologie

Geisteswissenschaften

Mathematik

Geisteswissenschaften

Mathematik

Psychologie

Mathematik

Psychologie

Geisteswissenschaften

,91-4,12,341,982-1,607

-,25-4,75,026,878-2,500*

4,12-,91,341,9821,607

1,26-3,04,894,841-,893

4,75,25,026,8782,500*

3,04-1,26,894,841,893(I) Studienfach (J) Studienfach(I) Studienfach (J) Studienfach

Mehrfachvergleiche

Gemerkte ZahlenBonferroni

*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.

97 / 282

Page 98: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output paarweise Vergleiche mit derBonferroni-Methode

Pairwise comparisons using t tests with pooled SD

data: MPG and group

1 2

2 0.894 -

3 0.026 0.341

P value adjustment method : bonferroni

98 / 282

Page 99: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Scheffe-Methode (α = 5%)

I Fur den Vergleich der Gruppe i mit j betrachte:

ds(i , j) =

√3− 1

29− 3 SSR · F2,26,0.95(1ni

+1nj

)

=

√2

26 · 93.6 · 3.37(1ni

+1nj

) = 4.93√

1ni

+1nj

und vergleiche diese Große mit Mittelwertdifferenz |y i· − y j·|I Ergebnis (Niveau 5%)

i j |y i· − y j·| ds(i , j) Ergebnis1 2 0.89 2.18 kein sign. Unterschied1 3 2.5 2.28 y 1· sign. großer als y 3·2 3 1.61 2.55 kein sign. Unterschied

99 / 282

Page 100: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Einige Bemerkungen zur Scheffe-Methode:

I Die Scheffe-Methode garantiert, dass die Wahrscheinlichkeiteines α-Fehlers fur jeden beliebigen a-posteriori durchgefuhrtenEinzelvergleichstests nicht großer ist als der α-Fehler desF -Tests

I Kurz: Die Signifikanzaussagen gelten simultan fur ALLEPaarvergleiche mit dem Gesamtniveau α

I Die Scheffe-Methode ist ein konservatives Verfahren

I Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als dasvorgegebene Niveau

I Man entscheidet tendenziell eher zu oft fur H0

100 / 282

Page 101: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output paarweise Vergleiche mit derScheffe-Methode

SignifikanzStandardfehlerMittlere

Differenz (I-J) ObergrenzeUntergrenze

95%-Konfidenzintervall

Psychologie

Geisteswissenschaften

Mathematik

Geisteswissenschaften

Mathematik

Psychologie

Mathematik

Psychologie

Geisteswissenschaften

,94-4,16,279,982-1,607

-,22-4,78,029,878-2,500*

4,16-,94,279,9821,607

1,29-3,08,576,841-,893

4,78,22,029,8782,500*

3,08-1,29,576,841,893(I) Studienfach (J) Studienfach(I) Studienfach (J) Studienfach

Mehrfachvergleiche

Gemerkte ZahlenScheffé-Prozedur

*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.

101 / 282

Page 102: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output paarweise Vergleiche mit derScheffe-MethodeScheffe Test for values

Mean Square Error : 3.598901

ind , means

values std r Min Max

G 12.14286 1.214986 7 10 13

M 14.64286 1.984833 14 12 19

P 13.75000 2.187628 8 10 16

alpha : 0.05 ; Df Error : 26

Critical Value of F: 3.369016

Harmonic Mean of Cell Sizes 8.842105

Comparison between treatments means

Difference pvalue sig LCL UCL

G - M -2.5000000 0.029385 * -4.500921 -0.4990795

G - P -1.6071429 0.279412 -3.844240 0.6299543

M - P 0.8928571 0.575821 -1.022878 2.8085927

102 / 282

Page 103: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.17 Einfaktorielle Varianzanalyse (zum Vergleichvon k unabhangigen Stichproben)

Modellannahmen und HypotheseI Daten (n =

∑ki=1 ni )

y11, . . . , y1n1 (Gruppe 1, Erwartungswert µ1; Varianz σ21)

......

...yk1, . . . , yknk (Gruppe k, Erwartungswert µk ; Varianz σ2

k)

I Nullhypothese: es besteht kein Unterschied zwischen denErwartungswerten der einzelnen Gruppen:

H0 : µ1 = µ2 = . . . = µk

I Rechtfertigung der VoraussetzungenI Unabhangigkeit zwischen den GruppenI Unabhangigkeit innerhalb der GruppenI NormalverteilungsannahmeI Varianzhomogenitat: σ2

1 = σ22 = . . . = σ2

k 103 / 282

Page 104: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

F-Test fur die einfaktorielle Varianzanalyse (zum Ver-gleich von k unabhangigen Stichproben)

I Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicherErwartungswert in allen Gruppen wird verworfen, falls

F =1

k−1 SSM1

n−k SSR> Fk−1,n−k,1−α

Dabei ist:

SSM =k∑

i=1ni (y i· − y ··)2

(sum of squares between groups)

SSR =k∑

i=1

ni∑j=1

(yij − y i·)2

(sum of squares within groups) und Fk−1,n−k,1−α das(1− α)-Quantil der F -Verteilung mit (k − 1, n − k)Freiheitsgraden

104 / 282

Page 105: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.18 Paarweise Vergleich mit der Scheffe-Methode (No-tation wie in 1.15)

I Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,so kann mit der Scheffe-Methode festgestellt werden

”welche Gruppen fur die Signifikanz verantwortlich sind“!I dazu bestimmt man die Großen (n =

∑ki=1 ni )

ds(i , j) =

√k − 1n − k SSR · Fk−1,n−k,1−α(

1ni

+1nj

)

Ist y i· − y j· großer (bzw. kleiner) als ds(i , j) (bzw. als−ds(i , j)) so ist y i· signifikant großer (bzw. kleiner) als y j·

I Beachte:I insgesamt k(k−1)

2 VergleicheI die Scheffe-Methode halt simultan das Niveau αI es ist moglich, das F -Test H0 ablehnt, aber keiner der

paarweisen Vergleiche signifikant ist!

I Andere Verfahren (z. B. in SPSS implementiert):Tukey-Methode, Duncan Test

105 / 282

Page 106: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

1.19 Levene-Test auf Varianzhomogenitat von kunabhangigen Stichproben

Modellannahmen und HypotheseI Daten (n =

∑ki=1 ni )

y11, . . . , y1n1 (Gruppe 1, Erwartungswert µ1; Varianz σ21)

......

...yk1, . . . , yknk (Gruppe k, Erwartungswert µk ; Varianz σ2

k)

I Nullhypothese: es liegt Varianzhomogenitat vor, d. h.

H0 : σ21 = σ2

2 = . . . = σ2k

I Rechtfertigung der VoraussetzungenI Unabhangigkeit zwischen den GruppenI Unabhangigkeit innerhalb der GruppenI Normalverteilungsannahme

106 / 282

Page 107: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

Levene-Test auf Varianzhomogenitat von k un-abhangigen Stichproben

I Die Hypothese der Varianzhomogenitat

H0 : σ21 = σ2

2 = . . . = σ2k

wird verworfen, falls

F =1

k−1∑k

i=1 ni (x i· − x ··)2

1n−k

∑ki=1∑ni

j=1(xij − x i·)2> Fk−1,n−k,1−α

Dabei ist:I n = n1 + . . .+ nk der GesamtstichprobenumfangI x i· = 1

ni

∑nij=1 xij , x ·· = 1

n∑k

i=1

∑nij=1 xij

I xij = |yij − y i·|I Fk−1,n−k,1−α das (1− α)-Quantil der F -Verteilung mit

(k − 1, n − k) Freiheitsgraden.I Beachte:

I Der Test ist robust bzgl. der Normalverteilungsannahme.I Der Test halt ”nur“ naherungsweise das Niveau α.I Alternativer Test: Bartlett Test

107 / 282

Page 108: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

SPSS-Output

Signifikanzdf2df1Levene-Statistik

,3132621,214

Test der Homogenität der Varianzen

Gemerkte Zahlen

SignifikanzFMittel der QuadratedfQuadratsumme

Zwischen den Gruppen

Innerhalb der Gruppen

Gesamt 28122,759

3,5992693,571

,0294,05514,594229,187

ONEWAY ANOVA

Gemerkte Zahlen

108 / 282

Page 109: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests1.1 Schatzer undKonfidenzintervalle

1.2 t-Test fur eineStichprobe

1.3 Zweistichproben-probleme

1.4 EinfaktorielleVarianzanalyse

2. Korrelation, LineareRegression undmultiple Regression

R-Output

Levene ’s Test for Homogeneity of Variance ( center = mean)

Df F value Pr(>F)

group 2 1.2137 0.3134

26

Df Sum Sq Mean Sq F value Pr(>F)

ind 2 29.19 14.594 4.055 0.0293 *

Residuals 26 93.57 3.599

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

109 / 282

Page 110: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2. Korrelation, Lineare Regression und multipleRegression

2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple Regression

2.4 Multikollinearitat und Suppressionseffekte

2.5 Variablenselektion

2.6 Nichtlineare Zusammenhange

2.7 Partielle und Semipartielle Korrelation

110 / 282

Page 111: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.1 Korrelation

111 / 282

Page 112: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.1 Beispiel: Arbeitsmotivation

I Untersuchung zur Motivation am Arbeitsplatz in einemChemie-Konzern

I 25 Personen werden zufallig ausgewahlt und verschiedeneVariablen gemessen.

I y : Motivation (Einschatzung durch Experten)x : Leistungsstreben (Fragebogen)

I Frage: Besteht ein Zusammenhang zwischen der Variablen

”Motivation“ und der Variablen ”Leistungsstreben“

I Beachte: Es werden auch noch weitere Variablen gemessen(Ehrgeiz, Kreativitat, Hierarchie, Lohn, Arbeitsbedingungen,Lernpotential, Vielfalt, Anspruch)

112 / 282

Page 113: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Daten

x 20 30 15 39 5 6 12 0 35y 32 14 12 27 20 13 17 8 22x 8 34 26 32 26 12 36 27 26y 19 25 23 17 22 19 27 26 20x 13 19 25 30 18 21 11y 11 24 19 19 22 24 17

113 / 282

Page 114: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.2 Der Korrelationskoeffizient von PearsonI Daten (x1, y1), . . . , (xn, yn)

I Maß fur die (lineare) Abhangigkeit zwischen x und y :Korrelationskoeffizient von Pearson

r = rX ,Y =s2x ,y

sx ,x sy ,y=

∑ni=1(xi − x ·)(yi − y ·)√∑n

i=1(xi − x ·)2∑ni=1(yi − y ·)2

I Dabei ist:I x · = 1

n∑n

i=1 xi : Mittelwert der Daten xi

I y · = 1n∑n

i=1 yi : Mittelwert der Daten yi

I s2x,x = 1

n−1∑n

i=1(xi − x ·)2 : Varianz der Daten xi

I s2y,y = 1

n−1∑n

i=1(yi − y ·)2 : Varianz der Daten yi

I s2x,y = 1

n−1∑n

i=1(xi − x ·)(yi − y ·) : Kovarianz zwischen denDaten xi , yi

114 / 282

Page 115: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.3 Eigenschaften des Korrelationskoeffizienten(1) −1 ≤ r ≤ 1

(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang

yi = b0 + b1xi

mit b1 > 0 besteht (ohne Storgroßen).

(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang

yi = b0 + b1xi

mit b1 < 0 besteht (ohne Storgroßen).

(4) Der Korrelationskoeffizient ist invariant bzgl. linearerTransformationen, d. h.

xi = a0 + a1xi i = 1, . . . , nyi = c0 + c1yi i = 1, . . . , n

}⇒ rX ,Y = rX ,Y

(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maßfur den linearen Zusammenhang in der Stichprobe(x1, y1), . . . , (xn, yn)

115 / 282

Page 116: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.4 Beispiel: Korrelationskoeffizient fur die Datenaus Beispiel 2.1

I Variablenx : Leistungsstrebeny : Motivation

I Korrelationskoeffizient von Pearson

r = 0.5592

I Fragen:I Wie genau ist diese Schatzung?I Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen

den Merkmalen Leistungsstreben und Motivation)?

116 / 282

Page 117: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.5 Signifikanztest fur KorrelationI (x1, y1), . . . , (xn, yn) ist eine Stichprobe (unabhangige

Beobachtungen) aus einer (bivariat) normalverteiltenGrundgesamtheit

I ρ bezeichne die Korrelation des Merkmals X mit demMerkmal Y einer Population; funfter Modellparameterneben µx , µy , σ

2x und σ2

y .I Ein Test zum Niveau α fur die Hypothese ”die Merkmale

sind unkorreliert“H0 : ρ = 0

lehnt die Nullhypothese zu Gunsten der AlternativeH1 : ρ 6= 0 ab, falls∣∣∣∣ √n − 2√

1− r 2r∣∣∣∣ > tn−2,1−α2

gilt.

117 / 282

Page 118: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.6(a) Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1)

I n = 25; r = 0.5592; t23,0.975 = 2.0687

I ∣∣∣∣ √n − 2√1− r 2

r∣∣∣∣ = 3.2355 > 2.0687

I Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen denMerkmalen) wird zum Niveau 5% verworfen.

I p-Wert: 0.0037

118 / 282

Page 119: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output fur Korrelationskoeffizient

LeistungsstrebenMotivationKorrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Motivation

Leistungsstreben

2525

,004

1,000,559**

2525

,004

,559**

1,000

Korrelationen

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

119 / 282

Page 120: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output fur Korrelationskoeffizient

Motivation Leistungsstreben

Motivation 1.00 0.56

Leistungsstreben 0.56 1.00

n= 25

P

Motivation Leistungsstreben

Motivation 0.0037

Leistungsstreben 0.0037

120 / 282

Page 121: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.7 Konfidenzintervall fur KorrelationI ρ: Korrelation zwischen Merkmal x und Merkmal y einer

PopulationI (x1, y1), . . . , (xn, yn): Stichprobe (unabhangige

Beobachtungen) aus einer (bivariat) normalverteiltenGrundgesamtheit

I Mathematische Statistik: r ist ”naherungsweise“ (d. h. beigroßem Stichprobenumfang) normalverteilt mitErwartungswert ρ und Varianz

γ2 = Var(r) ≈ (1− ρ2)2

nI (1− α)-Konfidenzintervall fur den Korrelationskoeffizienten(

r − γz1−α2 , r + γz1−α2)

Hier bezeichnet γ = (1−r2)√n einen Schatzer fur die

Standardabweichung von r und z1−α2 das (1− α2 ) Quantil

der Standardnormalverteilung (Tabelle, Software)121 / 282

Page 122: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.6(b) Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1)

I n = 25; r = 0.5592

I z0.95 = 1.6449, γ = 0.1328I ⇒ 90% Konfidenzintervall fur den Korrelationskoeffizient

[0.2739, 0.7541]

122 / 282

Page 123: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.8 Hinweise zur Interpretation von KorrelationenI Annahme: Man hat eine signifikante Korrelation zwischen

den Variablen x und y gefundenI Folgende Interpretationen sind moglich

(1) x beeinflusst y kausal(2) y beeinflusst x kausal(3) x und y werden von weiteren Variablen kausal beeinflusst(4) x und y beeinflussen sich wechselseitig kausal

I Die Korrelation zwischen zwei Variablen ist einenotwendige aber keine hinreichende Voraussetzung fureinen kausalen Zusammenhang

I Der Korrelationskoeffizient gibt keine Information, welcheder vier Interpretationen zutrifft (in ”vielen“ Fallen wird dasder Typ (3) sein)

I Korrelationen sollten ohne Zusatzinformation nichtinterpretiert werden!

123 / 282

Page 124: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel

I Annahme: Man hat eine signifikante Korrelation zwischenden Merkmalen ”Ehrlichkeit“ und ”Haufigkeit desKirchgangs“ gefunden

I Folgende Interpretationen sind moglichI Die in der Kirche vermittelten Werte haben einen positiven

Einfluss auf das Merkmal ”Ehrlichkeit“.I

”Ehrliche“ Menschen fuhlen sich durch die in der Kirchevermittelten Inhalte eher angesprochen und gehen ausdiesem Grund haufiger zur Kirche.

I Die allgemeine familiare und außerfamiliare Sozialisationbeeinflusst beide Merkmale.

124 / 282

Page 125: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.2 Lineare Regression

125 / 282

Page 126: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.9 Beispiel: Fortsetzung von Beispiel 2.1

I Untersuchung zur Motivation am Arbeitsplatz in einemChemie-Konzern

I 25 Personen werden zufallig ausgewahlt und verschiedeneVariablen gemessen.

I y : Motivation (Einschatzung durch Experten)x : Leistungsstreben (Fragebogen)

I Kann man y aus x ”vorhersagen“?

126 / 282

Page 127: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Streudiagramm fur die Daten aus Beispiel 2.9

Leistungsstreben

403020100

Mo

tiva

tio

n

35

30

25

20

15

10

5

127 / 282

Page 128: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.9 Beispiel: Fortsetzung von Beispiel 2.1I Untersuchung zur Motivation am Arbeitsplatz in einem

Chemie-KonzernI 25 Personen werden zufallig ausgewahlt und verschiedene

Variablen gemessen.I y : Motivation (Einschatzung durch Experten)

x : Leistungsstreben (Fragebogen)

I Frage: Besteht ein funktionaler Zusammenhang zwischen derVariablen ”Motivation“ und der Pradiktorvariablen

”Leistungsstreben“ (Kann man y aus x ”vorhersagen“?)

Genauer: Gesucht ist Funktion f , die aus der PradiktorvariablenLeistungsstreben (x) eine Vorhersage fur die abhangige Variable(y) Motivation liefert:

Motivation = f(Leistungsbereitschaft)

I Beachte: Es werden auch noch weitere Variablen gemessen(Ehrgeiz, Kreativitat, Hierarchie, Lohn, Arbeitsbedingungen,Lernpotential, Vielfalt, Anspruch)

128 / 282

Page 129: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

RegressionI Ausgangslage: Von Interesse ist der Zusammenhang zwischen

verschiedenen Variablen. Im einfachsten Fall betrachtet man,wie im Beispiel der Arbeitsmotivation, den Zusammenhangzwischen zwei Variablen.

I Daten: (x1, y1), (x2, y2), . . . , (xn, yn)I Annahme: Es existiert ein kausaler Zusammenhang der Form

y = f (x) zwischen der abhangigen Variablen y und derPradiktorvariablen x .Weitere Annahme: Die Funktion f hat eine bestimmte Form.Beispiele:

I Lineare Regression (der Zusammenhang ist also durch eineGerade beschreibbar): y = b0 + b1x

I Quadratische Regression (der Zusammenhang ist also durcheine Parabel beschreibbar): y = b0 + b1x + b2x2

I usw.I Beachte: Der Zusammenhang ist in der Regel nicht exakt zu

beobachten. Mathematisches ModellY = b0 + b1x + ε

Dabei bezeichnet ε eine zufallige Storgroße. Diese Modellbezeichnet man als Lineare Regression. 129 / 282

Page 130: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.10 Das Modell der linearen RegressionI Daten (x1, y1), . . . , (xn, yn)

I yi ist Realisation einer Zufallsvariablen Yi (unter derBedingung xi ). Fur den Zusammenhang zwischen denVariablen Yi und xi gilt:

Yi = b0 + b1xi + εi i = 1, . . . , n

I εi bezeichnet hier eine zufallige ”Storung“ und es wirdangenommen, dass die Storungen unabhangig undnormalverteilt sind mit Erwartungswert 0 und Varianzσ2 > 0

I Deutung: Es wird ein linearer Zusammenhang zwischen xund y postuliert, der noch zufalligen Storungen unterliegt.

130 / 282

Page 131: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Idee der Schatzung bei (linearer) Regression

I Daten (x1, y1), (x2, y2), . . . , (xn, yn)

I Annahme: Es existiert ein linearer Zusammenhang

Y = b0 + b1x + ε

I Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Yund x am besten beschreibt.

I Idee: Bestimme die Gerade so, dass die Summe derquadratischen (vertikalen) Abstande zwischen deny -Koordinaten der Datenpunkte und den entsprechendenPunkten auf der geschatzten Geraden minimal wird Methode der kleinsten Quadrate

131 / 282

Page 132: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel: Verschiedene Geraden mit senkrechtenAbstanden zu den Daten

0 10 20 30 40

510

1520

2530

35

x

y

● ●

y=0.2x+5

0 10 20 30 40

510

1520

2530

35

x

y

● ●

y=0.5x+10

132 / 282

Page 133: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel: Verschiedene Geraden mit senkrechtenAbstanden zu den Daten: die Losung durch dieMethode der kleinsten Quadrate

0 10 20 30 40

510

1520

2530

35

x

y

● ●

● y=0.292x+13.816

133 / 282

Page 134: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.11 Die Methode der kleinsten QuadrateI Bestimme die Gerade so, dass die Summe der quadrierten

senkrechten Abstande zwischen Gerade und Daten minimalwird

I Datum an der Stelle xi : yiI Wert der Geraden an der Stelle xi : b0 + b1xiI Differenz: yi − (b0 + b1xi )

I Minimiereh(b0, b1) =

∑ni=1(yi − (b0 + b1xi )

)2

bzgl. der Wahl der Parameter b0 und b1.I Losung dieses Extremwertproblems liefert Schatzer fur

Achsenabschnitt und Steigung der Geraden:

b1 =

∑ni=1(xi − x ·)(yi − y ·)∑n

i=1(xi − x ·)2 , b0 = y · − b1x ·

I x · = 1n∑n

i=1 xi : Mittelwert der PradiktorvariablenI y · = 1

n∑n

i=1 yi : Mittelwert der abhangigen Variablen

134 / 282

Page 135: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel Arbeitsmotivation: Streudiagramm undRegressionsgerade fur die Daten aus Beispiel 2.1

Leistungsstreben

403020100

Mo

tiva

tio

n

35

30

25

20

15

10

5

R-Quadrat linear = 0,313

I Schatzer: b0 = 13.82, b1 = 0.29I Fragen:

I Wie genau sind diese Schatzungen?I Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die

MotivationH0 : b1 = 0

I Wie gut beschreibt das lineare Regressionsmodell die Situation?135 / 282

Page 136: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Die Genauigkeit der Schatzer fur die ParameterI Beachte: Vor der Datenerhebung sind b0 und b1 zufallig.I Mathematische Statistik (allgemeines lineares Modell) liefert

Schatzer fur die Varianzen von b0 und b1

Schatzer fur die Varianz von b0 : s2b0

=S2

y |x

n

∑ni=1 x2

i∑ni=1(xi − x ·)2

Schatzer fur die Varianz von b1 : s2b1

=S2

y |x

n1

1n∑n

i=1(xi − x ·)2

Dabei bezeichnet

S2y |x =

1n − 2

n∑i=1

(yi − (b0 + b1xi ))2.

die Residualvarianz (Schatzer fur die Varianz der Storgroßen)

I Je großer der Stichprobenumfang n, desto genauer sind dieSchatzungen!

136 / 282

Page 137: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Fortsetzung von Beispiel 2.1: Schatzer fur die Daten derArbeitsmotivation

I Schatzer fur die Parameter

b0 = 13.82b1 = 0.292

S2y |x = 22.737

I Schatzer fur die Varianz von b0 und b1

s2b0

= 4.5158s2b1

= 0.0081

I Standardfehler von b0 und b1

sb0 =√

4.5158 = 2.125sb1 =

√0.0081 = 0.09

137 / 282

Page 138: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Schatzer undStandardabweichungen bei linearer Regression inBeispiel 2.1

StandardfehlerB Beta SignifikanzT

StandardisierteKoeffizientenNicht standardisierte Koeffizienten

(Konstante)

Leistungsstreben

1

,0043,235,559,090,292

,0006,5012,12513,816ModellModell

Koeffizientena

a. Abhängige Variable: Motivation

138 / 282

Page 139: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Schatzer und Standardabweichungenbei linearer Regression in Beispiel 2.1Call:

lm( formula = y ˜ x)

Residuals :

Min 1Q Median 3Q Max

-8.5766 -2.5679 0.5915 2.8481 12.3437

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) 13.81572 2.12504 6.501 1.24e -06 ***

x 0.29203 0.09026 3.235 0.00365 **

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 4.768 on 23 degrees of freedom

Multiple R- squared : 0.3128 , Adjusted R- squared : 0.2829

F- statistic : 10.47 on 1 and 23 DF , p- value : 0.003655

139 / 282

Page 140: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.12 Konfidenzintervalle bei linearer RegressionI Modellannahme: lineare Regression

Yi = b0 + b1xi + εi (i = 1, . . . , n)

I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme fur ε1, . . . , εn

I Bestimmung der Schatzer s2b0

und s2b1

fur die Varianzen vonb0 und b1. Damit ist dann

=⇒ (b0 − tn−2,1−α2 sb0 , b0 + tn−2,1−α2 sb0 )

ein (1− α)-Konfidenzintervall fur b0 und

=⇒ (b1 − tn−2,1−α2 sb1 , b1 + tn−2,1−α2 sb1 )

ein (1− α)-Konfidenzintervall fur b1.I Hier ist tn−2,1−α2 das (1− α

2 )-Quantil der t-Verteilung mitn − 2 Freiheitsgraden (tabelliert oder mit Softwareverfugbar)

140 / 282

Page 141: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1(Arbeitsmotivation)

I n = 25, t23,0.975 = 2.0687I Fur das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt

sich als 95% Konfidenzintervall fur

b0 :[9.420, 18.212]

b1 :[0.105, 0.479]

I Frage: Besteht ein (signifikanter) Einfluss der Pradiktorvariablenx auf die abhangige Variable Y ?Mathematische Formulierung: H0 : b1 = 0

141 / 282

Page 142: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Konfidenzintervalle bei linearerRegression in Beispiel 2.1

StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

KoeffizientenNicht standardisierte Koeffizienten

(Konstante)

Leistungsstreben

1

,479,105,0043,235,559,090,292

18,2129,420,0006,5012,12513,816ModellModell

Koeffizientena

a. Abhängige Variable: Motivation

142 / 282

Page 143: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Konfidenzintervalle bei linearerRegression in Beispiel 2.1Call:

lm( formula = y ˜ x)

Residuals :

Min 1Q Median 3Q Max

-8.5766 -2.5679 0.5915 2.8481 12.3437

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) 13.81572 2.12504 6.501 1.24e -06 ***

x 0.29203 0.09026 3.235 0.00365 **

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 4.768 on 23 degrees of freedom

Multiple R- squared : 0.3128 , Adjusted R- squared : 0.2829

F- statistic : 10.47 on 1 and 23 DF , p- value : 0.003655

2.5 % 97.5 %

( Intercept ) 9.419734 18.2117042

x 0.105315 0.4787421

143 / 282

Page 144: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.14 F -Test fur die Hypothese H0 : b1 = 0I Modellannahme: lineare Regression

Yi = b0 + b1xi + εi (i = 1, . . . , n)

I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme fur ε1, . . . , εn

I HypothesenH0 : b1 = 0, H1 : b1 6== 0

I Die Nullhypothese H0 : b1 = 0 wird zu Gunsten derAlternative H1 : b1 6= 0 verworfen, falls

Fn =S2

reg

S2y |x

=11∑n

i=1(y · − (b0 + b1xi ))2

1n−2

∑ni=1(yi − (b0 + b1xi ))2

> F1;n−2,1−α

giltI F1;n−2,1−α bezeichnet das (1− α)-Quantil der F -Verteilung

mit (1, n − 2) Freiheitsgraden

144 / 282

Page 145: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Motivation des F -Tests: Zerlegung der Varianz

n∑i=1

(yi − y ·)2

︸ ︷︷ ︸Gesamtvarianz

=n∑

i=1(yi − (b0 + bxi ))2

︸ ︷︷ ︸Residualvarianz

+n∑

i=1(y · − (b0 + b1xi ))2

︸ ︷︷ ︸Varianz der Regression

I Bezeichnungen:

S2reg =

11

n∑i=1

(y · − (b0 + b1xi ))2

heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und

S2y |x =

1n − 2

n∑i=1

(yi − (b0 + b1xi ))2.

ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).I Andere Interpretationen:- Schatzung fur die Varianz der Großen εi- durch das lineare Regressionsmodell nicht erklarbare Varianz

145 / 282

Page 146: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Motivation des F -Tests: Zerlegung der Varianz

n∑i=1

(yi − y ·)2

︸ ︷︷ ︸Gesamtvarianz

=n∑

i=1(yi − (b0 + bxi ))2

︸ ︷︷ ︸Residualvarianz

+n∑

i=1(y · − (b0 + b1xi ))2

︸ ︷︷ ︸Varianz der Regression

= (n − 2) · S2y |x + ·S2

reg

Beachte:

I Bei dem F -Test fur die Hypothese H0 : b1 = 0 bildet man denQuotienten aus der Varianz der Regression und derResidualvarianz

I Man untersucht also das Verhaltnis zwischen erklarbarer undnicht erklarbarer Varianz.

146 / 282

Page 147: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.15 Varianzanalyse (ANOVA; analysis of variance)

Art der Freiheits- Quadrat- F -QuotientAbweichung grade (df ) summe schatzer

Regression 1∑n

i=1(y · − yi )2 Fn = S2

reg/S2y |x

Fehler n − 2∑n

i=1(yi − yi )2 —

Total n − 1∑n

i=1(yi − y ·)2 —

Bezeichnung:

yi = b0 + b1xi Vorhersage an der Stelle xi

147 / 282

Page 148: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: F -Test bei linearer Regression inBeispiel 2.1

SignifikanzFMittel der QuadratedfQuadratsumme

Regression

Residuen

Gesamt

1

24760,960

22,73723522,945

,004a

10,468238,0151238,015ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), Leistungsstreben

b. Abhängige Variable: Motivation

Beachte:I F25 = 10.468, F1,23,0.95 = 4.2793I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0

zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%verworfen (p-Wert: 0.004)

148 / 282

Page 149: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: F -Test bei linearer Regression inBeispiel 2.1Analysis of Variance Table

Response : y

Df Sum Sq Mean Sq F value Pr(>F)

x 1 238.01 238.015 10.468 0.003655 **

Residuals 23 522.95 22.737

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Beachte:I F25 = 10.468, F1,23,0.95 = 4.2793I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0

zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%verworfen (p-Wert: 0.004)

149 / 282

Page 150: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Modellgute: ”wie geeignet“ ist das Modell fur dieBeschreibung der Daten

I Maß fur Modellanpassung: Residualvarianz (Summe derquadrierte Abstande von der Regressionsgerade):

S2y |x =

1n − 2

n∑i=1

(yi − (b0 + b1xi )

)2

I Beachte: S2y |x ist ein Schatzer fur die Varianz der Messfehler

I Je kleiner S2y |x , desto ”besser“ ist das (lineare)

RegressionsmodellI Streuung der Daten ohne die ”Information“, dass ein lineares

Modell vorliegt:n∑

i=1(yi − y·)2

I Man untersucht welchen Anteil der Streuung∑n

i=1(yi − y·)2

man durch das lineare Modell erklaren kann.

150 / 282

Page 151: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Varianzzerlegung: ein extremes Beispiel

0 5 10 15 20

10

20

30

40

Unabhängige Variable

Abh

ängi

ge V

aria

ble

0 5 10 15 20

10

20

30

40

xy

Beachte:I Die Grafik zeigt eine extreme Situation.I Die Streuung der Daten ist durch das lineare Regressionsmodell

zu 100% erklarbar!∑n

i=1(yi − y ·)2 =∑n

i=1(y · − (b0 + b1xi ))2

I Residualvarianz (durch das lineare Regressionsmodell nichterklarbare Varianz) = 0

151 / 282

Page 152: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.16 Beispiel: Arbeitsmotivation (Fortsetzungvon Beispiel 2.1):

25∑i=1

(yi − y ·)2 = 760.96

25∑i=1

(y · − (b0 + b1xi ))2 = 238.04

R2 =

∑25i=1(y · − (b0 + b1xi ))2∑25

i=1(yi − y ·)2= 0.313

d. h. 31.3% der Varianz der Variablen Motivation konnen durch die

Pradiktorvariable Leistungsstreben erklart werden.

152 / 282

Page 153: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.17 Modellgute: das Bestimmtheitsmaß

I Die Große

R2 = 1−∑n

i=1(yi − (b0 + b1xi ))2∑ni=1(yi − y ·)2 =

∑ni=1(y · − (b0 + b1xi ))2∑n

i=1(y · − yi )2

ist ein Maß fur die Gute der Regression und heißtBestimmtheitsmaß.

I Beachte: Man kann zeigen, dass R2 genau das Quadrat derKorrelation ist.

I Je ”besser“ das Modell ist, desto kleiner ist dieResidualvarianz, bzw. desto großer R2!

I Das Bestimmtheitsmaß R2 liegt immer zwischen 0 und 1

153 / 282

Page 154: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Zusammenhang zwischen Bestimmtheitsmaß undF -Test

I Ist Fn die Statistik fur den F -Test aus 2.14 und R2 dasBestimmtheitsmaß, dann gilt:

R2 =1

n−2 Fn

1 + 1n−2 Fn

I In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann ausdem Bestimmtheitsmaß berechnet werden (und umgekehrt)

I Im Beispiel des Zusammenhangs zwischen Motivation undLeistungsstreben ist

Fn = 10.468 =⇒ R2 =10.468

231 + 10.468

23= 0.313

Ca. 31.3% der Variation der Variablen Motivation konnen durchdie Variable Leistungsstreben erklart werden.

154 / 282

Page 155: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Vorhersagen: es gibt zwei unterschiedliche

2.18 Vorhersage fur den Wert der Geraden an einerStelle x

I Schatzung fur den Wert der Geraden y(x) = b0 + b1x ander Stelle x :

y(x) = b0 + b1xI (1− α)-Konfidenzintervall fur y(x)

(y(x)− tn−2;1−α2 · sy(x), y(x) + tn−2;1−α2 · sy(x))

wobeis2y(x) = S2

y |x

(1n +

(x − x ·)2∑ni=1(xi − x ·)2

)den Schatzer fur die Varianz von Y (x) bezeichnet

155 / 282

Page 156: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Vorhersagen: es gibt zwei unterschiedliche

2.19 Vorhersage fur eine neue Beobachtung an einerStelle x

I Schatzer fur eine neue Beobachtung Y (x) = b0 + b1x + εan der Stelle x :

y(x) = b0 + b1xI (1− α)-Konfidenzintervall fur y(x)

(y(x)− tn−2;1−α2 · sy(x), y(x) + tn−2;1−α2 · sy(x))

wobei

s2y(x) = S2

y |x

(1 +

1n +

(x − x ·)2∑ni=1(xi − x ·)2

)den Schatzer fur die Varianz von y(x) + ε bezeichnet.

I Beachte: Diese Varianz wird bei wachsendemStichprobenumfang nicht beliebig klein!

156 / 282

Page 157: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.20 Beispiel: Fortsetzung von Beispiel 2.1(1) Gesucht ist ein 90% Konfidenzintervall fur den Wert der

Geraden an der Stelle x = 16I t23,0.95 = 1.714, S2

y|x = 22.737, s2y(x) = 1.116, y(16) =

b0 + 16b1 = 18.49I Das 90% Konfidenzintervall fur den Wert der Geraden an der

Stelle 16 ist gegeben durch

[16.677, 20.299]

(2) Gesucht ist ein 90% Konfidenzintervall fur eine neueBeobachtung der Stelle x = 16

I t23,0.95 = 1.714, S2y|x = 22.737, s2

y(x) = 23.85, y(16) =

b0 + 16b1 = 18.49I Das 90% Konfidenzintervall fur eine neue Beobachtung an der

Stelle 16 ist gegeben durch

[10.118, 26.859]

157 / 282

Page 158: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorhersagen bei linearerRegression in Beispiel 2.1 (schwierig)

158 / 282

Page 159: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Konfidenzintervalle furVorhersagen bei linearer Regression in Beispiel2.1

Leistungsstreben

403020100

Mo

tiva

tio

n

35

30

25

20

15

10

5

16.0

159 / 282

Page 160: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.21 ResiduenanalyseI Unter der Modellannahme des linearen Regressionsmodells

gilt: die Großenεi = Yi − b0 − b1xi

sind unabhangig und normalverteilt mit Erwartungswert 0und Varianz σ2 > 0.

I Das bedeutet, dass diese Eigenschaften auch

”naherungsweise“ fur die Residuenεi = yi − b0 − b1xi

erfullt sein sollte, falls die Modellannahme zutrifft.I Residuenanalyse ist ein deskriptives Verfahren fur die

Uberprufung der Annahmen an ε1, . . . , εn mit 4Teilschritten (oft werden auch nicht alle gemacht):

A: Das Streudiagramm der Daten mit der RegressionslinieB: Ein Streudiagramm der Residuen gegen die vorhergesagten

WerteC: Normalverteilungs-QQ-Plot der ResiduenD: Histogramm der Residuen mit angepasster

Normalverteilungsdichte160 / 282

Page 161: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei ”erfullten“ Voraussetzungen

−2 −1 0 1 2

−2

0

2

4

6

8 A

Unabhängige Variable

Abh

ängi

ge V

aria

ble

0 2 4 6−1.5

−1.0

−0.5

0.0

0.5

1.0B

Vorhergesagter Wert

Res

iduu

m

−2 −1 0 1 2−1.5

−1.0

−0.5

0.0

0.5

1.0C

Theoretische Quantile der Standardnormalvert.

Em

piris

che

Qua

ntile

D

Residuum

f(R

esid

uum

)

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

161 / 282

Page 162: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei ”Abweichungen“ von derNormalverteilung (Ausreißer)

−2 −1 0 1 2

−10

0

10

20

A

Unabhängige Variable

Abh

ängi

ge V

aria

ble

0 2 4 6 8

−10

−5

0

5

10

15

20B

Vorhergesagter Wert

Res

iduu

m

−2 −1 0 1 2

−10

−5

0

5

10

15

20C

Theoretische Quantile der Standardnormalvert.

Em

piris

che

Qua

ntile

D

Residuum

f(R

esid

uum

)

−15 −10 −5 0 5 10 15 20

0.00

0.05

0.10

0.15

162 / 282

Page 163: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei StratifizierungBeachte: verschiedene Untergruppen (Strata) konnen ebenfalls zuAbweichungen von den Modellannahmen fuhren. Fur die Stratakonnen dann unterschiedliche Regressionsgleichungen gelten.

−2 −1 0 1 2

−10

−5

0

5

10

15A

Unabhängige Variable

Abh

ängi

ge V

aria

ble

−2 0 2 4 6

−10

−5

0

5

10B

Vorhergesagter WertR

esid

uum

−2 −1 0 1 2

−10

−5

0

5

10C

Theoretische Quantile der Standardnormalvert.

Em

piris

che

Qua

ntile

D

Residuum

f(R

esid

uum

)

−10 −5 0 5 10

0.00

0.05

0.10

0.15

163 / 282

Page 164: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei falscher Modellannahme

−2 −1 0 1 2−60

−40

−20

0

20

40

A

Unabhängige Variable

Abh

ängi

ge V

aria

ble

−30 −20 −10 0 10 20 30 40

−20

−10

0

10

B

Vorhergesagter Wert

Res

iduu

m

−2 −1 0 1 2

−20

−10

0

10

C

Theoretische Quantile der Standardnormalvert.

Em

piris

che

Qua

ntile

D

Residuum

f(R

esid

uum

)

−30 −20 −10 0 10 20

0.00

0.01

0.02

0.03

0.04

0.05

Statt des linearen Modells ware ein Polynom 3. Grades die bessereAnnahme fur die Beschreibung des funktionalen Zusammenhangs!

164 / 282

Page 165: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei ungleichen Varianzen(Heteroskedastizitat)

−2 −1 0 1 2

−40

−30

−20

−10

0

10

20

A

Unabhängige Variable

Abh

ängi

ge V

aria

ble

−2 0 2 4 6

−40

−30

−20

−10

0

10

20

30B

Vorhergesagter Wert

Res

iduu

m

−2 −1 0 1 2

−40

−30

−20

−10

0

10

20

30C

Theoretische Quantile der Standardnormalvert.

Em

piris

che

Qua

ntile

D

Residuum

f(R

esid

uum

)

−40 −20 0 20

0.00

0.02

0.04

0.06

0.08

0.10

165 / 282

Page 166: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Residuenanalyse in Beispiel 2.1

Leistungsstreben

403020100

Mo

tiva

tio

n35

30

25

20

15

10

5

R-Quadrat linear = 0,313

Streudiagramm und geschatzte Regressionsgerade im Beispiel derArbeitsmotivation

166 / 282

Page 167: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output fur Residuenanalyse

0 10 20 30 40

1020

30

Leistungsstreben

Mot

ivat

ion

QQ-Plot im Beispiel der Arbeitsmotivation

167 / 282

Page 168: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Residuenanalyse in Beispiel 2.1

Standardized Predicted Value

2,000001,00000,00000-1,00000-2,00000

Sta

nd

ard

ized

Res

idu

al3,00000

2,00000

1,00000

,00000

-1,00000

-2,00000

Streudiagramm der Residuen gegen die vorhergesagten Werte imBeispiel der Arbeitsmotivation

168 / 282

Page 169: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Residuenanalyse in Beispiel 2.1

14 16 18 20 22 24

−10

05

10

Fitted values

Res

idua

ls

lm(y ~ x)

Residuals vs Fitted

1

219

Streudiagramm und geschatzte Regressionsgerade im Beispiel derArbeitsmotivation

169 / 282

Page 170: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output fur Residuenanalyse

Beobachteter Wert

3210-1-2

Erw

arte

ter

Wer

t vo

n N

orm

al

2

1

0

-1

-2

Q-Q-Diagramm von Normal von Standardized Residual

QQ-Plot im Beispiel der Arbeitsmotivation

170 / 282

Page 171: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Residuenanalyse in Beispiel 2.1

−2 −1 0 1 2

−2

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(y ~ x)

Normal Q−Q

1

219

Streudiagramm der Residuen gegen die vorhergesagten Werte imBeispiel der Arbeitsmotivation

171 / 282

Page 172: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Korrelation und lineare Regression

Es besteht ein enger Zusammenhang zwischen linearer Regressionund Korrelation

I Ist b1 die Schatzung im linearen Regressionsmodell und r derKorrelationskoeffizient von Pearson, dann gilt:

r =

√∑ni=1(xi − x ·)2∑ni=1(yi − y ·)2 · b1

I Ist R2 das Bestimmtheitsmaß und r der Korrelationskoeffizientvon Pearson, dann gilt:

r 2 = R2

172 / 282

Page 173: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.3 Multiple lineare Regression

173 / 282

Page 174: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.22 Beispiel: ”Arbeitsmotivation mit mehrerenPradiktoren”y : Motivation (Einschatzung der Arbeitsmotivation durch Experten)

Pradiktoren: EigenschaftenI x1: Ehrgeiz (Fragebogen)I x2: Kreativitat (Fragebogen)I x3: Leistungsstreben (Fragebogen)

Pradiktoren: RahmenbedingungenI x4: Hierarchie (Position in der Hierarchie des Unternehmens)I x5: Lohn (Bruttolohn pro Monat)I x6: Arbeitsbedingungen (Zeitsouveranitat,

Kommunikationsstruktur usw.)

Pradiktoren: Inhalte der TatigkeitI x7: Lernpotential (Lernpotential der Tatigkeit)I x8: Vielfalt (Vielfalt an Teiltatigkeiten)I x9: Anspruch (Komplexitat der Tatigkeit)

174 / 282

Page 175: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Daten

i y x1 x2 x3 x4 x5 x6 x7 x8 x91 32 36 30 20 20 3100 34 29 69 662 14 30 11 30 7 2600 39 16 47 363 12 19 15 15 8 3200 42 13 32 174 27 42 16 39 13 2500 43 15 63 495 20 14 22 5 22 3700 42 29 38 626 13 12 16 6 11 2600 36 17 39 517 17 17 20 12 11 2500 41 18 44 558 8 4 5 0 16 3800 23 9 31 339 22 32 20 35 20 3500 25 21 40 55

10 19 15 13 8 13 3100 29 21 57 5611 25 38 5 34 21 3600 59 27 53 6712 23 24 6 26 9 2600 45 31 54 62

175 / 282

Page 176: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Daten

i y x1 x2 x3 x4 x5 x6 x7 x8 x913 17 28 11 32 10 2600 30 7 45 2614 22 36 4 26 16 2500 52 23 56 6415 19 18 26 12 6 2500 40 17 54 5516 27 40 27 36 12 2500 42 29 44 6217 26 30 28 27 18 3000 38 34 43 6418 20 27 11 26 10 2600 35 19 46 5519 11 18 23 13 11 2800 42 18 31 4320 24 32 18 19 15 2700 48 23 51 5321 19 33 9 25 6 2400 38 23 37 6522 19 33 22 30 5 2600 36 30 39 3923 22 27 28 18 17 4000 45 23 52 5424 24 30 32 21 11 2700 44 20 41 4725 17 37 8 11 2 2300 32 20 44 41

176 / 282

Page 177: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.23 Das Modell der multiplen linearen RegressionI Daten (x1, y1), . . . , (xn, yn)

I Es gibt k unabhangige Variablen: x i = (x1i , . . . , xki )

I yi ist Realisation einer Zufallsvariablen Yi (unter derBedingung x i ). Fur den Zusammenhang zwischen derVariablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9):

Yi = b0 + b1x1i + b2x2i + . . .+ bkxki + εi

= b0 +k∑

j=1bjxji + εi .

I εi bezeichnet hier eine zufallige ”Storung” und es wirdangenommen, dass die Storungen ε1, . . . , εn unabhangigund normalverteilt sind mit Erwartungswert 0 und Varianzσ2 > 0.

I Deutung: Es wird ein linearer Zusammenhang zwischen xund Y postuliert, der noch zufalligen Storungen unterliegt.

177 / 282

Page 178: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.24 Schatzung bei multipler linearer RegressionI Methode der kleinsten Quadrate: Minimiere

n∑i=1

(yi − b0 − b1x1i − . . .− bkxki )2

bzgl. der Wahl von b0, . . . , bk

I Mathematische Statistik (allgemeines lineares Modell)liefert Schatzer

b0, b1, . . . , bk

fur die Parameter b0, . . . , bk (Formeln sind kompliziert)I Schatzer fur die Varianz der Messfehler

S2y |x =

1n − k − 1

n∑i=1

(yi − b0 − b1x1i − . . .− bkxki )2

178 / 282

Page 179: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Streudiagramm bei multipler linearer Regression(k = 2)Regressionsflache: y(x) = 3.24 + 4.5x1 + 5.27x2.

−5

0

5−3 −2 −1 0 1 2 3 4

−30

−20

−10

0

10

20

30

40

X2

X1

Y

179 / 282

Page 180: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Fortsetzung von Beispiel 2.22: Schatzer immultiplen linearen Regressionsmodell

I Ergebnisse fur die Schatzer im multiplen linearenRegressionsmodell

b0 = −3.842 b1 = 0.193b2 = 0.153 b3 = 0.049b4 = 0.246 b5 = 0.000b6 = −0.031 b7 = 0.165b8 = 0.206 b9 = −0.053

I Fragen:I Wie genau sind diese Schatzungen?I Besteht ein (signifikanter) Einfluss der unabhangigen Merkmale

auf die MotivationH0 : b1 = 0H0 : b2 = 0

...I Wie gut beschreibt das multiple lineare Regressionsmodell die

Situation?180 / 282

Page 181: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Genauigkeit der Schatzung bei multipler linearerRegression

I Schatzer sb0 , . . . , sbk fur die Standardfehler von b0, . . . , bk sindverfugbar (Allgemeines lineares Modell → Formeln kompliziert)

I Anmerkung: Fur wachsenden Stichprobenumfang konvergierendie Schatzer sbj gegen 0 ”je großer der Stichprobenumfang,desto genauer die Schatzungen”

I Damit erhalt man Konfidenzintervalle fur b0, . . . , bk , z. B.

(b0 − tn−k−1,1−α2 sb0 , b0 + tn−k−1,1−α2 sb0 )

ist (1− α)-Konfidenzintervall fur b0.

181 / 282

Page 182: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Fortsetzung von Beispiel 2.22: Schatzer fur denStandardfehler der Schatzer im multiplen linearenRegressionsmodell

I Ergebnisse fur den Standardfehler der Schatzer im multiplenlinearen Regressionsmodell

sb0 = 5.052 sb1 = 0.081sb2 = 0.049 sb3 = 0.065sb4 = 0.148 sb5 = 0.001sb6 = 0.054 sb7 = 0.098sb8 = 0.052 sb9 = 0.058

I Wegen t15,0.975 = 2.1314 ist

[−0.089, 0.188]

ein 95%-Konfidenzintervall fur den Parameter b3. Man beachte:I 0.049 + 2.1314 · 0.065 ≈ 0.188)I n = 25; k = 9 ⇒ n − k − 1 = 15

182 / 282

Page 183: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.25 Konfidenzintervalle fur multiple lineare RegressionI Modellannahme: multiple lineare Regression

Yi = b0 +k∑

j=1bjxji + εi (i = 1, . . . , n)

I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme

I Schatzer sbj fur den Standardfehler von bj

=⇒ (bj − tn−k−1,1−α2 sbj , bj + tn−k−1,1−α2 sbj )

ist ein (1− α)-Konfidenzintervall fur bj (j = 0, . . . , k)

I tn−k−1,1−α2 ; (1− α2 )-Quantil der t-Verteilung mit n− k − 1

Freiheitsgraden (Tabelle oder Software)I Anmerkung: Fur wachsenden Stichprobenumfang

konvergieren die Schatzer sbj gegen 0 ”je großer derStichprobenumfang, desto kleiner die Konfidenzintervalle”

183 / 282

Page 184: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.26 Beispiel: Konfidenzintervalle fur dieParameter in Beispiel 2.22 (Arbeitsmotivation)

bj Merkmal Schatzung sbj Konfidenzintervallb0 — -3.842 5.052 [-14.609, 6.926]b1 Ehrgeiz 0.193 0.081 [0.020, 0.365]b2 Kreativitat 0.153 0.049 [0.049, 0.258]b3 Leistungsstreben 0.049 0.065 [-0.089, 0.188]b4 Hierarchie 0.246 0.148 [-0.069, 0.561]b5 Lohn 0.000 0.001 [-0.004, 0.002]b6 Arbeitsbdg. -0.031 0.054 [-0.147, 0.085]b7 Lernpotential 0.165 0.098 [-0.044, 0.373]b8 Vielfalt 0.206 0.052 [0.095, 0.316]b9 Anspruch 0.053 0.058 [-0.070, 0.177]

184 / 282

Page 185: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Schatzer, Standardabweichungund Konfidenzintervalle im Beispiel 2.22(Arbeitsmotivation mit mehreren Pradiktoren)

StandardfehlerB Beta

SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

Koeffizienten

NichtstandardisierteKoeffizienten

(Konstante)

x1

x2

x3

x4

x5

x6

x7

x8

x9

1

,177-,070,372,920,124,058,053

,316,095,0013,973,354,052,206

,373-,044,1131,683,199,098,165

,085-,147,573-,576-,045,054-,031

,002-,004,564-,589-,077,001,000

,561-,069,1171,664,235,148,246

,188-,089,458,761,095,065,049

,258,049,0073,127,234,049,153

,365,020,0312,381,337,081,193

6,926-14,609,459-,7605,052-3,842ModellModell

Koeffizientena

a. Abhängige Variable: Y

185 / 282

Page 186: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Schatzer, Standardabweichung undKonfidenzintervalle im Beispiel 2.22(Arbeitsmotivation mit mehreren Pradiktoren)Call:

lm( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9)

Residuals :

Min 1Q Median 3Q Max

-3.5333 -0.7878 -0.0144 0.8352 2.9391

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) -3.8418391 5.0517520 -0.760 0.45875

x1 0.1927225 0.0809357 2.381 0.03094 *

x2 0.1533724 0.0490456 3.127 0.00692 **

x3 0.0493953 0.0648797 0.761 0.45826

x4 0.2460051 0.1478258 1.664 0.11683

x5 -0.0008827 0.0014981 -0.589 0.56449

x6 -0.0313833 0.0544449 -0.576 0.57288

x7 0.1647413 0.0978616 1.683 0.11299

x8 0.2056107 0.0517518 3.973 0.00122 **

x9 0.0533844 0.0580076 0.920 0.37198

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 1.891 on 15 degrees of freedom

Multiple R- squared : 0.9295 , Adjusted R- squared : 0.8872

F- statistic : 21.97 on 9 and 15 DF , p- value : 4.492e -07

2.5 % 97.5 %

( Intercept ) -14.609393640 6.925715428

x1 0.020212256 0.365232828

x2 0.048834252 0.257910529

x3 -0.088892612 0.187683168

x4 -0.069078063 0.561088342

x5 -0.004075849 0.002310442

x6 -0.147429821 0.084663199

x7 -0.043845720 0.373328278

x8 0.095304292 0.315917155

x9 -0.070255862 0.177024655

186 / 282

Page 187: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.27 Vorhersage der multiplen linearen RegressionI Modellannahme: multiple lineare Regression

Yi = b0 +k∑

j=1bjxji + εi (i = 1, . . . , n)

I Rechtfertigung der Normalverteilungs- undUnabhangigkeitsannahme

I Vorhersage fur den Wert der multiplen Regression an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)y(x) = b0 +

∑kj=1 bjxj

I In Beispiel 2.22 ergibt sich z. B. als Vorhersage dermultiplen linearen Regression an der Stelle

x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900,x6 = 41, x7 = 25, x8 = 55, x9 = 54

der Wert y(x) = 22.717

187 / 282

Page 188: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Vorhersage der multiplen linearen RegressionBeachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersa-

gen:

I Vorhersage fur den Wert der multiplen Regression an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)

I Vorhersage fur den Wert einer neuen Beobachtung an derStelle x = (x1, . . . , xk) (im Beispiel ist k = 9)

I Fur beide Vorhersagen kann man den Standardfehlerbestimmen (Formeln kompliziert) und Konfidenzbereicheangeben (vgl. Abschnitt 2.18 und 2.19 fur den Fall k = 1 )

188 / 282

Page 189: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorhersage bei der multiplenlinearen Regression (schwierig)

Beispiel:I Schatzung fur den Wert der ”Ebene” an der Stelle

x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348I Schatzung fur eine weitere Beobachtung an der Stelle

x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348189 / 282

Page 190: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Konfidenzintervalle furVorhersagen bei multipler linearer Regression

I Konfidenzintervall fur den Wert der ”Ebene” an der Stellex = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297]

I Konfidenzintervall fur eine weitere Beobachtung an der Stellex = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826]

190 / 282

Page 191: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.28 Bestimmtheitsmaß bei multipler linearer Regression

I Modellvorhersage:

yi = b0 + b1x1i + . . . bkxki = b0 +k∑

j=1bjxji

I Residuum εi = yi − yi = yi − (b0 +∑k

j=1 bjxji )

I Beachte: Die Werte der abhangigen Variable zerfallen inModellvorhersage (y) und Residuum (ε), d. h.

yi = yi + εi i = 1, . . . , n

I Die Gute der Modellanpassung wird (wieder) durch dasBestimmtheitsmaß R2 beschrieben (Anteil erklarterVarianz)

R2 = 1−∑n

i=1(yi − yi )2∑n

i=1(yi − y ·)2 =

∑ni=1(y · − yi )

2∑ni=1(yi − y ·)2 .

191 / 282

Page 192: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel: Das Bestimmtheitsmaß fur das Beispiel2.22 (Arbeitsmotivation)

In Beispiel 2.22 ist

I n = 25; k = 9I∑n

i=1(yi − yi )2 = 53.651

I∑n

i=1(yi − y ·)2 = 760.96I

R2 = 1− 53.651760.96 = 92.95

D. h. 92.95% der Varianz der Variablen Motivation werden durch dasmultiple lineare Regressionsmodell erklart.

192 / 282

Page 193: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.29 Statistische Tests bei der multiplen linearen Regres-sion. Zwei ”wichtige” Fragestellungen:

I Frage A: Hat mindestens eine der Pradiktorvariablenx1, . . . , xk einen Einfluss auf die abhangige Variable y(Gesamttest auf Signifikanz).

I Mathematische Formulierung der Hypothese:Nullhypothese:

H0 : bj = 0 fur alle j ∈ {1, 2, . . . , k}

Alternative:

H1 : bj 6= 0 fur mindestens ein j ∈ {1, 2, . . . , k}

I Frage B: Hat die Pradiktorvariable xj (z. B. Ehrgeiz) einenEinfluss auf die abhangige Variable y .

I Mathematische Formulierung der Hypothese:

Nullhypothese: H0 : bj = 0Alternative: H1 : bj 6= 0

193 / 282

Page 194: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.29(A) Gesamttest auf SignifikanzI Nullhypothese: H0 : bj = 0 fur alle j ∈ {1, 2, . . . , k}

Alternative: H1 : bj 6= 0 fur mindestens einj ∈ {1, 2, . . . , k}

(1) Bestimme

S2reg =

1k

n∑i=1

(y · − yi )2

die Varianz der Regression, und

S2y|x =

1n − k − 1

n∑i=1

(yi − yi )2

die ResidualvarianzI Beachte: Man geht genau wie im linearen

Regressionsmodell vor!

194 / 282

Page 195: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.29(A) Gesamttest auf Signifikanz(2) H0 wird zu Gunsten der Alternative H1 verworfen, falls

Fn =S2

reg

S2y|x

> Fk;n−k−1;1−α

gilt (oder der entsprechende p-Wert kleiner als α ist).Dabei bezeichnet Fk;n−k−1;1−α das (1− α)-Quantil derF -Verteilung mit (k, n − k − 1) Freiheitsgraden.

I Beachte: Wird H0 durch diesen Test verworfen, dann bleibtaber noch unklar, ”welches der Merkmale signifikant ist”.

195 / 282

Page 196: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.29(B) Tests fur die Signifikanz einzelner Merkmale

Nullhypothese:H0 : bj = 0

Alternative:H1 : bj 6= 0

I Die Nullhypothese H0 wird zu Gunsten der Alternative H1verworfen, falls

Tn =

∣∣∣∣∣ bjsbj

∣∣∣∣∣ > tn−k−1;1−α2

gilt (oder der entsprechende p-Wert kleiner als α ist).Dabei ist

I tn−k−1;1−α2 das (1− α2 )-Quantil der t-Verteilung mit

n − k − 1 FreiheitsgradenI sbj der Standardfehler von bj

I Beachte: Werden mehrere Hypothesen getestet, ist dasNiveau entsprechend anzupassen (vgl. Abschnitt 2.18).

196 / 282

Page 197: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.30(A) Test auf Signifikanz im multiplen Regressions-modell in Beispiel 2.22

I Frage: ”Hat eine der 9 Pradiktorvariablen einen Einfluss aufdie abhangige Variable?”

I Mathematische Hypothesen:

H0 : bj = 0 fur alle j = 1, . . . , 9

H1 : bj 6= 0 fur mindestens ein j ∈ {1, . . . , 9}

I Fn = 21.972, F9,15,0.95 = 2.5876

I Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zumNiveau 5% verworfen.

197 / 282

Page 198: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.30(B) Beispiel: Test auf Signifikanz einesMerkmals im multiplen linearenRegressionsmodell in Beispiel 2.22

I Frage: ”Hat die Pradiktorvariable Ehrgeiz (x1) einen Einfluss aufdie abhangige Variable Motivation Signifikanz desRegressionskoeffizienten b1)?”

I Mathematische Hypothesen:

H0 : b1 = 0; H1 : b1 6= 0

I b1 = 0.193, sb1 = 0.081, t25−10,0.975 = 2.13

⇒ T25 = 2.381I Da

T25 = 2.381 > 2.13

wird die Nullhypothese H0 zu Gunsten der AlternativeH1 : b1 6= 0 verworfen (zum Niveau 5%)

198 / 282

Page 199: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Der Test 2.29(A) fur das Beispiel2.22 (Arbeitsmotivation)

SignifikanzFMittel der QuadratedfQuadratsumme

Regression

Residuen

Gesamt

1

24760,960

3,5771553,651

,000a

21,97278,5909707,309ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1

b. Abhängige Variable: Y

199 / 282

Page 200: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Der Test 2.29(B) fur das Beispiel2.22 (Arbeitsmotivation)

StandardfehlerB Beta

SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

Koeffizienten

NichtstandardisierteKoeffizienten

(Konstante)

x1

x2

x3

x4

x5

x6

x7

x8

x9

1

,177-,070,372,920,124,058,053

,316,095,0013,973,354,052,206

,373-,044,1131,683,199,098,165

,085-,147,573-,576-,045,054-,031

,002-,004,564-,589-,077,001,000

,561-,069,1171,664,235,148,246

,188-,089,458,761,095,065,049

,258,049,0073,127,234,049,153

,365,020,0312,381,337,081,193

6,926-14,609,459-,7605,052-3,842ModellModell

Koeffizientena

a. Abhängige Variable: Y

200 / 282

Page 201: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Der Test 2.29(B) fur das Beispiel 2.22(Arbeitsmotivation)Call:

lm( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9)

Residuals :

Min 1Q Median 3Q Max

-3.5333 -0.7878 -0.0144 0.8352 2.9391

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) -3.8418391 5.0517520 -0.760 0.45875

x1 0.1927225 0.0809357 2.381 0.03094 *

x2 0.1533724 0.0490456 3.127 0.00692 **

x3 0.0493953 0.0648797 0.761 0.45826

x4 0.2460051 0.1478258 1.664 0.11683

x5 -0.0008827 0.0014981 -0.589 0.56449

x6 -0.0313833 0.0544449 -0.576 0.57288

x7 0.1647413 0.0978616 1.683 0.11299

x8 0.2056107 0.0517518 3.973 0.00122 **

x9 0.0533844 0.0580076 0.920 0.37198

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

201 / 282

Page 202: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residual standard error : 1.891 on 15 degrees of freedom

Multiple R- squared : 0.9295 , Adjusted R- squared : 0.8872

F- statistic : 21.97 on 9 and 15 DF , p- value : 4.492e -07

2.5 % 97.5 %

( Intercept ) -14.609393640 6.925715428

x1 0.020212256 0.365232828

x2 0.048834252 0.257910529

x3 -0.088892612 0.187683168

x4 -0.069078063 0.561088342

x5 -0.004075849 0.002310442

x6 -0.147429821 0.084663199

x7 -0.043845720 0.373328278

x8 0.095304292 0.315917155

x9 -0.070255862 0.177024655

202 / 282

Page 203: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.4 Multikollinearitat und Suppressionseffekte

203 / 282

Page 204: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.31 Das Problem der Multikollinearitat

Beispiel: Betrachte in dem Beispiel der ”Arbeitsmarktmotivation” einmultiples lineares Regressionsmodell mit 3 Pradiktorvariablen

Yi = b0 + b1x1i + b2x2i + b3x3i + εi i = 1, . . . , 25

(Y : Motivation, x1 : Ehrgeiz, x2: Kreativitat, x3: Leistungsstreben)I Schatzer fur die Modellparameter

i bi sbi p-Wert0 5.54 2.621 0.39 0.14 0.0082 0.23 0.09 0.0203 0.001 0.12 0.994

I Bestimmtheitsmaß R2 = 0.7861I Beachte: Nur fur den Koeffizient b3 (Leistungsstreben) kann

keine Signifikanz (zum Niveau 5%) nachgewiesen werden.

204 / 282

Page 205: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Korrelationsmatrix fur die Pradiktoren

Motivation Ehrgeiz Kreativitat LeistungsstrebenMotivation 1Ehrgeiz .71 1Kreativitat .38 .05 1Leistungsstreben .56 .82* -.02 1

Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zumNiveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz(SPSS)

205 / 282

Page 206: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

I Beachte: Es gibt eine signifikante Korrelation zwischen denVariablen Leistungsstreben und Ehrgeiz

I Beide Variablen tragen weitgehend identische Information.I Im Beispiel ist die Variable Leistungsstreben redundant und wird

nicht fur die Vorhersage der abhangigen Variablen Motivationbenotigt.

I Die Variable Ehrgeiz ist starker mit der Variablen Motivationkorreliert als die Variable Leistungsstreben (aus diesem Grund istder entsprechende Koeffizient auch signifikant).

I Fur die Bestimmtheitsmaße in den multiplen linearenRegressionsmodellen mit drei bzw. zwei Variablen erhalt man

R2 = 0.786179 fur Modell mit den Pradiktoren x1, x2, x3

R2 = 0.786178 fur Modell mit den Pradiktoren x1, x2

206 / 282

Page 207: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Multikollinearitat; Schatzer imModell mit 3 Parametern

StandardfehlerB Beta

SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

Koeffizienten

NichtstandardisierteKoeffizienten

(Konstante)

x1

x2

x3

1

,257-,255,994,008,002,123,001

,410,040,0202,528,343,089,225

,674,112,0082,913,688,135,393

10,983,095,0462,1162,6185,539ModellModell

Koeffizientena

a. Abhängige Variable: Y

207 / 282

Page 208: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Multikollinearitat; Schatzer im Modellmit 3 ParameternCall:

lm( formula = y ˜ x1 + x2 + x3)

Residuals :

Min 1Q Median 3Q Max

-6.7996 -1.5635 -0.2354 1.8129 6.6490

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) 5.538618 2.617828 2.116 0.04649 *

x1 0.393239 0.135012 2.913 0.00832 **

x2 0.224767 0.088899 2.528 0.01954 *

x3 0.001002 0.123169 0.008 0.99359

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 3.72 on 21 degrees of freedom

Multiple R- squared : 0.6181 , Adjusted R- squared : 0.5635

F- statistic : 11.33 on 3 and 21 DF , p- value : 0.0001246

2.5 % 97.5 %

( Intercept ) 0.09454548 10.9826895

x1 0.11246653 0.6740124

x2 0.03989035 0.4096435

x3 -0.25514150 0.2571450

208 / 282

Page 209: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Multikollinearitat;Korrelationsmatrix

x3x2x1YKorrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Y

x1

x2

x3

25252525

,939,000,004

1,000-,016,818**

,559**

25252525

,939,802,061

-,0161,000,053,379

25252525

,000,802,000

,818**

,0531,000,708**

25252525

,004,061,000

,559**

,379,708**

1,000

Korrelationen

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

209 / 282

Page 210: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Multikollinearitat; KorrelationsmatrixY x1 x2 x3

Y 1.00 0.71 0.38 0.56

x1 0.71 1.00 0.05 0.82

x2 0.38 0.05 1.00 -0.02

x3 0.56 0.82 -0.02 1.00

n= 25

P

Y x1 x2 x3

Y 0.0000 0.0613 0.0037

x1 0.0000 0.8025 0.0000

x2 0.0613 0.8025 0.9388

x3 0.0037 0.0000 0.9388210 / 282

Page 211: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.32 Das Problem der Suppressionseffekte

Beispiel: Betrachte in dem Beispiel 2.22 der

”Arbeitsmarktmotivation” ein multiples lineares Regressionsmodellmit 3 anderen Pradiktorvariablen

Yi = b0 + b4x4i + b5x5i + b6x6i + εi i = 1, . . . , 25

(Y : Motivation, x4: Hierarchie, x5: Lohn, x6: Arbeitsbedingungen)I Schatzungen fur die Modellparameter

i bi sbi p-Wert0 25.08 8.40 0.0074 0.88 0.26 0.0025 -0.01 0.003 0.0166 0.13 0.12 0.308

211 / 282

Page 212: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Korrelationsmatrix fur die Variablen Motivation,Hierarchie, Lohn und Arbeitsbedingungen

Motivation Hierarchie Lohn ArbeitsbedingungenMotivation 1Hierarchie .42* 1Lohn -.04 .72** 1Arbeitsbedingungen .35 .16 -.06 1

Beachte:I Zwischen der Pradiktorvariablen Lohn (x5) und der abhangigen

Variablen Motivation liegt keine signifikante Korrelation vor.I Dennoch bekommt diese Variable im multiplen

Regressionsmodell ein signifikantes Gewicht; d. h. die HypotheseH0 : b5 = 0 wird zum Niveau 5% verworfen (p-Wert: 0.016).

I Man spricht von einem Suppressionseffekt.

212 / 282

Page 213: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

I Grund fur diesen scheinbaren Widerspruch: Korrelationen sindbivariate Maße fur Zusammenhange (zwischen zweiMerkmalen). Das Modell der multiplen Regression untersuchtaber den Zusammenhang zwischen der Variablen Motivation unddem (3-dimensionalen) Pradiktor (x4, x5, x6):

I Motivation ist stark mit der Variablen Hierarchie korreliert.I Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert.I Pradiktorvariable Lohn wird in der multiplen linearen Regression

benotigt, um ”unerwunschte” Varianzanteile der VariablenHierarchie zu kompensieren.

I Bestimmtheitsmaße fur verschiedene ModelleR2 = 0.664282 fur Modell mit x4, x5, x6

R2 = 0.509720 fur Modell mit x4, x6

213 / 282

Page 214: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Suppressionseffekte; Schatzer imModell mit 4 Parametern

StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

Koeffizienten

NichtstandardisierteKoeffizienten

(Konstante)

x4

x5

x6

1

,375-,124,3081,045,179,120,125

-,001-,013,016-2,612-,632,003-,007

1,419,350,0023,444,843,257,884

42,5397,612,0072,9868,39825,076ModellModell

Koeffizientena

a. Abhängige Variable: Y

214 / 282

Page 215: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Suppressionseffekte; Schatzer imModell mit 4 ParameternCall:

lm( formula = y ˜ x4 + x5 + x6)

Residuals :

Min 1Q Median 3Q Max

-8.656 -2.823 1.351 3.262 7.574

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) 25.075612 8.397555 2.986 0.00704 **

x4 0.884461 0.256842 3.444 0.00244 **

x5 -0.007291 0.002792 -2.612 0.01630 *

x6 0.125417 0.120023 1.045 0.30793

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 4.5 on 21 degrees of freedom

Multiple R- squared : 0.4413 , Adjusted R- squared : 0.3615

F- statistic : 5.528 on 3 and 21 DF , p- value : 0.005866

2.5 % 97.5 %

( Intercept ) 7.61193961 42.539283478

x4 0.35032937 1.418593269

x5 -0.01309771 -0.001485116

x6 -0.12418401 0.375017297

215 / 282

Page 216: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Suppressionseffekte; Schatzungder Korrelationsmatrix

x6x5x4YKorrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Y

x4

x5

x6

25252525

,777,435,082

1,000-,060,163,354

25252525

,777,000,856

-,0601,000,717**

-,038

25252525

,435,000,037

,163,717**

1,000,419*

25252525

,082,856,037

,354-,038,419*

1,000

Korrelationen

*. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

216 / 282

Page 217: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Suppressionseffekte; Schatzung derKorrelationsmatrix

Y x4 x5 x6

Y 1.00 0.42 -0.04 0.35

x4 0.42 1.00 0.72 0.16

x5 -0.04 0.72 1.00 -0.06

x6 0.35 0.16 -0.06 1.00

n= 25

P

Y x4 x5 x6

Y 0.0369 0.8562 0.0823

x4 0.0369 0.0000 0.4352

x5 0.8562 0.0000 0.7774

x6 0.0823 0.4352 0.7774

217 / 282

Page 218: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.5 Variablenselektion

218 / 282

Page 219: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.33 Merkmalselektionsverfahren

I Ziel: Mit moglichst wenig Pradiktorvariablen eine guteVorhersage der abhangigen Variablen zu erzielen.

I Prinzip: Untersuche wie sich durch Weglassen einzelnerVariablen das Bestimmtheitsmaß R2 verandert.

Typische Selektionsprozeduren:

I RuckwartsverfahrenI VorwartsverfahrenI Schrittweise Verfahren

I Beachte: Es handelt sich um explorative Verfahren, diehauptsachlich der Modellbildung dienen (Interpretationnicht einfach).

219 / 282

Page 220: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.34 Das Ruckwartsverfahren

I Betrachte das vollstandige Modell (mit allen Pradiktorvariablen)und berechne das Bestimmtheitsmaß R2.

I Entferne sukzessive diejenigen Variablen, die zu dem geringstenRuckgang des Bestimmtheitsmaßes fuhren wurden.

I Das Verfahren wird abgebrochen, falls sich bei dem Entferneneiner Variablen das Bestimmtheitsmaß ”signifikant” verkleinert.

220 / 282

Page 221: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.35 Beispiel: Variablenselektion mit demRuckwartsverfahren (vgl. Beispiel 2.22)

Schritt Pradiktorvariablen t-Wert Ausgeschlossene Variablen R2

1 Ehrgeiz 2.38 .929Kreativitat 3.13Leistungsstreben .76Hierarchie 1.66Lohn -.59Arbeitsbedingungen -.58Lernpotential 1.68Vielfalt 3.97Anspruch .92

2 Ehrgeiz 2.38 Arbeitsbedingungen .928Kreativitat 3.28Leistungsstreben .79Hierarchie 1.66Lohn -.57Lernpotential 1.66Vielfalt 4.04Anspruch .91

221 / 282

Page 222: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel: Ruckwartsverfahren - FortsetzungSchritt Pradiktorvariablen t-Wert Ausgeschlossene Variablen R2

3 Ehrgeiz 2.54 Arbeitsbedingungen .926Kreativitat 3.43 LohnLeistungsstreben .88Hierarchie 2.11Lernpotential 1.59Vielfalt 4.17Anspruch 1.35

4 Ehrgeiz 5.40 Arbeitsbedingungen .923Kreativitat 3.38 LohnHierarchie 2.31 LeistungsstrebenLernpotential 1.55Vielfalt 4.12Anspruch 1.31

5 Ehrgeiz 5.18 Arbeitsbedingungen .916Kreativitat 3.16 LohnHierarchie 2.84 LeistungsstrebenLernpotential 3.31 AnspruchVielfalt 5.04

222 / 282

Page 223: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation

MethodeEntfernteVariablenAufgenommene Variablen

1

2

3

4

5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x9.

Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x3.

Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x5.

Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).x6.

Eingeben.x9, x5, x2, x3, x6, x8, x7, x4, …ModellModell

Aufgenommene/Entfernte Variablenb

a. Alle gewünschten Variablen wurden aufgenommen.

b. Abhängige Variable: Y

223 / 282

Page 224: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation

Standardfehlerdes Schätzers

KorrigiertesR-QuadratR-QuadratR

Änderung in Signifikanz von

Fdf2df1Änderung in FÄnderung in R-Quadrat

Änderungsstatistiken

1

2

3

4

5 ,2071811,713-,0071,837,894,916,957e

,389171,783-,0031,803,897,923,961d

,575161,327-,0011,814,896,926,963c

,573151,332-,0021,851,892,928,963b

,00015921,972,9291,891,887,929,964a

ModellModell

Modellzusammenfassung

a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1

b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1

c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1

d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1

e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1

224 / 282

Page 225: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation: ANOVA

SignifikanzFMittel der QuadratedfQuadratsumme

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

1

2

3

4

5

24760,960

3,3741964,108

,000e

41,306139,3705696,852

24760,960

3,2521858,538

,000d

35,999117,0706702,422

24760,960

3,2921755,960

,000c

30,596100,7147705,000

24760,960

3,4271654,840

,000b

25,75288,2658706,120

24760,960

3,5771553,651

,000a

21,97278,5909707,309ModellModell

ANOVAf

a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1

b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1

c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1

d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1

e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1

f. Abhängige Variable: Y

225 / 282

Page 226: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Ruckwartsverfahren im Beispielder Arbeitsmotivation: Koeffizienten

StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

KoeffizientenNicht standardisierte

Koeffizienten

(Konstante)

x1

x2

x3

x4

x5

x6

x7

x8

x9

(Konstante)

x1

x2

x3

x4

x5

x7

x8

x9

(Konstante)

x1

x2

x3

x4

1

2

3

,344,000,0502,113,164,081,172

,185-,076,389,885,105,062,055

,258,061,0033,431,244,046,159

,354,033,0212,540,338,076,193

-2,877-11,431,003-3,5292,027-7,154

,172-,068,374,914,121,057,052

,312,097,0014,040,352,051,205

,358-,044,1171,655,190,095,157

,002-,004,575-,572-,073,001,000

,545-,066,1161,660,228,144,240

,185-,084,441,790,096,063,050

,258,056,0053,285,239,048,157

,353,020,0302,376,326,079,187

5,238-14,713,329-1,0074,706-4,737

,177-,070,372,920,124,058,053

,316,095,0013,973,354,052,206

,373-,044,1131,683,199,098,165

,085-,147,573-,576-,045,054-,031

,002-,004,564-,589-,077,001,000

,561-,069,1171,664,235,148,246

,188-,089,458,761,095,065,049

,258,049,0073,127,234,049,153

,365,020,0312,381,337,081,193

6,926-14,609,459-,7605,052-3,842ModellModell

Koeffizientena

a. Abhängige Variable: Y

226 / 282

Page 227: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.36 Das Vorwartsverfahren

I Bestimme diejenige Pradiktorvariable, die mit der abhangigenVariablen am starksten korreliert ist und berechne dasBestimmtheitsmaß R2.

I Ist R2 signifikant, wird diese Variable in das Modellaufgenommen.

I Fuge sukzessive diejenigen Variablen zu dem Modell hinzu, diezu dem großten Anstieg des Bestimmtheitsmaßes fuhren.

I Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuenVariablen das Bestimmtheitsmaß R2

”nicht signifikant”vergroßert.

227 / 282

Page 228: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation

MethodeEntfernteVariablen

AufgenommeneVariablen

1

2

3

4

5 Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x4

Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x8

Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x2

Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x9

Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050).x1

ModellModell

Aufgenommene/Entfernte Variablena

a. Abhängige Variable: Y

228 / 282

Page 229: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation

Standardfehlerdes Schätzers

KorrigiertesR-QuadratR-QuadratR

Änderung in Signifikanz

von Fdf2df1Änderung in FÄnderung in R-Quadrat

Änderungsstatistiken

1

2

3

4

5 ,0411914,810,0221,869,890,913,955e

,00220112,879,0702,039,869,891,944d

,0072118,876,0762,552,795,820,906c

,00022120,980,2442,973,721,744,863b

,00023123,059,5014,065,479,501,708a

ModellModell

Modellzusammenfassung

a. Einflußvariablen : (Konstante), x1

b. Einflußvariablen : (Konstante), x1, x9

c. Einflußvariablen : (Konstante), x1, x9, x2

d. Einflußvariablen : (Konstante), x1, x9, x2, x8

e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4

229 / 282

Page 230: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation: ANOVA

SignifikanzFMittel der Quadratedf

Quadratsumme

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

1

2

3

4

5

24760,960

3,4931966,364

,000e

39,773138,9195694,596

24760,960

4,1582083,163

,000d

40,751169,4494677,797

24760,960

6,51021136,716

,000c

31,962208,0813624,244

24760,960

8,84122194,504

,000b

32,035283,2282566,456

24760,960

16,52123379,992

,000a

23,059380,9681380,968ModellModell

ANOVAf

a. Einflußvariablen : (Konstante), x1

b. Einflußvariablen : (Konstante), x1, x9

c. Einflußvariablen : (Konstante), x1, x9, x2

d. Einflußvariablen : (Konstante), x1, x9, x2, x8

e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4

f. Abhängige Variable: Y

230 / 282

Page 231: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Vorwartsverfahren im Beispiel derArbeitsmotivation: Koeffizienten

StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

KoeffizientenNicht standardisierte

Koeffizienten

(Konstante)

x1

(Konstante)

x1

x9

(Konstante)

x1

x9

x2

(Konstante)

x1

x9

x2

x8

(Konstante)

x1

x9

x2

x8

x4

1

2

3

4

5

,354,008,0412,193,173,083,181

,283,079,0013,706,311,049,181

,272,082,0013,903,271,045,177

,193,039,0053,147,271,037,116

,364,178,0006,076,474,045,271

-2,479-11,186,004-3,2852,080-6,833

,301,080,0023,589,327,053,190

,294,089,0013,908,293,049,192

,226,074,0014,101,350,037,150

,352,153,0005,286,442,048,253

-1,781-11,224,009-2,8732,263-6,502

,310,055,0072,979,279,061,183

,290,116,0004,862,474,042,203

,433,204,0005,776,558,055,319

2,849-7,052,387-,8832,380-2,101

,321,121,0004,580,515,048,221

,454,187,0004,983,560,064,320

5,542-5,415,981,0242,642,063

,579,230,0004,802,708,084,404

14,0644,111,0013,7782,4069,088ModellModell

Koeffizientena

a. Abhängige Variable: Y

231 / 282

Page 232: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.37 Das schrittweise Verfahren

I Ruckwarts- und Vorwartsverfahren werden kombiniert!I Man fuhrt ein Vorwartsverfahren durch, wobei in jedem Schritt

untersucht wird, ob bei Entfernen einer bereits aufgenommenenVariable das Bestimmtheitsmaß signifikant abnehmen wurde.

232 / 282

Page 233: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation

MethodeEntfernteVariablen

AufgenommeneVariablen

1

2

3

4

5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).

.x4

Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).

.x8

Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).

.x2

Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).

.x9

Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100).

.x1

ModellModell

Aufgenommene/Entfernte Variablena

a. Abhängige Variable: Y

233 / 282

Page 234: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation

Standardfehlerdes Schätzers

KorrigiertesR-QuadratR-QuadratR

Änderung in Signifikanz

von Fdf2df1Änderung

in FÄnderung in R-Quadrat

Änderungsstatistiken

1

2

3

4

5 ,0411914,810,0221,869,890,913,955e

,00220112,879,0702,039,869,891,944d

,0072118,876,0762,552,795,820,906c

,00022120,980,2442,973,721,744,863b

,00023123,059,5014,065,479,501,708a

ModellModell

Modellzusammenfassung

a. Einflußvariablen : (Konstante), x1

b. Einflußvariablen : (Konstante), x1, x9

c. Einflußvariablen : (Konstante), x1, x9, x2

d. Einflußvariablen : (Konstante), x1, x9, x2, x8

e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4

234 / 282

Page 235: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation: ANOVA

SignifikanzFMittel der QuadratedfQuadratsumme

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

Regression

Residuen

Gesamt

1

2

3

4

5

24760,960

3,4931966,364

,000e

39,773138,9195694,596

24760,960

4,1582083,163

,000d

40,751169,4494677,797

24760,960

6,51021136,716

,000c

31,962208,0813624,244

24760,960

8,84122194,504

,000b

32,035283,2282566,456

24760,960

16,52123379,992

,000a

23,059380,9681380,968ModellModell

ANOVAf

a. Einflußvariablen : (Konstante), x1

b. Einflußvariablen : (Konstante), x1, x9

c. Einflußvariablen : (Konstante), x1, x9, x2

d. Einflußvariablen : (Konstante), x1, x9, x2, x8

e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4

f. Abhängige Variable: Y

235 / 282

Page 236: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS Output: Das schrittweise Verfahren imBeispiel der Arbeitsmotivation: Koeffizienten

StandardfehlerB Beta SignifikanzT ObergrenzeUntergrenze

95%-Konfidenzintervall für BStandardisierte

KoeffizientenNicht standardisierte

Koeffizienten

(Konstante)

x1

(Konstante)

x1

x9

(Konstante)

x1

x9

x2

(Konstante)

x1

x9

x2

x8

(Konstante)

x1

x9

x2

x8

x4

1

2

3

4

5

,354,008,0412,193,173,083,181

,283,079,0013,706,311,049,181

,272,082,0013,903,271,045,177

,193,039,0053,147,271,037,116

,364,178,0006,076,474,045,271

-2,479-11,186,004-3,2852,080-6,833

,301,080,0023,589,327,053,190

,294,089,0013,908,293,049,192

,226,074,0014,101,350,037,150

,352,153,0005,286,442,048,253

-1,781-11,224,009-2,8732,263-6,502

,310,055,0072,979,279,061,183

,290,116,0004,862,474,042,203

,433,204,0005,776,558,055,319

2,849-7,052,387-,8832,380-2,101

,321,121,0004,580,515,048,221

,454,187,0004,983,560,064,320

5,542-5,415,981,0242,642,063

,579,230,0004,802,708,084,404

14,0644,111,0013,7782,4069,088ModellModell

Koeffizientena

a. Abhängige Variable: Y

Page 1

236 / 282

Page 237: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.38 Bemerkung zu den verschiedenenMerkmalselektionsverfahren

I Beachte: Verschiedene Verfahren liefern verschiedeneErgebnisse (es gibt kein richtig oder falsch!)

I Beispiel (Arbeitsmotivation)

Ruckwartsverfahren Vorwartsverfahren Schrittweises VerfahrenEhrgeiz Ehrgeiz Ehrgeiz

Kreativitat Kreativitat KreativitatHierarchie Hierarchie Hierarchie

Lernpotential Anspruch AnspruchVielfalt Vielfalt Vielfalt

R2 = .916 R2 = .913 R2 = .913

237 / 282

Page 238: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.6 Nichtlineare Zusammenhange

238 / 282

Page 239: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Nichtlineare Zusammenhange

I Die (multiplen) linearen Regressionsmodelle beruhen auf derAnnahme, dass der Zusammenhang zwischen jederPradiktorvariable und der abhangigen Variablen linear ist, d. h.durch eine Gerade beschrieben werden kann.

I Diese Annahme muss nicht immer erfullt sein. Zusammenhangezwischen Variablen konnen im Grunde beliebige Form haben.

I Man spricht in diesen Fallen von nichtlinearenZusammenhangen

239 / 282

Page 240: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.39 Beispiel: Gedachtnistest

I Mehrere Personen machen einen GedachtnistestI 30 Ortsnamen (aus Mongolei) werden vorgegebenI y(x): Anzahl der Ortsnamen, die nach x Tagen noch im

Gedachtnis geblieben sind (Mittelwerte)

x 1 2 3 4 5 6 7 8 9 10y(x) 24.9 19.7 17.0 13.2 11.0 8.5 7.9 5.8 5.5 5.0

240 / 282

Page 241: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Das Streudiagramm fur die Daten aus Beispiel2.39 (Gedachtnistest)

Tage

1086420

An

zah

l der

Ort

snam

en

30,0

20,0

10,0

,0

241 / 282

Page 242: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Das Streudiagramm fur die Daten aus Beispiel2.39 (Gedachtnistest)

2 4 6 8 10

510

1520

25

Tage

Anz

ahl d

er O

rtsn

amen

242 / 282

Page 243: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Lineare Regression fur die Daten aus Beispiel2.39 (Gedachtnistest)

Tage

1086420

An

zah

l der

Ort

snam

en30,0

20,0

10,0

,0

Die Gleichung der geschatzten Geraden:y = 10.579− 0.429x

243 / 282

Page 244: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Lineare Regression fur die Daten aus Beispiel2.39 (Gedachtnistest)

2 4 6 8 10

05

1525

Tage

Anz

ahl d

er O

rtsn

amen

Die Gleichung der geschatzten Geraden:

y = 10.579− 0.429x

244 / 282

Page 245: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei linearer Regression fur dieDaten aus Beispiel 2.39 (Gedachtnistest)

Standardized Predicted Value

1,500001,00000,50000,00000-,50000-1,00000-1,50000

Sta

nd

ard

ized

Res

idu

al

2,00000

1,00000

,00000

-1,00000

245 / 282

Page 246: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Residuenanalyse bei linearer Regression fur dieDaten aus Beispiel 2.39 (Gedachtnistest)

5 10 15 20

−3

−1

13

Fitted values

Res

idua

ls

lm(y ~ x)

Residuals vs Fitted

110

6

246 / 282

Page 247: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

QQ - Plot bei linearer Regression fur die Datenaus Beispiel 2.39 (Gedachtnistest)

Beobachteter Wert

210-1-2

Erw

arte

ter

Wer

t vo

n N

orm

al

1,5

1,0

0,5

0,0

-0,5

-1,0

-1,5

Q-Q-Diagramm von Normal von Standardized Residual

247 / 282

Page 248: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

QQ - Plot bei linearer Regression fur die Datenaus Beispiel 2.39 (Gedachtnistest)

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.

00.

01.

02.

0

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(y ~ x)

Normal Q−Q

110

6

248 / 282

Page 249: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beachte:I Ein lineares Regressionsmodell ist fur die Beschreibung des

Zusammenhangs ungeeignet!I Quadratisches Regressionsmodell

Yi = b0 + b1xi + b2x2i + εi

I Schatzung der Parameter mit der Methode der kleinstenQuadrate und die entsprechenden Standardfehler

b0 = 29.088 b1 = −4.876 b2 = 0.249sb0 = 0.558 sb1 = 0.233 sb2 = 0.021

249 / 282

Page 250: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Konfidenzbereiche und TestsI Man geht wie in 2.12 und 2.14 bzw. 2.29 vor.

I 90% Konfidenzintervall fur b2 (man beachte: das Modell hat 3Parameter)

t10−3,0.95 = 1.8946 b2 = 0.249 sb2 = 0.021

⇒ [b2 − t7,0.95 sb2 , b2 + t7,0.95 sb2 ] = [0.2092, 0.2888]

ist 90% Konfidenzintervall fur b2.

I Die Hypothese H0 : b2 = 0 wird (zum Niveau 10%) verworfen,falls ∣∣∣ b2

sb2

∣∣∣ > t10−3,0.95

gilt (im Beispiel wird also H0 abgelehnt).I Beachte: 10− 3 Freiheitsgrade, da 10 Daten und 3 Parameter

in der Parabelgleichung

250 / 282

Page 251: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS-Output: Schatzer fur quadratischeRegression

StandardfehlerB Beta Sig.t

StandardisierteKoeffizienten

Nicht standardisierte Koeffizienten

Tage

Tage ** 2

(Konstante) ,00052,136,55829,088

,00012,0551,257,021,249

,000-20,927-2,183,233-4,876

Koeffizienten

251 / 282

Page 252: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Schatzer fur quadratische RegressionCall:

lm( formula = y ˜ x + x2)

Residuals :

Min 1Q Median 3Q Max

-0.63121 -0.27023 -0.06689 0.26064 0.75136

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) 29.08833 0.55793 52.14 2.50e -10 ***

x -4.87629 0.23302 -20.93 1.43e -07 ***

x2 0.24886 0.02064 12.05 6.17e -06 ***

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 0.4744 on 7 degrees of freedom

Multiple R- squared : 0.9962 , Adjusted R- squared : 0.9951

F- statistic : 911.2 on 2 and 7 DF , p- value : 3.466e -09

252 / 282

Page 253: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Streudiagramm fur die Daten aus Beispiel 2.39mit der geschatzten Parabel

Tage

1086420

30,0

20,0

10,0

0,0

Anzahl der Ortsnamen

QuadratischBeobachtet

253 / 282

Page 254: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Streudiagramm fur die Daten aus Beispiel 2.39mit der geschatzten Parabel

2 4 6 8 10

510

1520

25

Tage

Anz

ahl d

er O

rtsn

amen

254 / 282

Page 255: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS-Output: Residuenanalyse fur die Daten ausBeispiel 2.39 bei quadratischer Regression

Standardized Predicted Value

2,000001,500001,00000,50000,00000-,50000-1,00000

Sta

nd

ard

ized

Res

idu

al

2,00000

1,00000

,00000

-1,00000

-2,00000

255 / 282

Page 256: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: Residuenanalyse fur die Daten ausBeispiel 2.39 bei quadratischer Regression

5 10 15 20 25

−0.

50.

00.

5

Fitted values

Res

idua

ls

lm(y ~ x + x2)

Residuals vs Fitted

7

2

1

256 / 282

Page 257: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS-Output: QQ-Plot fur die Daten ausBeispiel 2.39 bei quadratischer Regression

Beobachteter Wert

210-1-2

Erw

arte

ter

Wer

t vo

n N

orm

al

1,5

1,0

0,5

0,0

-0,5

-1,0

-1,5

Q-Q-Diagramm von Normal von Standardized Residual

257 / 282

Page 258: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

R-Output: QQ-Plot fur die Daten aus Beispiel2.39 bei quadratischer Regression

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1.

50.

01.

02.

0

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(y ~ x + x2)

Normal Q−Q

7

2

1

258 / 282

Page 259: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

SPSS-Output: Histogramm fur die Residuen ausBeispiel 2.39 bei quadratischer Regression

Regression Standardisiertes Residuum

210-1-2

Häu

fig

keit

2,5

2,0

1,5

1,0

0,5

0,0

Histogramm

Abhängige Variable: Anzahl der Ortsnamen

Mittelwert =3,96E-16Std.-Abw. = 0,882

N =10

259 / 282

Page 260: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.40 Polynomiale RegressionsmodelleModelle zur polynomialen Regression

Ordnung Modell0. Y = b0 + ε1. Y = b0 + b1x1 + ε2. Y = b0 + b1x1 + b2x2 + ε...

...k. Y = b0 + b1x1 + b2x2 + . . .+ bkxk + ε

Beachte:I In der Regel werden nur Modelle von niedrigem Grad

verwendet (k ≤ 3)!I Schatzung der Parameter erfolgt mit der Methode der

kleinsten Quadrate.I Konfidenzintervalle, Tests und Residuenanalyse werden wie

bei der linearen bzw. multiplen Regression durchgefuhrt(Allgemeines lineares Modell)

260 / 282

Page 261: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.41 Mehrdimensionale Polynome

I Sind mehrere Pradiktorvariablen verfugbar, so konnen nebenPotenzen auch Produkte von zwei oder mehr Variablen in dieRegressionsgleichung aufgenommen werden.

I Beispiele:

Y (x) = b0 + b1x1 + b2x2 + b12x1x2 + ε

Y (x) = b0 + b1x1 + b2x2 + b12x1x2 + b02x21 + b20x2

2 + ε

Y (x) = b0 + b1x1 + b2x2 + b3x3 + b120x1x2 + b103x1x3

+ b023x2x3 + b123x1x2x3 + ε

261 / 282

Page 262: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

3D-Streudiagramm mit der geschatzten Funktion

−6−4

−20

24

−4

−2

0

2

4

6−60

−40

−20

0

20

40

60

80

100

X1

X2

Y

Die geschatzte Funktion ist:

y(x) = 2.23 + 3.52x1 + 5.77x2 + 3.96x1x2.

262 / 282

Page 263: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

3D-Streudiagramm mit der geschatzten FunktionPolynomiale Terme und Produkte der Pradiktoren konnen naturlichauch gemeinsam vorkommen.

Beispiel:

y(x) = b0 + b11x1 + b12x21 + b21x2 + b23x3

2 + b11;21x1x2 + ε.

−6−4

−20

24

−4

−2

0

2

4

6−60

−40

−20

0

20

40

60

80

100

X1

X2

Y

Die angepasste Funktion hat die Form

y(x) = 1 + 2.15x1 + 6.59x21 + 1.66x2 + 3.07x3

2 + 3.76x1x2

263 / 282

Page 264: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.7 Partielle und Semipartielle Korrelation

264 / 282

Page 265: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.42 Beispiel: Entwicklungspsychologie

I Im Rahmen einer Studie in der Entwicklungspsychologie soll derZusammenhang zwischen

I Abstraktionsfahigkeit (x) undI sensomotorischer Koordination (y)

untersucht werden.

I Zusatzlich wird das Alter der Kinder erhoben (z)

I Insgesamt werden 15 Kinder im Alter von 6 - 10 Jahrenuntersucht.

265 / 282

Page 266: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Daten

Kind Abstraktions- sensomotor. Alterfahigkeit (x) Koord. (y) (z)

1 9 8 62 11 12 83 13 14 94 13 13 95 14 14 106 9 8 77 10 9 88 11 12 99 10 8 8

10 8 9 711 13 14 1012 7 7 613 9 10 1014 13 12 1015 14 12 9

266 / 282

Page 267: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Auswertung:I Fur den Korrelationskoeffizient von Pearson (vgl. 2.2) erhalt

man fur die Korrelation der Variablen x (Abstraktionsfahigkeit)und y (sensomotorische Koordination)

rx ,y = 0.89

I Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielenFallen sinnvoll zu untersuchen, ob dieser hohe Wert auf einenEinfluss der dritten ”Variablen” (Alter) zuruckfuhrbar ist.

I In einem solchen Fall spricht man von einer

”Scheinkorrelation”. D. h. rx ,y ist zwar im mathematischenSinn eine Korrelation, aber der gefundene Zusammenhangzwischen Abstraktionsfahigkeit und sensomotorischerKoordination ist (teilweise) durch eine dritte Variable erklarbarund kann nicht als kausal interpretiert werden.

I Ziel: Berechnung einer Korrelation, die von dem Einfluss derdritten Variablen Alter ”bereinigt” ist. =⇒ Partialkorrelation.

267 / 282

Page 268: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.43 PartialkorrelationI Modell: Daten (xi , yi , zi )i=1, ... ,n. Im Beispiel ist xi die

Abstraktionsfahigkeit, yi die sensomotorische Koordination undzi das Alter des i-ten Kindes

I Gesucht: Ein um den Einfluss der Variablen z ”bereinigtes”Abhangigkeitsmaß zwischen den Variablen x und y

I Methode:I Berechne die (lineare) Regressionsgerade fur die Daten

(x1, z1), . . . , (xn, zn):x = a0 + a1z

(vgl. 2.11) und die Residuenx∗i = xi − (a0 + a1zi ) i = 1, . . . , n

I Berechne die (lineare) Regressionsgerade fur die Daten(y1, z1), . . . , (yn, zn):

y = b0 + b1z(vgl. 2.11) und die Residuen

y∗i = yi − (b0 + b1zi ) i = 1, . . . , n

268 / 282

Page 269: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

I Bestimme die Korrelation zwischen den Residuen(x∗1 , y∗1 ), . . . , (x∗n , y∗n )

rx ,y ·z = rx∗,y∗ =

∑ni=1(x∗i − x∗· )(y∗i − y∗· )√∑n

i=1(x∗i − x∗· )2∑ni=1(y∗i − y∗· )2

I Die Großerx ,y ·z

heißt Partialkorrelation zwischen x und y , aus der dasMerkmal z ”herauspartialisiert” wurde.

I Die Partialkorrelation ist also eine bivariate Korrelation zwischenRegressionsresiduen.

269 / 282

Page 270: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.44 BemerkungI Man kann zeigen, dass gilt:

rx ,y ·z =rx ,y − rx ,z ry ,z√

(1− r 2x ,z )(1− r 2

y ,z )(1)

Dabei istI rx,y der Korrelationskoeffizient zwischen den Variablen x und yI rx,z der Korrelationskoeffizient zwischen den Variablen x und zI ry,z der Korrelationskoeffizient zwischen den Variablen y und z

I Die Partialkorrelation ist ein Maß fur den linearenZusammenhang von zwei Variablen x und y , aus dem der lineareEinfluss einer dritten Variablen z eliminiert wurde.Genauer: Die Partialkorrelation bemisst, inwieweit man aus denVorhersagefehlern bei der linearen Prognose von x durch z dieVorhersagefehler bei der linearen Prognose von y durch z linearvorhersagen kann - und umgekehrt.

I Gibt es mehr als drei Variablen, so konnen Partialkorrelationenhoherer Ordnung gebildet werden, indem die Residuen x∗i , y∗imit Hilfe des multiplen linearen Regressionsmodells (vgl.Methodenlehre II, 2.23) bestimmt werden.

270 / 282

Page 271: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Beispiel (Fortsetzung von Beispiel 2.42)I Lineare Regression von x bzgl. z

x = 1.246z + 0.464

I Lineare Regression von y bzgl. z

y = 1.420z − 1.13

I Regressionsresiduenx∗ y∗

1,06 0,610,57 1,771,32 2,351,32 1,351,07 0,93

-0,19 -0,81-0,43 -1,23-0,68 0,35-0,43 -2,23-1,19 0,190,07 0,93

-0,94 -0,39-3,92 -3,070,07 -1,072,32 0,35

271 / 282

Page 272: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

I rx ,y ·z = 0.72

I Die Korrelation zwischen Abstraktionsfahigkeit undsensomotorischen Koordinationsleistungen der Kinder ist somitvon 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter derKinder zuruckzufuhren

I Beachte: Mit den Werten

I rx,y = 0.89I rx,z = 0.77I ry,z = 0.80

kann man die Partialkorrelation rx ,y ·z auch mit Hilfe der Formel(1) berechnen.

272 / 282

Page 273: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Signifikanztest fur partielle Korrelationen

Ein Test zum Niveau α fur die Hypothese ”die Merkmale X und Yunter Z sind unkorreliert”

H0 : ρx ,y .z = 0

lehnt die Nullhypothese zu Gunsten der Alternative

H1 : ρx ,y .z 6= 0

ab, falls ∣∣∣∣∣∣√

n − 3rx ,y .z√1− r 2

x ,y .z

∣∣∣∣∣∣ > tn−3,1−α2

gilt. Man vergleiche diesen Test mit dem Test auf eine signifikanteKorrelation zwischen zwei Merkmalen (vgl. 2.5)

273 / 282

Page 274: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Partielle Korrelationen in SPSS

sensomotorischeKoordination

Abstraktionsfähigkeit

Korrelation

Signifikanz (zweiseitig)

Freiheitsgrade

Korrelation

Signifikanz (zweiseitig)

Freiheitsgrade

Abstraktionsfähigkeit

sensomotorischeKoordination

Alter

012

.,004

1,000,722

120

,004.

,7221,000KontrollvariablenKontrollvariablen

Korrelationen

274 / 282

Page 275: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Partielle Korrelationen in R$estimate

x y z

x 1.0000000 0.7220272 0.1882497

y 0.7220272 1.0000000 0.4095360

z 0.1882497 0.4095360 1.0000000

$p. value

x y z

x 0.0000000000 0.0003002053 0.5066983

y 0.0003002053 0.0000000000 0.1199311

z 0.5066982702 0.1199311224 0.0000000

$statistic

x y z

x 0.0000000 3.615123 0.6639876

y 3.6151228 0.000000 1.5550628

z 0.6639876 1.555063 0.0000000

$n

[1] 15

$gp

[1] 1

$method

[1] " pearson "

275 / 282

Page 276: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

2.45 SemipartialkorrelationenI Wird die dritte Variable z nur aus einer Variablen (z.B. x)

herauspartialisiert, so spricht man von einerSemipartialkorrelation.

I Man berechnet die (lineare) Regressionsgerade fur die Daten(x1, z1), . . . , (xn, zn):

x = a0 + a1z

und betrachtet die Vorhersagefehler

x∗i = xi − a0 − a1zi

I Dann bestimmt man die Korrelation zwischen(x∗1 , y1), . . . , (x∗n , yn):

ry(x ·z) = rx∗,y =

∑ni=1(x∗i − x∗· )(yi − y ·)√∑n

i=1(x∗i − x∗· )2∑ni=1(yi − y ·)2

276 / 282

Page 277: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Alternative Darstellung fur dieSemipartialkorrelationen

I Man kann zeigen dass gilt:

ry(x ·z) =rx ,y − rx ,z ry ,z√

1− r 2x ,z

(2)

Dabei istI rx,y der Korrelationskoeffizient zwischen den Variablen x und yI rx,z der Korrelationskoeffizient zwischen den Variablen x und zI ry,z der Korrelationskoeffizient zwischen den Variablen y und z

I Bemerkung:I Die Semipartialkorrelation bemisst, inwieweit man aus den

Vorhersagefehlern bei der linearen Prognose von x durch z dieWerte von y linear vorhersagen kann.

I Die quadrierte Semipartialkorrelation ist der Anteil der Varianzvon y , der durch die Variable x zusatzlich zu der Variablen zerklart werden kann.

I Die Semipartialkorrelation ist immer kleiner als diePartialkorrelation.

277 / 282

Page 278: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Berechnung der Semipartialkorrelationen inBeispiel 2.42

I Lineare Regression von x bzgl. z

x = 1.246z + 0.464

I Regressionsresiduen und Beobachtungen

x∗ y1,06 80,57 121,32 141,32 131,07 14

-0,19 8-0,43 9-0,68 12-0,43 8-1,19 90,07 14

-0,94 7-3,92 100,07 122,32 12

278 / 282

Page 279: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

I ry(x ·z) = 0.43

I Die Korrelation zwischen Abstraktionsfahigkeit undsensomotorischen Koordinationsleistungen der Kinder ist somitvon 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter derKinder zuruckzufuhren.

I Beachte: Mit den Werten

I rx,y = 0.89I rx,z = 0.77I ry,z = 0.80

kann man die Semipartialkorrelation ry(x ·z) auch mit Hilfe derFormel (2) berechnen.

279 / 282

Page 280: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Semipartialkorrelationen in SPSSI Die Semipartialkorrelationen (in SPSS heißen diese

Teil-Korrelationen) werden (auf Wunsch) als Erganzung zu denKleinsten Quadrate-Schatzungen im multiplen linearenRegressionsmodell (vgl. 2.23) ausgegeben.

I Signifikanztest fur die Semipartialkorrelationen fehlen.

StandardfehlerRegressionskoeffizientB Beta Sig.T

StandardisierteKoeffizienten

Nicht standardisierte Koeffizienten

(Konstante)

Alter

Abstraktionsfähigkeit

1

,0043,615,671,202,730

,1461,555,289,328,510

,429-,8181,795-1,469ModellModell

Koeffizientena

a. Abhängige Variable: sensomotorische Koordination

TeilPartiellNullter

Ordnung

Korrelationen

Alter

Abstraktionsfähigkeit

1

,431,722,892

,185,410,803ModellModell

Koeffizientena

a. Abhängige Variable: sensomotorische Koordination

280 / 282

Page 281: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Semipartialkorrelationen in RCall:

lm( formula = y ˜ x + z)

Residuals :

Min 1Q Median 3Q Max

-1.9145 -0.7943 0.1447 0.8599 1.3851

Coefficients :

Estimate Std. Error t value Pr(>|t|)

( Intercept ) -1.4690 1.7955 -0.818 0.42922

x 0.7300 0.2019 3.615 0.00355 **

z 0.5104 0.3282 1.555 0.14590

---

Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error : 1.107 on 12 degrees of freedom

Multiple R- squared : 0.8298 , Adjusted R- squared : 0.8014

F- statistic : 29.25 on 2 and 12 DF , p- value : 2.433e -05

estimate p. value statistic n gp Method

1 0.1852102 0.513832 0.6528826 15 1 pearson

estimate p. value statistic n gp Method

1 0.4305663 0.09842207 1.652552 15 1 pearson

281 / 282

Page 282: Methodenlehre II, SoSe 2015 - Ruhr University Bochum€¦ · Regression und multiple Regression Das allgemeine lineare Modell: ” Ein mathematisches Modell - viele statistische Verfahren“

Methodenlehre II,SoSe 2015

Holger Dette

1. GrundlegendePrinzipien derschließenden Statistikam Beispiel des t-Tests

2. Korrelation, LineareRegression undmultiple Regression2.1 Korrelation

2.2 Lineare Regression

2.3 Multiple lineareRegression

2.4 Multikollinearitat undSuppressionseffekte

2.5 Variablenselektion

2.6 NichtlineareZusammenhange

2.7 Partielle undSemipartielle Korrelation

Bemerkung:

Ob ein Partial- oder Semipartialkorrelationskoeffizient zurBeschreibung eines Zusammenhangs gewahlt wird, hangt vontheoretischen Uberlegungen ab:

I Beeinflusst eine dritte Variable (z) ”ursachlich” beide Variablenx und y Partialkorrelation

I Wird der Zusammenhang zwischen den Variablen x und y durchdie dritte Variable z ”vermittelt” (z ist mit y korreliert undbeeinflusst x) Semipartialkorrelation

282 / 282


Recommended