[email protected] - Persönliche...

Wirtschaftsstatistik 2 Herbert Nagel

Wirtschaftsstatistik 2

Herbert [email protected]


Literatur

Bucher

Brannath, Futschik, Krall (2010): Statistik im Studium der Wirtschaftswissenschaften.

facultas

Hatzinger, Nagel (2013): Statistik mit SPSS (2. Auflage). Pearson

Hatzinger, Hornik, Nagel, Maier (2014): R Einfuhrung durch angewandte Statistik

(2. Auflage). Pearson

Sonstiges

Nagel: Kategoriale Daten. Download

Nagel: Foliensatz Wirtschaftsstatistik 2. Download


Korrelation


Alkohol- und Tabakkonsum: Streudiagramm

tobacco

5,04,54,03,53,02,5

alco

ho

l

6,5

6,0

5,5

5,0

4,5

4,0

3,5

NorthernIreland

Scotland

Wales

Southwest

Southeast

EastAnglia

WestMidlands

EastMidlands

NortheastYorkshire

North


Korrelationskoeffizient (Pearson)

• Geeignet bei linearem Zusammenhang.Check via Streudiagramm!

• Unabhangig vom Maßstab.

• −1 ≤ r ≤ 1Das Vorzeichen von r gibt die Richtung des Zusammenhangs an.|r| gibt die Starke des Zusammenhangs an.

• Symmetrisch: rxy = ryx.


Starke Korrelation

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

● ●●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

0 1 2 3 4 5

0.0

0.5

1.0

1.5

r = 0.932

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

0 1 2 3 4 5

−1.

5−

1.0

−0.

50.

0

r = −0.83


Schwache Korrelation

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

0 1 2 3 4 5

−1

01

2

r = 0.403

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

0 1 2 3 4 5

−1.

5−

1.0

−0.

50.

00.

5

r = −0.603


Korrelation: falsch eingesetzt

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

● ●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

0 1 2 3 4 5

01

23

45

6

r = −0.0257

●

●● ●

●●

●

●●

● ●

●

●●

●

●

●●

●●

●

● ●

−1 0 1 2 3 4 5

01

23

45

r = 0.908


Test des Korrelationskoeffizienten

• H0 : ρ = 0 und H1 : ρ 6= 0

• Teststatistik T folgt einer t-Verteilung mit n− 2 Freiheitsgraden.

T = r

√n− 2√1− r2

• Kritischer Wert (zweiseitig) fur |T | ist Q(t)n−2(1− α/2).

• Einseitige Tests H1 : ρ > 0 bzw. H1 : ρ < 0 mit ±Q(t)n−2(1− α).


Alkohol- und Tabakkonsum: Test des Korrelationskoeffizienten

• H0 : ρ = 0 gegen H1 : ρ 6= 0 bei α = 0.05

• n = 10 und r = 0.784

T = 0.784

√10− 2√

1− 0.7842= 3.572

• Q(t)10−2(1− 0.05/2) = Q

(t)8 (0.975) = 2.306

• H0 wird verworfen, ρ ist signifikant positiv.


Alkohol- und Tabakkonsum: Berechnung und Test in SPSS (ohne Nordirland)

tobaccoalcohol

Korrelation nach Pearson

Signifikanz (2-seitig)

N



N

alcohol

tobacco

1010

,007

1,784**

1010

,007

,784**

1

Korrelationen

**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

In der Standardeinstellung werden mit sog. Signifikanzsternen signifikante Ergebnisse mar-kiert.


Alkohol- und Tabakkonsum: Achtung auf Ausreißer (mit Nordirland)

tobaccoalcohol



N



N

alcohol

tobacco

1111

,509

1,224

1111

,509

,2241

Korrelationen

Der Korrelationskoeffizient ist nicht robust gegenuber Ausreißern.Sie konnen Ergebnisse in jede Richtung beeinflussen.


Bankfilialen und Minderheitenanteil

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

10 20 30 40

1.5

2.0

2.5

3.0

3.5

Banken in Counties von New Jersey

Minderheitenanteil

Ein

woh

nerje

Ban

kfili

ale


Bankfilialen und Minderheitenanteil: Korrelationsberechnung in R

Pearson's product-moment correlation

data: Minderheitenanteil and EinwohnerjeBankfiliale

t = 4.6686, df = 19, p-value = 0.0001674

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.4372051 0.8837648

sample estimates:

cor

0.7309378


Selbstmorde mit Schusswaffen

●

●

●

●

●

●

●

●

●

800 1000 1200 1400 1600 1800 2000

2.0

2.5

3.0

3.5

4.0

4.5

Selbstmorde mit Schusswaffen 1990−2000

Waffenlizenzen

SM

_sch

ussw

affe

n

B

K

N

O

S

St

T

V

W


Selbstmorde mit Schusswaffen: Rangkorrelation nach Spearman

Spearman's rank correlation rho

data: Waffenlizenzen and SM_schusswaffen

S = 4, p-value = 8.267e-05

alternative hypothesis: true rho is greater than 0

sample estimates:

rho

0.9666667


Regression

Einfache lineare Regression


Gebrauchtwagenpreise: Streudiagramm

Meilen

5000040000300002000010000

Pre

is

6000

5800

5600

5400

5200

5000

4800


Kleinstquadrat-Prinzip: Ausgangsdaten

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

Ausgangsdaten


Kleinstquadrat-Prinzip: Einfachversuch

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

RSS = 22.80

y=11.8


Kleinstquadrat-Prinzip: Besserer Versuch

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

RSS = 8.30


Kleinstquadrat-Prinzip: Beste Gerade

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

RSS = 4.90

y=6.307+0.886x


Regression: Matrixschreibweise

Gegeben sind: x′ = (x1, x2, . . . , xn) y′ = (y1, y2, . . . , yn)

y = β0 + β1 · x+ ε =

1 x11 x2...1 xn

·(β0β1

)+ ε = X · β + ε

β =(X ′X

)−1X ′y

Der Rechenaufwand ist unvertretbar hoch.Wir entnehmen Ergebnisse SPSS- oder R-Output!


Gebrauchtwagenpreise: SPSS - Regressionsoutput (Teil 1)

Standardfehler des Schätzer

sKorrigiertes R-

QuadratR-QuadratR

1 151,569,647,650,806a

ModellModell

Modellzusammenfassung

a. Einflußvariablen : (Konstante), Meilen

Sig.FMittel der Quadratedf

Quadratsumme

Regression

Nicht standardisierte Residuen

Gesamt

1

996434890,190

22973,086982251362,469

,000a

182,1064183527,72114183527,721

ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), Meilenb. Abhängige Variable: Preis



Standardfehler

RegressionskoeffizientB Beta Sig.T

Standardisierte Koeffiziente

nNicht standardisierte

Koeffizienten

(Konstante)

Meilen

1

,000-13,495-,806,002-,031

,00077,30784,5126533,383

ModellModell

Koeffizientena

a. Abhängige Variable: Preis

Wichtigster Ausgabeblock in der einfachen linearen Regression.

Enthalt die Regressionskoeffizienten und die Angaben fur den t-Test von β1 (incl. p-Wert).

Preis = 6533.383− 0.031 ·Meilen


Gebrauchtwagenpreise: Streudiagramm mit Regressionsgeraden

Meilen

5000040000300002000010000

Pre

is

6000

5800

5600

5400

5200

5000

4800

R2 Linear = 0,650


Inferenz uber β1

• Test fur β1 (BFK (7.10)): H1 : β1 6= 0

T =b1sb1

wobei s2b1

=s2e∑

(xi − x)2und s2

e =1

n− 2

∑e2i

Entscheidung fur H1, wenn |T | > Q(t)n−2(1− α/2).

• Konfidenzintervall fur β1 (BFK (7.13)):

b1 ±Q(t)n−2(1− α/2) · sb1


Gebrauchtwagenpreise: Inferenz uber β1

• n = 100 β1 = b1 = −0.031 sb1 = 0.002

• Test:

T =−0.031

0.002= −15.5

Q(t)100−2(0.975) = Q

(t)98(0.975) = 1.984

Also Entscheidung fur H1. β1 ist signifikant von 0 verschieden.

• KI: −0.031± 1.984 · 0.002 = (−0.035,−0.027)


Gebrauchtwagen: Prognose

• Punktprognosen: Einsetzen in die Regressionsgleichung fur bestimmte Werte der

erklarenden Variablen bzw. Punkt auf der Geraden ablesen.

z.B: Preiserwartung fur einen Wagen mit 30000 Meilen:

Preis = 6533.383− 0.031 · 30000 = 5603.38

• Prognoseintervalle: Zur Punktprognose sollen Schwankungsbreiten bestimmt wer-

den.

Sowohl fur individuelle Prognosen (BFK (7.15))

als auch fur Mittelwert-Prognosen (BFK (7.16)) sind rechenaufwandig.


Buromieten: Streudiagramm

Leer

2520151050

Mie

te

16,00

14,00

12,00

10,00

8,00

6,00


Buromieten: Regressionskoeffizienten

Standardfehler




Koeffizienten

(Konstante)

Leer

1

,000-4,196-,621,053-,223

,00018,468,69912,916

ModellModell

Koeffizientena

a. Abhängige Variable: Miete

Damit kommt man zu einer Mietprognose fur eine Stadt mit 10% Leerstand:

Miete = 12.916− 0.223 · 10 = 10.686


Rohol- und Benzinpreise: Streudiagramm

●

●

●●

●

●

●

●

●

●●

●

●●

●

●

●●

●

●

●

●

10 15 20 25 30 35

6080

100

120

Benzinpreise 1975 − 1996

Rohöl (Dollar pro Gallone)

Ben

zin

(Cen

ts p

ro B

arre

l)


Rohol- und Benzinpreise: R - Output

Call: lm(formula = Benzin ~ Rohoel)

Residuals:

Min 1Q Median 3Q Max

-14.278 -4.770 -3.224 3.633 17.850

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 30.1038 5.4629 5.511 2.15e-05

Rohoel 3.0201 0.2659 11.358 3.57e-10

---

Residual standard error: 8.966 on 20 degrees of freedom

Multiple R-squared: 0.8658, Adjusted R-squared: 0.8591

F-statistic: 129 on 1 and 20 DF, p-value: 3.571e-10


Beispiel 7 - 8

Vorbereitung

1210864

Pu

nkt

e

100

90

80

70

60

50

40


Beispiel 7 - 8


sKorrigiertes R-

QuadratR-QuadratR

1 16,650,347,510,714a

ModellModell


a. Einflußvariablen : (Konstante), Vorbereitung

Standardfehler




Koeffizienten

(Konstante)

Vorbereitung

1

,1751,769,7142,7304,828

,1821,72922,04338,108

ModellModell

Koeffizientena

a. Abhängige Variable: Punkte


Beispiel 7 - 9

d

6040200

ertr

ag

50

40

30

20

10

0


Beispiel 7 - 9


sKorrigiertes R-

QuadratR-QuadratR

1 6,838,623,650,806a

ModellModell


a. Einflußvariablen : (Konstante), d

Standardfehler




Koeffizienten

(Konstante)

d

1

,0004,916,806,099,486

,0014,3533,75116,329

ModellModell

Koeffizientena

a. Abhängige Variable: ertrag


Beispiel 7 - 10

gr2

1009590858075

gra

lt

180

175

170

165

160


Beispiel 7 - 10

Standardfehler




Koeffizienten

(Konstante)

gr2

1

,0016,692,939,136,909

,0007,77311,73891,243

ModellModell

Koeffizientena

a. Abhängige Variable: gralt


Beispiel 7 - 12

Groesse

195190185180175170165

Gew

ich

t

95

90

85

80

75

70

65


Beispiel 7 - 12

Standardfehler des

SchätzersKorrigiertes R-

QuadratR-QuadratR

1 6,075,309,408,639a

ModellModell


a. Einflußvariablen : (Konstante), Groesse

Standardfehler




Koeffizienten

(Konstante)

Groesse

1

,0882,032,639,227,462

,943-,07540,615-3,050

ModellModell

Koeffizientena

a. Abhängige Variable: Gewicht


Beispiel 7 - 14

qualkon

8642

um

satz

30

25

20

15

10

5


Beispiel 7 - 14

Standardfehler




Koeffizienten

(Konstante)

qualkon

1

,00016,263,993,1893,067

,376,9951,1391,133

ModellModell

Koeffizientena

a. Abhängige Variable: umsatz


Beispiel 7 - 16

flaeche

12010080604020

pre

is

4400

3400

2400

1400

400


Beispiel 7 - 16

Standardfehler




Koeffizienten

(Konstante)

flaeche

1

,0233,578,87310,59337,898

,344-1,071810,748-868,297

ModellModell

Koeffizientena

a. Abhängige Variable: preis


Regression

Multiple lineare Regression


Gebrauchtwagenpreise: Streudiagramm Preis – Service

Service

543210

Pre

is

6000

5800

5600

5400

5200

5000

4800


Einfachregression: Prinzip des F - Tests

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

RSS = 22.80

y=11.8

RSS0 = 22.80

●

●

●

●

●

0 2 4 6 8 10 12

68

1012

1416

18

RSS = 4.90

y=6.307+0.886x

RSS1 = 4.90


Prinzip des F - Tests

Ein einfaches Modell M0 wird wird mit einem komplexeren Modell M1 verglichen.

Zu beiden Modellen werden Residuenquadratsummen (RSS0 bzw. RSS1) berechnet.

Diese geben an, wie gut das jeweilige Modell zu den Daten passt.

So gut wie immer gilt: RSS0 > RSS1 (nur in Sonderfallen gilt =).

Ist der Unterschied in den Quadratsummen nur gering, ist das Modell M1 nur etwas besser

als M0, man wird das einfachere Modell M0 zur Beschreibung der Daten wahlen. Ist der

Unterschied groß, ist M1 wesentlich besser als M0.

Zur Beurteilung, ob die Unterschiede groß (signifikant) sind, werden F-Tests eingesetzt.


Regression: Matrixschreibweise

Gegeben sind Vektoren der Lange n: y und x1, x2, . . . , xky1y2...yn

= y = β0 + β1 · x1 + . . .+ βk · xk + ε

=

1 x11

x21. . . xk1

1 x12x22

. . . xk2... ... ... ... ...1 x1n x2n . . . xkn

·β0β1...βk

+ ε

= X · β + ε


Regression: Parameterschatzung in Matrixschreibweise

β =(X ′X

)−1X ′y

Der Rechenaufwand ist unvertretbar hoch, speziell das Invertieren von X ′X.

Wir entnehmen Ergebnisse SPSS- oder R-Output!


Bestimmtheitsmaß und F-Test

• Modelle:

M0 : y = β0 + ε mit RSS0 = SQT

M1 : y = β0 + β1 · x1 + . . .+ βk · xk + ε mit RSS1 = SQR

• Bestimmtheitsmaß: (BFK (8.5))

R2 = 1−SQR

SQT

0 ≤ R2 ≤ 1


Bestimmtheitsmaß und F-Test

• Hypothesen:

H0 : β1 = β2 = . . . = βk = 0 (M0 gilt)

H1 : wenigstens ein βi 6= 0 (M1 gilt)

• F-Test: (BFK (8.6))

f =(n− k − 1) ·R2

k · (1−R2)

Entscheidung fur H1, falls f > Q(F )k,n−k−1(1− α)

Einfachere Berechnung von f uber Quadratsummen moglich.


Einfachregression: ANOVA – Tableau

n = 5 k = 1

SQ df MS F

SQE 17.90 1 17.90 10.98

SQR 4.90 3 1.63

SQT 22.80 4

R2 = 17.90/22.80 = 0.785

Q(F )1,3 (0.95) = 10.13




sKorrigiertes R-

QuadratR-QuadratR

1 41,479,974,974,987a

ModellModell


a. Einflußvariablen : (Konstante), Service, Meilen

Sig.FMittel der QuadratedfQuadratsumme

Regression


Gesamt

1

996434890,190

1720,53197166891,524

,000a

1821,5303133999,33326267998,666

ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), Service, Meilenb. Abhängige Variable: Preis


Inferenz uber einzelne βi

Im Prinzip wie bei der Einfachregression, nur ein leicht modifiziertes t-Quantil kommt zumEinsatz

• t-Test fur βi (BFK (8.8)): H1 : βi 6= 0

T =bisbi

Entscheidung fur H1, wenn |T | > Q(t)n−k−1(1− α/2).

• Konfidenzintervall fur βi (BFK (8.9)):

bi ±Q(t)n−k−1(1− α/2) · sbi



Standardfehler




Koeffizienten

(Konstante)

Meilen

Service

1

,00034,807,5693,903135,837

,000-49,788-,814,001-,031

,000248,58124,9666206,128

ModellModell

Koeffizientena

a. Abhängige Variable: Preis

Enthalt die Regressionskoeffizienten und Angaben zu den t-Tests fur die βiPreis = 6206.128− 0.031 ·Meilen+ 135.837 · Service


Gebrauchtwagenpreise: Inferenz uber βService

• t-Test fur Service

T =135.837

3.907= 34.8

Vergleich (zweiseitig) mit Q(t)97(0.975) = 1.984.

Bequemer mit p-Wert (nur zweiseitig angegeben!)

• KI fur Service

135.837± 1.984 · 3.903 = 135.837± 7.744 = (128.093; 143.581)


Gebrauchtwagenpreise: Modellcheck: Normalverteilung der Residuen

Beobachteter Wert

100500-50-100

Erw

arte

ter

Wer

t vo

n N

orm

al

100

50

0

-50

-100

Q-Q-Diagramm von Normal von Unstandardized Residual

Die Residuen sollen normal-

verteilt sein.

Uberprufung via Q-Q-Plot,

die beobachteten Quantile

werden mit den (unter der

NV) erwarteten Quantilen

verglichen.

Das Idealbild sind Punkte auf

einer 45-Grad-Geraden.


Gebrauchtwagenpreise: Modellcheck: Prognosewerte – Residuen

Unstandardized Predicted Value

6000580056005400520050004800

Un

stan

dar

diz

ed R

esid

ual

100

75

50

25

0

-25

-50

-75

-100

Es soll kein Zusammenhang zwischen

den prognostizierten Werten und den

Residuen erkennbar sein.

Das Wunschbild ist ein vollig wirres

Streudiagramm ohne erkennbare Mu-

ster.

Achtung: bei kleinen Datensatzen

werden leicht Muster erkannt, wo ei-

gentlich keine sind.


Diagnoseplots: Ausreißer

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−4 −2 0 2 4

−6

−4

−2

02

46

x

y

●

●

●

●

●

●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●

●

●

●

●

−6 −4 −2 0 2 4

−2

−1

01

2

Residuen

erw

arte

te Q

uant

ile

●

●

●

●

●

●

●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●●

●

●

●

−4 −2 0 2 4

−6

−4

−2

02

4

Prognose

Res

idue

n


Diagnoseplots: Nichtlinearer Zusammenhang

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

−4 −2 0 2 4

−50

050

x

y

●

●

●

●

●

●●●●

●●●●●

●●

●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●● ●●

●●●●●●

●●●●

●●●●●

●●●●●●●●●●●●

●●●●●

●●●●

●●

●●●●●●

●●●●

●

●

●

●

●

−30 −20 −10 0 10 20 30

−20

−10

010

20

Residuen

erw

arte

te Q

uant

ile

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−40 −20 0 20 40

−30

−20

−10

010

2030

Prognose

Res

idue

n


Diagnoseplots: Heterogene Varianzen

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

2 4 6 8 10

05

1015

x

y

●

●

●

●

●

●●

●●●●●●

●●●

●●●

●●●

●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●

●●●●●

●●●●

●

●

●

●

●

−10 −5 0 5

−5

05

Residuen

erw

arte

te Q

uant

ile●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

2 4 6 8 10

−10

−5

05

Prognose

Res

idue

n


Fastfoodlokal: Streudiagramme

Angestellte

403020100

Um

satz

200

150

100

50

0

CityNicht in City

Lage

Schüler

13108530

Um

satz

200

150

100

50

0

CityNicht in City

Lage


Fastfoodlokal: Koeffizienten (3 erklarende Var.)

Standardfehler




Koeffizienten

(Konstante)

Angestellte

Schüler

Lage

1

,0142,496,1936,32915,800

,491,691,0531,102,762

,0009,014,675,5294,765

,374,8946,9716,232

ModellModell

Koeffizientena

a. Abhängige Variable: Umsatz


Fastfoodlokal: Koeffizienten (2 erklarende Var.)


Quadratsumme

Regression


Gesamt

1

89134479,389

745,2498764836,635

,000a

46,72534821,377269642,754

ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), Lage, Angestellteb. Abhängige Variable: Umsatz

Standardfehler




Koeffizienten

(Konstante)

Angestellte

Lage

1

,0072,758,2066,11816,873

,0009,063,676,5274,775

,1871,3286,2648,321

ModellModell

Koeffizientena



Fastfoodlokal: Modell-Check

Beobachteter Wert

6040200-20-40-60

Erw

arte

ter

Wer

t vo

n N

orm

al

60

40

20

0

-20

-40

-60

Q-Q-Diagramm von Normal von Unstandardized Residual


200150100500

Un

stan

dar

diz

ed R

esid

ual

80

60

40

20

0

-20

-40


Gebrauchtwagenpreise: R - Output

Teil 1: Aufruf und Zusammenfassung der Residuen

Call:

lm(formula = Preis ~ Meilen + Service + Garage)

Residuals:

Min 1Q Median 3Q Max

-97.343 -30.205 -1.084 26.777 97.323


Gebrauchtwagenpreise: R - Output

Teil 2: Koeffizienten und F-Test

Coefficients:


(Intercept) 6.187e+03 2.585e+01 239.379 <2e-16

Meilen -3.114e-02 6.359e-04 -48.966 <2e-16

Service 1.345e+02 3.867e+00 34.793 <2e-16

GarageIn Garage 1.901e+01 8.461e+00 2.247 0.027



F-statistic: 1267 on 3 and 96 DF, p-value: < 2.2e-16


Sozialstaatsvolksbegehren

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●●

●

5000 10000 15000 20000 25000 30000 35000

2000

4000

6000

8000

1000

012

000

Sozialstaatsvolksbegehren 2002

SP − Stimmen Gemeinderat 2001

Unt

ersc

hrift

en V

olks

bege

hren


Sozialstaatsvolksbegehren Anteile

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●●

●

●

●

●

●

●

30 35 40 45 50 55 60

1213

1415

1617

Sozialstaatsvolksbegehren 2002

SP − Anteil Gemeinderat 2001

Ant

eil U

nter

schr

iften

Vol

ksbe

gehr

en


Zeitreihen: TrendLinearer Trend

Zeit

zrlin

2002 2004 2006 2008 2010 2012

1.0

1.5

2.0

Exponentieller Trend

Zeit

zrex

p

2002 2004 2006 2008 2010 2012

010

2030

40


Zeitreihen: Linearer TrendLinearer Trend

Zeit

zrlin

2002 2004 2006 2008 2010 2012

1.0

1.5

2.0


Zeitreihen: Exponentieller Trend

Logarithmierte Reihe − Linearer Trend

Zeit

lzre

2002 2004 2006 2008 2010 2012

01

23

Ursprungsreihe − Exponentieller Trend

Zeit

zrex

p

2002 2004 2006 2008 2010 2012

010

2030

40


Die Presse

Bericht am 7. Oktober 2000

Thema: Merger & Akquisition

Geschehen

X-Achse: Marktkapitalisierung

Y-Achse: M&A - Aktivitat


Beispiel 8 - 17


sKorrigiertes R-

QuadratR-QuadratR

1 ,266,915,940,969a

ModellModell


a. Einflußvariablen : (Konstante), note, semester


Quadratsumme

Regression


Gesamt

1

75,875

,0715,355

,001a

38,9142,76025,520

ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), note, semesterb. Abhängige Variable: bewertung

Standardfehler




Koeffizienten

(Konstante)

semester

note

1

,0025,961,670,099,593

,0045,101,573,079,401

,0035,347,3351,791

ModellModell

Koeffizientena

a. Abhängige Variable: bewertung


Beispiel 8 - 23

Haltbarkeit

45403530252015

Zu

frie

den

20

15

10

5

0

Material

111000Z

ufr

ied

en

20

15

10

5

0


Beispiel 8 - 23


sKorrigiertes R-

QuadratR-QuadratR

1 3,116,569,665,816

ModellModell



Regression


Gesamt

1

9202,900

9,708767,957

,0226,95067,4722134,943

ModellModell

ANOVA

Standardfehler




Koeffizienten

(Konstante)

Material

Haltbarkeit

1

,086-2,000-,472,142-,284

,0083,666,8642,1247,788

,0034,4033,41615,038

ModellModell

Koeffizienten


Beispiel 8 - 25

x

80604020

y

1300

1000

700

400

100


Beispiel 8 - 25


sKorrigiertes R-

QuadratR-QuadratR

1 ,2751,0001,0001,000

ModellModell



Regression


Gesamt

1

5724163,333

,0763,227

,0004786242,643362081,5532724163,106

ModellModell

ANOVA

StandardfehlerRegressionskoeff

izientB Beta Sig.T

Standardisierte KoeffizientenNicht standardisierte Koeffizienten

(Konstante)

x

xx

1

,0001741,1282,815,000,500

,000-1194,695-1,932,025-30,013

,0001515,328,429649,983

ModellModell

Koeffizienten


Beispiel 8 - 26

x

543210

y

60

50

40

30

20

10

0


Beispiel 8 - 26


Regression


Gesamt

1

52022,833

31,352394,057

,01030,760964,38821928,776

ModellModell

ANOVA

Standardfehler




Koeffizienten

(Konstante)

x

xx

1

,010-5,768-2,561,916-5,286

,0274,0461,7964,77419,314

,0057,6855,07539,000

ModellModell

Koeffizienten


Beispiel 8 - 30 i

yd

100806040200

res

40

30

20

10

0

-10

-20

-30


Beispiel 8 - 30 ii

yd

30252015105

res

2

0

-2

-4


Beispiel 8 - 30 iii

yd

656055504540

res

4

2

0

-2

-4

-6


Beispiel 7 - 9 Revision

d

6040200

ertr

ag

50

40

30

20

10

0


50,0000040,0000030,0000020,0000010,00000U

nst

and

ard

ized

Res

idu

al

10,00000

5,00000

,00000

-5,00000

-10,00000

-15,00000




sKorrigiertes R-

QuadratR-QuadratR

1 1,696,977,980,990a

ModellModell


a. Einflußvariablen : (Konstante), dd, d

Standardfehler




Koeffizienten

(Konstante)

d

dd

1

,000-14,119-2,509,001-,021

,00018,2823,248,1071,959

,089-1,8511,659-3,071

ModellModell

Koeffizientena

a. Abhängige Variable: ertrag




50,0000040,0000030,0000020,0000010,00000,00000

Un

stan

dar

diz

ed R

esid

ual

2,00000

1,00000

,00000

-1,00000

-2,00000

-3,00000


Varianzanalyse

Einfaktoriell


Produkteinfuhrung: Parallele Boxplots

Marketing

PreisQualitätBequemlichkeit

Um

satz

900

800

700

600

500

400

40

36


Produkteinfuhrung: ANOVA – Voraussetzungen

• Normalverteilung

Histogramme, Boxplots, Tests

• Varianzhomogenitat

Boxplots, Maßzahlen, Tests

Signifikanzdf2df1Levene-Statistik

,803572,220

Test der Homogenität der Varianzen

Umsatz


ANOVA – Prinzip: Keine Unterschiede

Gruppe 1 Gruppe 2 Alle

12

34

56

7

●

●

●

●

●

●

●

●

●

●

●

●

x∑

(xi − x)2

Gruppe 1 2 2Gruppe 2 2 2Zusammen 2 4

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

gr 1 0 0 0 1

Residuals 4 4 1


ANOVA – Prinzip: Unterschiede


12

34

56

7

●

●

● ●

●

●

●

●

●●

●

● x∑

(xi − x)2


Response: y


gr 1 6 6 6 0.07

Residuals 4 4 1


ANOVA – Prinzip: Starke Unterschiede


12

34

56

7

●

●

●

●

●

●

●

●

●

●

●

●

x∑

(xi − x)2


Response: y


gr 1 24 24 24 0.008

Residuals 4 4 1


Produkteinfuhrung: ANOVA

SignifikanzFMittel der Quadratedf

Quadratsumme

Zwischen den Gruppen

Innerhalb der Gruppen

Gesamt 59614756,983

9051,19957515918,350

,0075,46049419,317298838,633

ONEWAY ANOVA

Umsatz


Produkteinfuhrung: Post – Hoc

SignifikanzStandardfehle

rMittlere

Differenz (I-J)

Qualität

Preis

Bequemlichkeit

Preis

Bequemlichkeit

Qualität

Bequemlichkeit

Qualität

Preis

Qualität

Preis

Bequemlichkeit

Preis

Bequemlichkeit

Qualität

Bequemlichkeit

Qualität

Preis

LSD

Bonferroni

,25330,085-52,850

,38330,08546,500

,25330,08552,850

,00530,08599,350*

,38330,085-46,500

,00530,085-99,350*

,08430,085-52,850

,12830,08546,500

,08430,08552,850

,00230,08599,350*

,12830,085-46,500

,00230,085-99,350*

(I) Marketing (J) Marketing(I) Marketing (J) Marketing

Mehrfachvergleiche

Abhängige Variable:Umsatz

*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.


Produkteinfuhrung: ANOVA als Regression


Quadratsumme

Regression


Gesamt

1

59614756,983

9051,19957515918,350

,007a

5,46049419,317298838,633

ModellModell

ANOVAb

a. Einflußvariablen : (Konstante), dummy_qualitaet, dummy_preisb. Abhängige Variable: Umsatz

Standardfehler




Koeffizienten

(Konstante)

dummy_preis

dummy_qualitaet

1

,0023,302,46330,08599,350

,1281,546,21730,08546,500

,00026,59221,273565,700

ModellModell

Koeffizientena



Alkohol – Gehalt: Boxplot

alkohol

oftab und zunie

geh

alt

80

70

60

50

40

30

20


Alkohol – Gehalt: ANOVA


Quadratsumme



Gesamt 696078,571

86,148675771,893

,1771,780153,3392306,678

ONEWAY ANOVA

gehalt


Kaufman Assessment Battery for Children

3. 5. 7.

Mittelwerte 11.7500 12.7963 13.077

Standardabw 2.3837 2.4981 2.832


schulstufe 2 49 24.57 3.78 0.025

Residuals 146 948 6.49


Kaufman Assessment Battery for Children

Coefficients:


(Intercept) 11.750 0.341 34.51 <2e-16

schulstufe5. 1.046 0.486 2.15 0.033

schulstufe7. 1.327 0.531 2.50 0.014



F-statistic: 3.78 on 2 and 146 DF, p-value: 0.025


Rechentechnik

Rechnen mit Einzeldaten ist muhsam, mit Kennzahlen der einzelnen Gruppen ist der Auf-wand vertretbar (Formeln in BFK: (9.4), (9.5), (9.6)).

Gruppe n x sI 17 37 8II 9 35 9III 26 42 8

N = 17 + 9 + 26 = 52x = (37 · 17 + 35 · 9 + 42 · 26)/52 = 39.154

SQA = 17 · (37− 39.154)2 + 9 · (35− 39.154)2 + 26 · (42− 39.154)2

= 444.95

SQR = (17− 1) · 82 + (9− 1) · 92 + (26− 1) · 82 = 3272


Rechentechnik

Somit kann das ANOVA – Tableau erstellt werden.

QS df MQS FSQA 444.95 2 222.48 3.33SQR 3272.00 49 66.77SQT 3716.95 51

Vergleichswert: Q(F )2,49(0.95) = 3.18

Das Ergebnis ist also signifikant. Die Mittelwerte in den drei Gruppen unterscheiden sich.


Beispiel 9 - 10

Firma

CBA

Arb

eits

zeit

24

22

20

18


Beispiel 9 - 10


,440122,880


Arbeitszeit


Quadratsumme



Gesamt 1448,376

2,8481234,180

,1242,4927,098214,196

ONEWAY ANOVA

Arbeitszeit


Beispiel 9 - 13

Marke

CBA

To

ner

verb

rau

ch

6

5

4

3

2

1

10


Beispiel 9 - 13


,665122,423


Tonerverbrauch


Quadratsumme



Gesamt 1414,877

,432125,180

,00211,2324,84929,697

ONEWAY ANOVA

Tonerverbrauch


Varianzanalyse

Mehrfaktoriell


Produkteinfuhrung: Gruppierte Boxplots

Marketing


Um

satz

900

800

700

600

500

400

ZeitungTV

Medium


Produkteinfuhrung: Mittelwertplot

Marketing


Gru

pp

enm

itte

lwer

te690

660

630

600

570

Geschätztes Randmittel von Umsatz

ZeitungTV

Medium


Modelle: Nullmodell

Mittelwerte

A1 A2

B1 20.0 20.0

B2 20.1 20.1

1819

2021

2223

24

Modell Y~1

A

Gru

ppen

mitt

elw

erte

A1 A2

B

B2B1

Response: y


A 1 0.00 0.00 0.00 1.00

B 1 0.04 0.04 0.02 0.88

A:B 1 0.00 0.00 0.00 1.00

Residuals 12 20.00 1.67


Modelle: Haupteffekt A

Mittelwerte

A1 A2

B1 20.0 30.0

B2 20.2 30.2

2022

2426

2830

Modell Y~A

A

Gru

ppen

mitt

elw

erte

A1 A2

B

B2B1

Response: y


A 1 400 400 240.0 2.7e-09

B 1 0 0 0.1 0.76

A:B 1 0 0 0.0 1.00

Residuals 12 20 2


Modelle: Haupteffekt B

Mittelwerte

A1 A2

B1 20.0 20.0

B2 35.0 35.0

2025

3035

Modell Y~B

A

Gru

ppen

mitt

elw

erte

A1 A2

B

B2B1

Response: y


A 1 0 0 0 1

B 1 900 900 540 2.4e-11

A:B 1 0 0 0 1

Residuals 12 20 2


Modelle: Additives Modell A + B

Mittelwerte

A1 A2

B1 20.0 30.0

B2 35.0 45.0

2025

3035

4045

Modell Y~A+B

A

Gru

ppen

mitt

elw

erte

A1 A2

B

B2B1

Response: y


A 1 400 400 240 2.7e-09

B 1 900 900 540 2.4e-11

A:B 1 0 0 0 1

Residuals 12 20 2


Modelle: Wechselwirkungsmodell A * B

Mittelwerte

A1 A2

B1 20.0 30.0

B2 35.0 28.0

2025

3035

Modell Y~A*B

A

Gru

ppen

mitt

elw

erte

A1 A2

B

B1B2

Response: y


A 1 9 9.0 5.4 0.039

B 1 169 169.0 101.4 3.3e-07

A:B 1 289 289.0 173.4 1.7e-08

Residuals 12 20 1.7


Produkteinfuhrung: ANOVA


Quadratsumme vom Typ III

Korrigiertes Modell

Konstanter Term

Marketing

Medium

Marketing * Medium

Fehler

Gesamt

Korrigierte Gesamtvariation

59614756,983

6023257855,000

9280,30954501136,700

,917,087804,81721609,633

,2391,41913172,017113172,017

,0085,32549419,317298838,633

,0002439,90822643098,017122643098,017

,0452,44922724,0575113620,283a

QuelleQuelle

Tests der Zwischensubjekteffekte

Abhängige Variable:Umsatz

a. R-Quadrat = ,185 (korrigiertes R-Quadrat = ,109)


Lehrveranstaltungsbeurteilung: Boxplots

Stud

FrauMann

Pu

nkt

e

10

8

6

4

2

0

Prof

FrauMann

Pu

nkt

e

10

8

6

4

2

0


Lehrveranstaltungsbeurteilung: ANOVA



Korrigiertes Modell

Konstanter Term

Prof

Stud

Prof * Stud

Fehler

Gesamt


99198,040

1003632,000

1,76496169,360

,00015,32727,040127,040

,453,5671,00011,000

,548,363,6401,640

,0001946,5053433,96013433,960

,0025,4199,560328,680a

QuelleQuelle


Abhängige Variable:Punkte



Lehrveranstaltungsbeurteilung: Profilplot

Stud

FrauMann

Ges

chät

zte

Ran

dm

itte

l6,25

6,00

5,75

5,50

5,25

5,00

Geschätztes Randmittel von Punkte

FrauMann

Prof


Beispiel 9 - 16 Wechselwirkungsmodell



Korrigiertes Modell

Konstanter Term

Flaeche

Mittel

Flaeche * Mittel

Fehler

Gesamt


111612,000

12226840,000

.0,000

..40,5836243,500

..365,2502730,500

..212,6673638,000

..225228,0001225228,000

..146,545111612,000a

QuelleQuelle


Abhängige Variable:Ertrag

a. R-Quadrat = 1,000 (korrigiertes R-Quadrat = .)


Beispiel 9 - 16 Additives Modell



Korrigiertes Modell

Konstanter Term

Flaeche

Mittel

Fehler

Gesamt


111612,000

12226840,000

40,5836243,500

,0169,000365,2502730,500

,0415,240212,6673638,000

,0005549,766225228,0001225228,000

,0196,744273,70051368,500a

QuelleQuelle


Abhängige Variable:Ertrag



Beispiel 9 - 17

Mittel

A3A2A1

Beh

and

lun

gse

rfo

lg

20

15

10

5

0

B2B1

Krankheit


Beispiel 9 - 17



Korrigiertes Modell

Konstanter Term

Krankheit

Mittel

Krankheit * Mittel

Fehler

Gesamt


17395,778

181580,000

6,8331282,000

,1881,92713,167226,333

,0713,32522,722245,444

,00035,415242,0001242,000

,000173,3011184,22211184,222

,0019,18462,7565313,778a

QuelleQuelle


Abhängige Variable:Behandlungserfolg



Beispiel 9 - 17

Mittel

A3A2A1

Ges

chät

zte

Ran

dm

itte

l15,0

12,5

10,0

7,5

5,0

Geschätztes Randmittel von Behandlungserfolg

B2B1

Krankheit


Beispiel 9 - 18



Korrigiertes Modell

Konstanter Term

marke

wo

marke * wo

Fehler

Gesamt


1116,662

12760,850

,23461,405

,731,331,0772,155

,00134,8798,16818,168

,00514,8083,46726,935

,0003178,025744,1871744,187

,00413,0313,051515,257a

QuelleQuelle


Abhängige Variable:spritv



Beispiel 9 - 18

marke

CBA

Ges

chät

zte

Ran

dm

itte

l

9,0

8,0

7,0

6,0

Geschätztes Randmittel von spritv

UeberlandStadt

wo


Kategoriale Daten

Eine kategoriale Variable


Tourismus

In einem Tourismusort wird unter anderem erhoben, woher die Gaste kommen. Fur Gaste

aus dem Inland soll eine Untergliederung in die einzelnen Bundeslander, fur Gaste aus

dem Ausland eine spezielle Aufteilung in die beiden wichtigsten Hauptherkunftslander und

restliche Lander erfolgen. Es liegen Daten von 60465 Gasten vor.

Betrieb Ankunft Abfahrt Nachte Land.. .. .. .. ..Hotel Adler 050707 050714 7 DPension Berger 050707 050721 14 A-W.. .. .. .. ..


Tourismus: Numerische Beschreibung

Angabe

Land absolut relativ Prozent

A-Rest 16987 0.281 28.1

A-Wien 7413 0.123 12.3

Deutschland 21910 0.362 36.2

Italien 3812 0.063 6.3

Rest EU 6265 0.104 10.4

Sonstige 4078 0.067 6.7


Messbesuch: Kumulative Haufigkeiten

Eine Befragung unter 120 Katholiken uber den Besuch der Sonntagsmesse ergab folgende

Tabelle:

Messbesuch absolut Prozent kumuliertjede Woche 18 15.00 15.00gelegentlich 37 30.83 45.83nur bei besonderem Anlass 46 38.33 84.17nie 19 15.83 100.00

120 100.00


Tourismus: Grafische Beschreibung

A−

Res

t

A−

Wie

n

Deu

tsch

l.

Italie

n

Res

t EU

Son

stig

e

Herkunftsland des Gastes

050

0010

000

1500

020

000

A−RestA−Wien

Deutschland

Italien

Rest EU

Sonstige

Herkunftsland des Gastes (n=60465)


Arbeitsaufteilung

A B C D E F

Dienstverteilung

abso

lute

Häu

figke

iten

02

46

810

1214


χ2 – Anpassungstest

1. H0 : Die Haufigkeiten der J Kategorien entsprechen einer vorgegebenen Verteilung.H1 : Zumindest eine Kategorie unterscheidet sich in ihrer Haufigkeit von der Vorgabe.

2. Kritischer Wert: Q(χ2)J−1(1− α)

3. Berechnen der beobachteten und erwarteten Haufigkeiten

4. T =∑Jj=1

(oj−ej)2

ej

5. Ist T großer als der kritische Wert, wird H0 verworfen, sonst beibehalten.


Arbeitsaufteilung: Anpassungstest mit SPSS (Modellansicht)

EntscheidungSig.TestNullhypothese

1 Nullhypothese behalten.,613Chi-Quadrat-Test

einer Stichprobe

Die Kategorien von Arzt treten mit gleichen Wahrscheinlichkeiten auf.

Übersicht über Hypothesentest

Asymptotische Signifikanzen werden angezeigt. Das Signifikanzniveau ist ,05.


Arbeitsaufteilung

Anpassungstest

mit SPSS

(Zusatzansicht)

Chi-Quadrat-Test einer Stichprobe

ArztFEDCBA

Häu

fig

keit

14

13

12

11

10

9

8

7

HypotheseBeobachtet

Häufigkeit

Gesamtanzahl

Teststatistik

Freiheitsgrade

Asymptotische Sig. (zweiseitiger Test) ,613

5

3,571

63

1. Es sind 0 Zellen (0%) mit erwarteten Werten kleiner als 5 vorhanden. Der kleinste erwartete Wert ist 10,500.


Reprasentativitat einer Meinungsumfrage

Kategorie absolut Prozent Osterreich erwartetEhepaar mit Kindern 103 51.5 44.5 89.0Ehepaar ohne Kinder 47 23.5 29.4 58.8Nicht eheliche Lebensgemeinschaft mit K. 26 13.0 4.5 9.0Nicht eheliche Lebensgemeinschaft ohne K. 5 2.5 5.6 11.2Alleinerzieher 19 9.5 16.0 32.0

Chi-squared test for given probabilities

data: famt

X-squared = 45.4, df = 4, p-value = 3.291e-09


Uberfalle auf Trafiken

λ = (0 · 6 + 1 · 10 + 2 · 13 + 3 · 14 + 4 · 4 + 5 · 5 + 6 · 1) /53 = 2.358

Anzahl (j) 0 1 2 3 4 5+Haufigkeit (oj) 6 10 13 14 4 6pj 0.0946 0.2230 0.2630 0.2068 0.1219 0.0907erwartet (ej) 5.0118 11.8204 13.9391 10.9584 6.4613 4.8090

T =(6− 5.0118)2

5.0118+

(10− 11.8204)2

11.8204+ · · · = 2.615

df = 6− 1− 1 = 4 Q(χ2)4 (0.95) = 9.49


Sonntagsfrage

Partei absolut ProzentAP 185 37.0BP 162 32.4CP 106 21.2DP 47 9.4

500 100.0

H0 : pA = 0.35

H1 : pA 6= 0.35

Kategorie absolut(oj) Prozent unter H0 erwartete H (ej)AP 185 35.0 500 · 0.35 = 175

Rest 315 65.0 500 · 0.65 = 325


Sonntagsfrage

Anteilstest mit SPSS

(Zusatzansicht)

H0 : pA = 0.35

H1 : pA 6= 0.35

Chi-Quadrat-Test einer Stichprobe

ParteiRestAP

Häu

fig

keit

350

300

250

200

150

HypotheseBeobachtet

Häufigkeit

Gesamtanzahl

Teststatistik

Freiheitsgrade

Asymptotische Sig. (zweiseitiger Test) ,348

1

,879

500

1. Es sind 0 Zellen (0%) mit erwarteten Werten kleiner als 5 vorhanden. Der kleinste erwartete Wert ist 175.


Sonntagsfrage: Exakter Anteilstest mit SPSS

H0 : pD = 0.05

H1 : pD > 0.05

Test auf Binomialverteilung

Kategorie N Testanteil

Partei Gruppe 1

Gruppe 2

Gesamt

DP 47 ,094 ,05 ,000

Rest 453 ,906

500 1,000


Sonntagsfrage: Exakter Binomial-Test in R

Exact binomial test

data: 47 and 500

number of successes = 47, number of trials = 500, p-value = 3.308e-05

alternative hypothesis: true probability of success is greater than 0.05

95 percent confidence interval:

0.0734 1.0000

sample estimates:

probability of success

0.094


Sonntagsfrage: Konfidenzintervalle fur Anteile aller Parteien

Partei Anteil c Untergrenze ObergrenzeAP 0.370 0.0423 0.3277 0.4123BP 0.324 0.0410 0.2830 0.3650CP 0.212 0.0358 0.1862 0.2478DP 0.094 0.0256 0.0684 0.1196


Kategoriale Daten

Zwei kategoriale Variablen


Sonntagsfrage: Kreuztabelle

Auswertung der Sonntagsfrage nach Parteipraferenz und Geschlecht der Befragten ergibt

eine zweidimensionale Tabelle (Matrix).

Eigentliche Kreuztabelle

Partei Frau MannAP 104 81BP 77 85CP 56 50DP 18 29

Kreuztabelle mit Randhaufigkeiten

Partei Frau Mann SummeAP 104 81 185BP 77 85 162CP 56 50 106DP 18 29 47

Summe 255 245 500


Sonntagsfrage: Relative Haufigkeiten

Gesamtprozent

Geschlecht

Partei Frau Mann

AP 20.8 16.2

BP 15.4 17.0

CP 11.2 10.0

DP 3.6 5.8

Zeilenprozent

Geschlecht

Partei Frau Mann

AP 56.2 43.8

BP 47.5 52.5

CP 52.8 47.2

DP 38.3 61.7

Spaltenprozent

Geschlecht

Partei Frau Mann

AP 40.8 33.1

BP 30.2 34.7

CP 22.0 20.4

DP 7.1 11.8

Achtung: Interpretation


Sonntagsfrage: Balkendiagramme mit absoluten Haufigkeiten

Frau Mann

APBPCPDP

Gruppiertes Balkendiagramm

abso

lute

Häu

figke

iten

020

4060

8010

0

Frau Mann

DPCPBPAP

Gestapeltes Balkendiagramm

abso

lute

Häu

figke

iten

050

100

150

200

250


Sonntagsfrage: Balkendiagramme mit relativen Haufigkeiten

AP BP CP DP

MannFrau


Zei

lenp

roze

nt0

2040

6080

100

Frau Mann

DPCPBPAP


Spa

ltenp

roze

nt0

2040

6080

100


Verwaltungsgerichtshof: Entscheidungen 2000 – 2004

Nur Entscheidungen in Abgabensachen, hier nur Berufungen nach Betriebsprufungen.

Vertretung

Entscheidung RA WP Sum

Abweisung 203 43 246

Aufhebung 89 39 128

teilweise Aufhebung 12 4 16

Sum 304 86 390

Unterscheiden sich die Haufigkeiten fur die Entscheidungen zwischen RA und WP?


Verwaltungsgerichtshof

RA WP

teilweise AufhebungAufhebungAbweisung

VwGH−Entscheidungen

abso

lute

Häu

figke

iten

050

100

150

200

250

300

RA WP

teilweise AufhebungAufhebungAbweisung

VwGH−Entscheidungen

Spa

ltenp

roze

nt0.

00.

20.

40.

60.

81.

0


Erwartete Haufigkeiten

Unter der Annahme gleicher (relativer) Haufigkeitsverteilungen konnen Erwartungswerte

fur die einzelnen Zellen berechnet werden.

Randverteilungen bleiben erhalten!

b1 b2a1 . . 150a2 . . 60a3 . . 90

200 100 300

b1 b2a1 . . o1+a2 . . o2+a3 . . o3+

o+1 o+2 n

eij =oi+ · o+j

n


χ2 – Homogenitatstest

1. H0 : Die Haufigkeitsverteilung einer Variablen ist in allen Gruppen gleich.H1 : Es gibt Unterschiede zwischen den Verteilungen.

2. Kritischer Wert: Q(χ2)df (1− α) df = (I − 1) · (J − 1)

3. Berechnen der beobachteten (oij) und erwarteten (eij) Haufigkeiten.

4. T =∑Ii=1

∑Jj=1

(oij−eij)2

eij

5. Ist T großer als der kritische Wert, wird H0 verworfen, sonst beibehalten.


Verwaltungsgerichtshof: Homogenitatstest

Vertretung

Entscheidung RA WP Sum

Abweisung 203 43 246

Aufhebung 89 39 128

teilweise Aufhebung 12 4 16

Sum 304 86 390

Vertretung

RA WP

191.8 54.2

99.8 28.2

12.5 3.5

T =(203− 191.8)2

191.8+ . . .+

(4− 3.5)2

3.5= 8.35

df = (3− 1) · (2− 1) = 2 ⇒ Q(χ2)2 (0.95) = 5.991

Entscheidung fur H1, die Entscheidungen unterscheiden sich nach der Vertretung der Be-

rufung.


Verwaltungsgerichtshof: Homogenitatstest in R

Pearson's Chi-squared test

data: vwgh

X-squared = 8.35, df = 2, p-value = 0.01539

Wo sind die Unterschiede?

Balkendiagramme, Prozentangaben

Vergleich von beobachteten und erwarteten Haufigkeiten, Residuen


Einstellung zu Technologien

In einer Umfrage wurde die Einstellung zu mehreren Technologien erhoben, darunter die

Nutzung der Atomkraft zur Energiegewinnung und die Nutzung der Gentechnik in der

Medizin.

Atomtechnik

Gentechnik negativ neutral positiv Sum

negativ 65 15 29 109

neutral 14 7 13 34

positiv 6 8 11 25

Sum 85 30 53 168

Forschungsfrage: Gibt es einen Zusammenhang zwischen diesen zwei Variablen?


Einstellung zu Technologien: Mosaikplot

Technologien

Gentechnik

Ato

mte

chni

k

negativ neutral positiv

nega

tivne

utra

lpo

sitiv


Einstellung zu Technologien: Unabhangigkeitstest

In einer Umfrage wurde die Einstellung zu mehreren Technologien erhoben, darunter dieNutzung der Atomkraft zur Energiegewinnung und die Nutzung der Gentechnik in derMedizin.


data: tech


Interpretation: der p-Wert ist sehr klein, die Nullhypothese der Unabhangigkeit der Ein-stellungen zu den beiden Technologien muss verworfen werden.

Art der Abhangigkeit?


Verkaufsfordernde Maßnahmen

In einer Studie zu verkaufsfordernden Maßnahmen wurde untersucht, ob praktische Arzte

eher bereit sind, ein neues Medikament zu verwenden, wenn dieses von einem Pharmaver-

treter oder im Rahmen eines speziellen Abendessens (Dinner Party) vorgestellt wird.

Forschungsfrage: Wird das Medikament signifikant ofter angewendet, wenn es bei einem

speziellen Abendessen angewendet wird?

Promotion

Anwendung Dinner Party Vertreter

Ja 58 47

Nein 23 38


Verkaufsfordernde Maßnahmen: Balkendiagramm

Dinner Party Vertreter

NeinJa

Neues Medikament

0.0

0.2

0.4

0.6

0.8

1.0


Verkaufsfordernde Maßnahmen: Vergleich der Anteile


data: medikament



Seltene Krankheit

An zwei Kliniken wurden unterschiedliche Behandlungsmodelle zur Therapie einer seltenen

Krankheit entwickelt. Die bisherigen Daten zum Behandlungserfolg zeigen folgendes Bild:

Klinik A Klinik BBehandlungserfolg gut 2 5Behandlungserfolg schlecht 5 4

Forschungsfrage: Kann man auf Grund dieser Daten schon schließen, dass mit der Be-

handlungsmethode von Klinik B der Behandlungserfolg hoher ist?

Problem: Fur den Homogenitatstest sind die erwarteten Haufigkeiten zu klein!


Seltene Krankheit: Fisher – Test


Image von Fernsehsendern

In einer Umfrage im Mai 2008, knapp vor der Fußball-EM in Osterreich und der Schweiz,

wurden 229 Personen (mit Kabel-TV- oder Satelliten-TV-Empfang) im Raum Wien zu

ihrem TV-Sehverhalten befragt.

Ein Teil dieser Umfrage zielte darauf ab, Eigenschaften (aktuell, kritisch, informativ, sen-

sationslustern etc.) von Fernsehsendern herauszufiltern.

Wir beschranken uns hier auf eine Eigenschaft, namlich Aktualitat, bei den zwei privaten

Sendern Pro7 und RTL.

Forschungsfrage: Beurteilen Personen die Sender unterschiedlich?

Problem: Verbundene (abhangige) Stichproben


Image von Fernsehsendern: McNemar-Test

RTL

Pro7 nicht aktuell aktuell

nicht aktuell 93 42

aktuell 36 58

Konzentration auf die Gegendiagonale!

McNemar's Chi-squared test

data: aktuell

McNemar's chi-squared = 0.462, df = 1, p-value = 0.4969


Kategoriale Daten

Kategoriale Responsevariable


Pete Sampras (1991 – 1998): Odds und Odds – Ratio

Rasen Sandgewonnen 63 62verloren 10 24

Odds:

OddsR =63

10= 6.3 OddsS =

62

24= 2.583

Odds – Ratio:

OR =63/10

62/24=

63 · 24

62 · 10= 2.44


Odds – Ratio: Konfidenzintervalle

• Schwankungsbreite fur das log Odds Ratio:

s = Q(N)(1− α/2) ·√

1

a+

1

b+

1

c+

1

d

• Konfidenzintervall auf der logarithmierten Skala:

(ln(OR)− s ; ln(OR) + s)

• Konfidenzintervall auf der eigentlichen Skala:(OR

es; OR · es

)


PrufungschancenPruferA B

positiv 45 21negativ 16 15

• OR = 2.009 und ln(2.009) = 0.6976.

• s = 1.96 ·√

1/45 + 1/21 + 1/16 + 1/15 = 0.8744

• Konfidenzintervall auf der logarithmierten Skala:

(0.6976− 0.8744 ; 0.6976 + 0.8744) = (−0.1768 ; 1.5720)

• Konfidenzintervall auf der eigentlichen Skala:

(2.009/ exp(0.8744) ; 2.009 · exp(0.8744)) = (0.838 ; 4.816)


Prufungschancen: SPSS – Output


Problemlosen und Intelligenz

● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

95 100 105 110 115 120 125

0.0

0.2

0.4

0.6

0.8

1.0

IQ−Problemloesung

IQ

Pro

blem

gel

oest

(0=

nein

, 1=

ja)


Linearer Pradiktor – Linkfunktion – LogOdds

ln

(p

1− p

)= β0 + β1 · x1 + . . .+ βk · xk

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Logistische Funktion

Linearer Praediktor

P


Problemlosen und Intelligenz: Modellschatzung

Call: glm(formula = y ~ iq, family = binomial)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -24.567 10.417 -2.36 0.018

iq 0.231 0.097 2.38 0.017

Null deviance: 33.651 on 24 degrees of freedom

Residual deviance: 24.167 on 23 degrees of freedom

AIC: 28.17

Number of Fisher Scoring iterations: 5


Problemlosen und Intelligenz: Prognosewerte

● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

95 100 105 110 115 120 125

0.0

0.2

0.4

0.6

0.8

1.0

IQ−Problemloesung

IQ

fitte

d va

lues


Verkaufsfordernde Maßnahmen

Promotion

Anwendung DinnerP Vertreter

Ja 58 47

Nein 23 38Dinner Party Vertreter

NeinJa

Neues Medikament

0.0

0.2

0.4

0.6

0.8

1.0

OddsDP = 58/23 = 2.522 ln(OddsDP ) = ln(2.522) = 0.925

OddsV e = 47/38 = 1.237 ln(OddsV e) = ln(1.237) = 0.213


Verkaufsfordernde Maßnahmen: Logistische Regression in R

Call: glm(formula = try ~ promotion, family = binomial)

Coefficients:


(Intercept) 0.925 0.246 3.75 0.00017

promotionVertreter -0.712 0.329 -2.16 0.03042



AIC: 217.5

Number of Fisher Scoring iterations: 4


Verkaufsfordernde Maßnahmen: Logistische Regression in SPSS


Sonderausstattung bei Autosalter

Bedeutung 18-23 24-40 > 40

unwichtig 66 26 13

wichtig 44 63 88

18−23 24−40 > 40

wichtigunwichtig

Klimaanlage im Auto

rela

tive

Häu

figke

iten

0.0

0.2

0.4

0.6

0.8

1.0


Sonderausstattung bei Autos: R-Output

Coefficients:


(Intercept) -0.405 0.195 -2.08 0.037

alter24-40 1.291 0.304 4.25 2.1e-05

alter > 40 2.318 0.355 6.53 6.8e-11




Verkehrsmittelwahl: R-Output 1

Coefficients:


(Intercept) -2.9969 1.2874 -2.33 0.0199

Alter 0.0572 0.0247 2.31 0.0207

SexFrau -0.7170 0.5523 -1.30 0.1942

Dist 0.1249 0.0431 2.90 0.0037




Verkehrsmittelwahl: R-Output 2

Coefficients:


(Intercept) -3.2917 1.2678 -2.60 0.0094

Alter 0.0611 0.0242 2.52 0.0117

Dist 0.1156 0.0418 2.76 0.0057




Aggression im Straßenverkehr

Blockierer Blockierter Hupen

Geschlecht Autoklasse Ja Nein

Mann Mittel/Oberkl. 15 17Kleinwagen 14 16

Frau Mittel/Oberkl. 8 12Kleinwagen 19 5


Aggression im Straßenverkehr: Mosaikplot

Aggression im Autoverkehr

Auto

Sex

Mittel/Oberklasse Kleinwagen

Man

nF

rau

Nein Ja Nein Ja


Aggression im Straßenverkehr: Wechselwirkungsmodell

Coefficients:


(Intercept) -0.12516 0.35425 -0.35 0.724

SexFrau -0.28030 0.57777 -0.49 0.628

AutoKleinwagen -0.00837 0.50933 -0.02 0.987

SexFrau:AutoKleinwagen 1.74883 0.84875 2.06 0.039



Date post:	15-Aug-2019
Category:	Documents
Upload:	hadang
View:	213 times
Download:	0 times

[email protected] - Persönliche...

Documents