+ All Categories
Home > Documents > Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg...

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg...

Date post: 06-Apr-2016
Category:
Upload: busso-meissner
View: 224 times
Download: 2 times
Share this document with a friend
21
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier
Transcript
Page 1: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Multivariate Analysemethoden

Günter MeinhardtJohannes Gutenberg Universität Mainz

Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier

Page 2: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Klassifikation

Ziele • Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen.

• Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen

Multivariate Klassifikation

• Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Wahrscheinlichkeit des Auftretens des Falles in der Ziel- gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid)

• Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans- formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) • Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

Methoden

Page 3: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Kreis Iso-Distanz-Konturen in 2DKreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischenAbstand c zum Kreismittelpunkt

Iso-Distanz Konturen in 2D Klassifikation

2 2 2 2 2c x y c x y

xyc

• Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2).• Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Page 4: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Ellipse:Skalierung

Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt

2 22 x yc

a b

x

y

x yu va b

0x c a

0y c b

Standardskala:

u

v 2 2 2c u v

Iso-Distanz Konturen in 2D Klassifikation

Page 5: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

EllipseTranslation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts:

2 22 0 0x x y yc

a b

0 0x x y yu va b

x

u

v 2 2 2c u v

0 0( , )x y y

Iso-Distanz Konturen in 2D Klassifikation

Standard-Transformation

Standardskala:

Page 6: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Standard-EllipseNeigungKorrelation

Die Invarianz der Distanz im neuen Koordinatensystem mit geneigtenAchsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt:

x

Mit der Transformation

1r

y

Iso-Distanz Konturen in 2D Klassifikation

2r

2u

erfüllen alle Ellipsenpunkte:2 2 2c u v

KoordinatenKorrelierte Achsen

u

v

2 2 2 2c x y xy cos

[Tafel: cos ]

1u

1 2u uu va b

2 2 2c u v

Page 7: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Standard-Ellipse:Zeichen-Routine

Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen.Man geht über zur Darstellung in Polarkoordinaten.

xEs gelten die Transformationen:

cossin

x ry r

ry

Iso-Distanz Konturen in 2D Klassifikation

Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels ) umgeschrieben werden

2 2 2

1tan

r x yyx

2 2 2 2c x y xy

, ,r x y r

x

yr

kartesisch polar

kartesisch polar

kartesischpolar

Page 8: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Standard-Ellipse:Zeichen-Routine

Von der Darstellung in Polarkoordinaten kann einfach in kartesischeKoordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte)

x

yqx

ry

2 2 2 2c x y xy

x

yr

Setze

damit 2 2 21 2c x q q

2 2 21r x y x q

21 2

cxq q

1. Variiere von – bis (= ein Kreisumlauf). 2. Für jeden Winkel berechne q = tan-

1().3. Berechne dannx4. Berechne damit r.5. Berechne dann x,y:

cossin

x ry r

Verfahren

[Excel-Sheet]

Iso-Distanz Konturen in 2D

Page 9: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

1 D-Normal Verteilung

Die Funktion 21

2x

f x e

xz

Multivariate Normalverteilung Klassifikation

hat Fläche 2

Die auf die Fläche 1 normierte Funktion

21

212

x

f x e

heißt Normalverteilung (Gauss-Verteilung).Mit ihr sind Wahrscheinlichkeiten als Flächen-Anteile für z - Standardvariablen definierbar.

21

212

zf z e

(Standard-NV)

68.26%

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3 z

0.1

0.2

0.3

0.4f(z)

95.5%

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

z

f(z)

[Kurzübung]

Page 10: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

p-variater Fall

Man bemerke daß 2

22

1xz x x

1

2

p

xx

x

x

Mahalanobisdistanz Klassifikation

Man habe nun nicht eine, sondern p Variablen:

(jeder Messpunkt ist ein p- dimensionaler Vektorund der Zentroid ist einp- dimensionaler Vektor)

ist.

mit Zentroid

1

2

p

Dann definiert

2 1tx x Σ mit die Inverse der Varianz-

Kovarianz Matrix .die verallgemeinerte quadrierte Distanz im multivariaten Raum.Sie heißt quadrierte Mahalanobis-Distanz.

[Excel-Beispiel 2D]

Mahalanobis-Distanz

32

x

11

1 0.50.5 1

Σ 2 4

Page 11: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

p D-Normal Verteilung

Die Funktion 112

tx xf x e

Σ

Multivariate Normalverteilung Klassifikation

hat Volumen 1/ 2/ 22 p Σ

Die auf Volumen 1 normierte Funktion

112

1/ 2/ 2

12

tx x

pf x e

Σ

Σ

heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert.

Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung:

2 1 2tpx x Σ

mit einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen , die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- in der multivariaten Normalverteilung.

Page 12: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

2 D-Normal Verteilung

Multivariate Normalverteilung Klassifikation

Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form

2 2

1 1 2 2 1 1 2 22

1 2 1 2

1 22 1

1 2 2 2 21 2

1,2 1

x x x x

f x x e

Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c:

2 2 1

2 2

1 1 2 2 1 1 2 22

1 2 1 2

1 21

tc x x

x x x x

Σ

[Tafelbetrachtung]

Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie)

Page 13: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

2 D-Normal Verteilung

Multivariate Normalverteilung Klassifikation

Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6

[Excel-Übung]Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß(quadrierte Mahalanobis-Distanz)

-2 -1 1 2

-2

-1

1

2

-2

0

2-2

0

2

00.050.1

0.150.2

-2

0

2x1

x2

1 2,f x x

Density-Plot

Contour-Plot

x1

x2

2 22 0.05 5.99

2 22 0.25 2.77

00

2 22 0.75 0.57

2 22 0.5 1.38

P=0.25

P=0.5P=0.75

P=0.95

Page 14: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

NV-2D-Ellipse:Zeichen-Routine

Iso-Distanz Konturen in 2D

Und es gilt:a)

2 22

21 2 1 2

1 21

x qx x qxc

2 2 21 2 1r x x x q

läuft von – bis (= ein Kreisumlauf)

3. Berechne dann

1 1

2 2

cossin

x rx r

Verfahren

[Excel-Sheet]

1x

r2x

x

2xr

1

2

2 2

2 1 1 2 2 1 1 2 22

1 2 1 2

1 21

x x x xc

(NV-Ellipse)

yqx

Setze 1 20, 0 und temporär

22 2

2 2 21 2 1 2

1 1 21

q qc x

2

2 2 21 2 1 2

1 1 21

cxq q

b) c)

Page 15: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

p D-Normal Verteilung

Multivariate Normalverteilung Klassifikation

Die Ellipsen der Form

2 1 2tpc x x Σ

Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somitdie Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung

sind zentriert inund haben Hauptachsen i ic e

mit Eigenwertbedingung

i ie eΣ

1x

2x

1c

2c

Länge =

Länge =1

2

Beispiel 2D

Page 16: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

MDC

Minimum Distance Classifier Klassifikation

Mit der Mahalanobisdistanz für eine Beobachtung

2 1t

j j j jx x Σ

Gruppiere in Gruppe ci, wenn gilt

der Gruppe cj

definiere die Regel:

xzum Zentroid

x

2 2 2 2 21 2min , , , ,i j k

Die Performance des MDC läßt sich mit großen Stichproben für diek – Gruppen mit einer Konfusions-Matrix bewerten:

1 2

1 12 1 1

2 21 2 2

1 2

1

11

22

1

j k

j k

j k

jjj j j

k

jk

k k k kj k

c c c cc h h hc h h h

c h h h

c

hh

h

hh h h

MDC-Regel

xCase is group

allocated to groupHäufigkeit zurEinordnung von Fall (Zeile)in Gruppe (Spalte)

Page 17: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Confusion-matrix

Minimum Distance Classifier Klassifikation

Mit den Zeilensummen

Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits

ij i ih p h (erwartete Zellhäufigkeit, const. in der Zeile )

mit pi der A-priori Wahrscheinlichkeit der Gruppe ci.

ErwarteteHäufigkeitenbei Zufall(anteilige Gleichverteilung)

1

ko iiih h

ihund N der Summe aller Häufigkeiten gilt

pi kann ggf. über pi = hi/N geschätzt werden, wenn keine Informationüber A-priori Wahrscheinlichkeiten vorliegt.

1 2

1 12 1 1

2 21 2 2

1 2

1

11

22

1

j k

j k

j k

jjj j j

k

jk

k k k kj k

c c c cc h h hc h h h

c h h h

c

hh

h

hh h h

Page 18: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

ErwarteteConfusion-matrix

Minimum Distance Classifier Klassifikation

die erwartete Hit-Häufigkeit.

Dann ist

Hits

Mit

ist ho normalverteilt über die Approximation der BinomialverteilungErwarteteHäufigkeitenbei Zufall(anteilige Gleichverteilung)

1ˆ ˆk

iiih h

1e e ehp N p pN

wenn

Dann testet der z- Test

1 2

1 11 12 1 1

2 21 22 2 2

1 2

1 1

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

j k

j k

j k

i i i ij ik

k k k kj kk

c c c c

c h h h h

c h h h h

c h h h h

c h h h h

1 9e eN p p gilt.

1o e

e e

h Npz

N p p

die Hitrate des MDC gegen den Zufall.

Page 19: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

A-priori Wahr-scheinlichkeitder Gruppen

Bayesian Classifier Klassifikation

nach ihrer

Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj:

A-posterioriWK

Dann liefert eine Klassifikation der Beobachtung A-posteriori Wahrscheinlichkeit

Max-AposterioriWKn Classifier

1 2, , , ,j kP c P c P c P c

Um die A-posteriori WKn zu berechnen, muss für die Likelihood-Funktionen die Annahme der multivariaten Normalverteilung gelten.

x

jP c x

eine korrektere Zuordnung als nur nach der kürzesten Distanz zumGruppenzentroid.

Gruppiere in Gruppe ci, wenn gilt

2 2max , , , ,i j kP c x P c x P c x P c x P c x

Regel:

Normalverteil-ungsannahme

x

Page 20: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Likelihoods

Bayesian Classifier Klassifikation

Mit der multivariaten Normalverteilung haben die Likelihoods die Form

A-posterioriWK

mit

Klassifikations-Raum

212

1/ 2/ 2

1

2

j

j j pj

P x c f x c e

Σ

j

der quadrierten Mahalanobisdistanz zum Gruppenzentroid

Normalverteil-ungsannahme

2 1t

j j j jx x Σ

x

c1

c2

c3

c4

Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert.

Es gilt:

1 2 kx x c x c x c

Und wegen der Disjunktheit:

1 2 kP x P x c P x c P x c

Page 21: Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Methoden derPsychologie

Likelihoods

Bayesian Classifier Klassifikation

Da

Satz der totalen WK

jj

j

P x cP x c

P c

Und damit

Normalverteil-ungsannahme

der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung

1 1 2 2 k kP x P x c P c P x c P c P x c P c

(Def. der bedingten Wahrscheinlichkeit), folgt

Satz von Bayes

i ii

j jj

P x c P cP c x

P x c P c

Die approximative Gültigkkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.


Recommended