Radiale Basis- funktionen AS2-5 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS...

Radiale Basis-funktionen

AS2-5

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12

Lernen in RBF-Netzen

support vector-Maschinen

Approximation & Klassifikation mit RBF

Anwendung RBF-Netze

- 2 -

Radiale Basisfunktionen

Motivation: lokale Cluster-Klassenbildung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 3 -

i = { x | S(|x–xi|) > w0}


Definition Glockenfunktionen


Funktion SG mit den Eigenschaften

SG(z) > 0, SG(–) = SG() = 0,

0 < <

Es ex. ein a>0 mit SG(z) nicht anwachsend z [a,), nicht abfallend z (–,a)

Also ist SG(a) globales Maximum.

dx)x(SG

Glockenfunktionen

Beispiele

Kombination von Quetschfunktionen

SG(x1,..,xn) = max ( 0, 1+ -1 ) mit b(xi) =

Ableitungen von Quetschfunktionen

SG (x) =

Produkte von Glockenfunktionen

SG(x1,..,xn) = SG(x1) ×× SG(xn)

allgemeine Radiale Basisfunktionen

SG(x) = h(|x|), x n , h(.) streng monoton fallend

aus Intervallen zusammengesetzte Funktionen

SG(z) = (1–z2)2n im Intervall z[–1,+1], sonst null. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 5 -

1)0(S2

1)x1(S)x1(S

Q

iQiQ

x

SQ

1

( )n

ii

b x

RBF-Netze


x1

x2

xn

y1

y2

ym

f1

f2

Typisch: 2-Schichten Netzwerk

Aktivität

nicht normiert

fi(x) = w yk kk

m

=å

1 = w Sk k

k

m

( ) x=å

1

mit Sk(ck,x) = e

k- -( )c x 2

2 2s

normiert

fi(x) = w yk k

k

m

=å

1 =

w S

S

k kk

m

jj

m

( )

( )

x

x

=

=

å

å1

1


Aktivität Normiertes RBF-Netzwerk


y (x) = f(x) = i wi (x,ci) mit iS~ i i

i ik k

k

S ( , )S ( , )

S ( , )

x cx c

x c

Schicht 1 Schicht 2

· · ·

Normierung ·

·

·

X1

xn

S1(X)

Sn(X)

y(X)SSi

/

/

W

W


Basisfunktionen maximaler Information (Entropie)

H(p*) = maxp H(p(x)) x , p*(x) = ?

NB1: p(x) dx = 1 oder g1(x):= p(x)dx – 1 = 0

NB2: 2 = x2= -∞+∞

p(x) x2 dx oder g2(x):= -∞+∞

p(x)x2dx – 2= 0

Ansatz Lagrange-Funktion

L(p, 1,2) := H(p) + 1g1(p) + 2g2(p)

= 0, = 0 (Rechnung Kap.5.2)


L p*

p

i

i

L

Ergebnis p*(x) = A exp(–x2/22) Gauß'sche Glockenkurve


Basisfunktionen maximaler Information (Entropie)

H(p*) = maxp H(p) x [0,1], p*(x) = ?

NB: 0

1p(x) dx = 1 oder g(x):=

0

1p(x)dx – 1 = 0 ausreichende NB

Ansatz Lagrange-Funktion

L(p,) := H(p) + g(p)

= 0 = , = 0


L p

p

L

Ergebnis: p*(x) = const Uniforme Verteilung

L p

p

(Rechnung analog Kap.5.2)

y

p(z)

w*

p(y)

y

p(x)

y = S(x)

Transformation mit maximaler Information

[-,+] x [0,1] Max. Information bei uniformer pdf !

Wie ? (Rechnung Anhang A.4)

Wenn S‘(x) = p(x) ist H(y) = max.


Einstellung von S(x) mittels w

F

1S (z)

1 exp( z)

0z wx w

Parzen Window - Methode

Approximation durch Überlagerung von Basisfunktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 11 -Rüdiger Brause: Adaptive Systeme, Institut für Informatik

Nlim N 0,

n

Nlim N N

Perfekte Approximation bei abnehmender Breite s, wobei

Parzen Window

Approximation durch Überlagerung von Basisfunktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 12 -Rüdiger Brause: Adaptive Systeme, Institut für Informatik

Normierung der Variablen

Problem

PCA etc. problematisch bei heterogenen Variablen,z.B. (x1 [cm], x2[Pascal], x3 [°C])Welche Einheiten pro Dimension?

Welche Relation sollen die Einheiten zueinander haben ?


Normierung der Variablen

Lösung einheitliche Transformation aller Variablendurch Skalierung S, Drehung D, Verschiebung V


x z = SDVx = Mx

d2 = z2 = zTz = xTMTMx

d2 = (x–c)TC–1(x–c)

Mahalanobis-Abstand

RBF-Ausgabefunktion

SG(x) = A exp((x–c)TC–1(x–c))

Klassifikation mit RBF-Netzen


Beste Klassifizierung

Suche Klasse wi so, daß p(wk|x) = maxi p(wi|x) Bayes-Klassifizierung

Wir wissen: p(wi|x) =

Annahme: Gaußverteilte Abweichungen der x von den Klassenprototypen ci,

also p(ci,x) = A =: S(ci,x)

i i

jj

p( , ) p( , )

p( ) p( , )

x x

x x

2( )i22e

c x

Bayes-Klassifizierung mit NN:

Suche Klasse wk so, daß mit yi =

yk = maxi yi winner take all

RBF Suche Maximum

x1

x2

xn

y1

y2

ym

i i

j jj

S ( , )

S ( , )c x

c x

Klassifikation mit winner-take-all


Zwei-Schichten-Netzwerk

Suche Klasse k so, dass mit fi = Si wiyi

fi = maxk fk

x1

x2

xn

y1

y2

yn

f1

f2

Suche Maximum der Aktivität

Ein-Schicht-Netzwerk

Suche Klasse k so, dass mit yi = S(ci,x) / Sj S(cj,x)

yk = maxi yi

x1

x2

xn

y1

y2

yn

Lernen nur der Gewichte für yi bzw. fi





Anwendung RBF-Netze

- 17 -

Lernverfahren

Ansätze

Schichtweise Einzelanpassung Anpassen der ersten Schicht (Zentrum +Breite) Anpassen der zweiten Schicht (Gewichte)

Gesamtanpassung, z.B. durch Backpropagation


Anpassung der ersten Schicht

Phasen1. initiale Verteilung (Anzahl, Lage und Form) der Glockenfunktionen2. iterative Adaption der RBF-Parameter an die Trainingsdaten


Initiale Verteilung Bekannte Trainingsdaten

Clustersuche, RBF-Zentren = Clusterzentren; RBF-Breite = Clusterstreuung

Unbekannte Trainingsdaten• Sukzessiver Netzaufbau• Überdeckung durch Fehlerminimierung • Überdeckung durch regelmäßiges Raster• Clusteranalyse durch Kohonen-Netze


Initiale Verteilung Sukzessiver, fehlerorientierter Netzaufbau

Start mit einem Neuron

Füge ein neues Neuron hinzu für jedes Beispiel mit hohem

Fehler (Abweichung vom gewünschten Netz-Ausgabewert)

Verändere die Parameter bei den Nachbarn so, daß der

Fehler verringert wird (Einpassen des neuen Neurons)


Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß

zurückgegangen ist.


Initiale Verteilung Adaptiver und sukzessiver Netzaufbau für Abdeckung einer Testverteilung


RBF-Probleme

Sigmoidale Ausgabefkt auch für Extrapolation,

RBF-Ausgabefkt nur für Intrapolation.

Problem: Vorhersage durch untrainierte RBF-Neuronen


Anpassung der zweiten Schicht

Normiertes RBF-Netz


y (x) = (x) = i wivi mit vi = (x,ci) iS~

Schicht 1 Schicht 2

· · ·

Normierung ·

·

·

X1

xn

S1(X)

Sn(X)

y(X)SSi

/

/

W

W

w(t) = w(t–1) – (t)(wTv– (x)) 2

v

vWidrow-Hoff Lernregel f̂

f̂

Anpassung der zweiten Schicht

TLMSE: Eigenvektor fitting

w(t) = w(t-1) – (t) y [x(t) w(t-1)y] negative Oja Lernregel

mit Mittelwertskorrektur y = (x-x0)Tw

Minimisierung der Entropie

w(t) = w(t-1) – g grad H(y(w))

Approximation von p(x) mit Parzen Windows:

Rechnung

w(t) = w(t-1) - g(y-yk) (x - xk) Hebb'sche Regel Ausgabe y, frühere Ein/Ausgabe k






Anwendung RBF-Netze

- 25 -

Gesamtanpassung

Lernen mit Backpropagation

Zielfunktion R(M) = (f(x,M)–F(x))2 = r(x,M)

1.Schicht: Lernen der RBF-Koeffizienten Mij durch

Gradientenalgorithmus

Mkij(t+1) = Mk

ij(t) r(x,Mk)

2. Schicht: Standard, z.B. BP

Klassifikation durch support vector-Maschinen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 26 -- 26 -

kijM

Gesamtanpassung: nicht-lin. Separierung

Klassifikation

Idee: Verwenden von RBF für lineare Separierung


Hyperfläche

x2

x1

Hyperebene

z2

z1

Einbettung

Gesamtanpassung: Einbettung

Einbettung in einen Hyperraum

Ziel Klassifikation mit linearer Separierung

fi(z) = sgn(wiTz + b) =

Mittel Einbettungsfunktion finden: Muster x z, Prototyp ci w

fi(x) = sgn((ci)T(x) + b) =

= sgn( K(ci,x) + b) mit K(ci,x) = (ci)T(x) kernel function

nicht notwendig, es reicht die skalare Funktion K(ci,x).

Warum ?Beispiel !


sonst 1-

Klasseaus wenn1 iz

sonst 1-

Klasseaus wenn1 ix

Gesamtanpassung: Einbettung

Mercer‘s theorem

Sei eine Funktion K(x,y) gegeben.

Erfüllt sie die Bedingung > 0

für alle Funktionen g mit < , so wird sie „positiv definierte Kernfunktion“ (positiv definite kernel) genannt und es gibt eine Funktion (x) mit K(x,y) = (x)T(y), einem Skalarprodukt in einem hochdimensionalen Raum.


dxdy)y(g)x(g)y,x(K

dx)x(g 2

Typische Kernfunktionen

K(x,y) = Gaußfunktion K(x,y) = (xTy +1)d Polynom vom Grad d K(x,y) = tanh(xTy –q) Multi-layer-Perzeptron

a2||

eyx

Gesamtanpassung

Ziel für lin. Separierung: Klassifikationsfehler minimieren

R(a) = ½|fa(z) – y| dp(z,y) kontinuierl. Fall

Re(a) = 1/N S ½|fa(zi) – yi| diskreter Fall

beim Training mit N Mustern.

Erreichbar im diskreten Fall mit Mindestwahrscheinlichkeit 1–

R(a) < Re(a) + f( , ) Vapnik 1979

mit f(a,b) =

bei beliebiger Klassifkation fa(z)

und gegebener „Diagnosevariabilität“ h


N

hN

log

Nbaa /)4(log)1)/2(log(

Gesamtanpassung

„Diagnosevariabilität“ h VC-Dimension

h = maximale Anzahl der Punkte, die durch die Diagnosemaschine auf 2h Arten in zwei Klassen geteilt werden können.


Beispiel h = 3 Punkte, 23=8 Diagnosearten möglich. h < 4

b a

c

A={}, B={a,b,c}

A={a}, B={b,c}

A={a,b}, B={c}

A={a,c}, B={b}

A

Bsowie 4 Möglichkeiten bei Umbenennung AB,

BA

Gesamtanpassung: support vector machineForderung für lin. Separierung

„Lege die Hyperebene so, dass sie maximalen Abstand zu allen Grenzpunkten hat“

| wTzi + b | = 1 Mindestabstand = 1

fw,b(zi) = sgn(wTzi + b) yi {+1,–1} Klassifizierung

(wTzi + b) yi > 1


(wTzi + b) yi > 1 – i Minimierung des strukturellen Risikos

Schlupfvariable

imin

!

Gesamtanpassung : support vector machineAnsatz support vector – Maschine

Alle Muster sind in in einem Cluster: | zi–a| < r Kugelradius

Endliche Beschreibung der Trennung |w| < A Þ h < r2A2 + 1 Vapnik 1995

Reduzierung des Klassifizierungsfehlers durch Beschränkung von h

Neues Ziel: Minimierung von

T(w, i) = ½ w2 + g

mit NB g(w,i) = 1 – (wTzi + b)yi – i = 0


N

1ii

Gesamtanpassung : support vector machine

AnsatzLagrangefunktion

L(w,m1,..,mN) = T(w, i) +

L = w – = 0 oder w =

Bestimmung der mi durch Maximierung von

W(a) = – ½ w2 quadrat. Optimierung

mit NB 0 < mi < g , i = 1,...,N und = 0

mi 0 : zi = Support-Vektoren Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 34 -

N

1ii )i,(g w

w

N

1iiii y z

N

1iiii y z

N

1ii

N

1iii y

Gesamtanpassung : support vector machine

Ergebnis: Klassifizierung mit

f(x) = sgn(wTz + b) = sgn( K(ci,x) +b ) 2-Schicht-RBF-Netz


N

1iii y

Beispiel Supportvektorenlin. Separierung entspricht nicht-lin. Separierung





Anwendung RBF-Netze

- 36 -

support vector - Maschine

Ergebnisse


Daten Klassifikations-Fehlerrate

US Postal Service

Klass. RBF

RBF mit SV Zentren

Reine SV-Maschine

Training (7291 Muster)

1,7 % 0,0 % 0,0 %

Test (2007 Muster)

6,7 % 4,9 % 4,2 %

Frage: Warum ist diese Gegenüberstellung problematisch ?

Erkennen von 3D-Figuren

Training Feste Figur xi aus 6 Punkten, 40-100 Random-Projekt. auf 2D-Fläche


P1

P2

P4

P3P6 P5

q

j

q

j

S

S

· · ·

x1(1)x2(1)

x1(6)x2(6)

x10(1)

x20(6)

· · ·

· · ·

WM

W1

S

S

X = = X0

TestErkenne Figurtyp + Winkel und

[0°,30°,60°,..,360°] [0°,30°,60°,..,180°]

Poggio, Edelman 1990

M Trainingsmuster = M hidden units

6x12=78 Standardwinkel

Erkennen von 3D-Figuren

Ergebnisse Erkennungsleistung


Kodierung und Trainingszahl Abstand zum Objekt

Bereichsgröße Ausgabefehler u. Bereichsgröße

Würfel vs. Oktaeder bei 40 Trainingsmustern / RBFs

Date post:	05-Apr-2015
Category:	Documents
Upload:	grete-stobbe
View:	104 times
Download:	0 times

Radiale Basis- funktionen AS2-5 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS...

Documents