Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | grete-stobbe |
View: | 104 times |
Download: | 0 times |
Radiale Basis-funktionen
AS2-5
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12
Lernen in RBF-Netzen
support vector-Maschinen
Approximation & Klassifikation mit RBF
Anwendung RBF-Netze
- 2 -
Radiale Basisfunktionen
Motivation: lokale Cluster-Klassenbildung
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 3 -
i = { x | S(|x–xi|) > w0}
Radiale Basisfunktionen
Definition Glockenfunktionen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 4 -
Funktion SG mit den Eigenschaften
SG(z) > 0, SG(–) = SG() = 0,
0 < <
Es ex. ein a>0 mit SG(z) nicht anwachsend z [a,), nicht abfallend z (–,a)
Also ist SG(a) globales Maximum.
dx)x(SG
Glockenfunktionen
Beispiele
Kombination von Quetschfunktionen
SG(x1,..,xn) = max ( 0, 1+ -1 ) mit b(xi) =
Ableitungen von Quetschfunktionen
SG (x) =
Produkte von Glockenfunktionen
SG(x1,..,xn) = SG(x1) ×× SG(xn)
allgemeine Radiale Basisfunktionen
SG(x) = h(|x|), x n , h(.) streng monoton fallend
aus Intervallen zusammengesetzte Funktionen
SG(z) = (1–z2)2n im Intervall z[–1,+1], sonst null. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 5 -
1)0(S2
1)x1(S)x1(S
Q
iQiQ
x
SQ
1
( )n
ii
b x
RBF-Netze
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 6 -
x1
x2
xn
y1
y2
ym
f1
f2
Typisch: 2-Schichten Netzwerk
Aktivität
nicht normiert
fi(x) = w yk kk
m
=å
1 = w Sk k
k
m
( ) x=å
1
mit Sk(ck,x) = e
k- -( )c x 2
2 2s
normiert
fi(x) = w yk k
k
m
=å
1 =
w S
S
k kk
m
jj
m
( )
( )
x
x
=
=
å
å1
1
Radiale Basisfunktionen
Aktivität Normiertes RBF-Netzwerk
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 7 -
y (x) = f(x) = i wi (x,ci) mit iS~ i i
i ik k
k
S ( , )S ( , )
S ( , )
x cx c
x c
Schicht 1 Schicht 2
· · ·
Normierung ·
·
·
X1
xn
S1(X)
Sn(X)
y(X)SSi
/
/
W
W
Radiale Basisfunktionen
Basisfunktionen maximaler Information (Entropie)
H(p*) = maxp H(p(x)) x , p*(x) = ?
NB1: p(x) dx = 1 oder g1(x):= p(x)dx – 1 = 0
NB2: 2 = x2= -∞+∞
p(x) x2 dx oder g2(x):= -∞+∞
p(x)x2dx – 2= 0
Ansatz Lagrange-Funktion
L(p, 1,2) := H(p) + 1g1(p) + 2g2(p)
= 0, = 0 (Rechnung Kap.5.2)
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 8 -
L p*
p
i
i
L
Ergebnis p*(x) = A exp(–x2/22) Gauß'sche Glockenkurve
Radiale Basisfunktionen
Basisfunktionen maximaler Information (Entropie)
H(p*) = maxp H(p) x [0,1], p*(x) = ?
NB: 0
1p(x) dx = 1 oder g(x):=
0
1p(x)dx – 1 = 0 ausreichende NB
Ansatz Lagrange-Funktion
L(p,) := H(p) + g(p)
= 0 = , = 0
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 9 -
L p
p
L
Ergebnis: p*(x) = const Uniforme Verteilung
L p
p
(Rechnung analog Kap.5.2)
y
p(z)
w*
p(y)
y
p(x)
y = S(x)
Transformation mit maximaler Information
[-,+] x [0,1] Max. Information bei uniformer pdf !
Wie ? (Rechnung Anhang A.4)
Wenn S‘(x) = p(x) ist H(y) = max.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 10 -
Einstellung von S(x) mittels w
F
1S (z)
1 exp( z)
0z wx w
Parzen Window - Methode
Approximation durch Überlagerung von Basisfunktionen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 11 -Rüdiger Brause: Adaptive Systeme, Institut für Informatik
Nlim N 0,
n
Nlim N N
Perfekte Approximation bei abnehmender Breite s, wobei
Parzen Window
Approximation durch Überlagerung von Basisfunktionen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 12 -Rüdiger Brause: Adaptive Systeme, Institut für Informatik
Normierung der Variablen
Problem
PCA etc. problematisch bei heterogenen Variablen,z.B. (x1 [cm], x2[Pascal], x3 [°C])Welche Einheiten pro Dimension?
Welche Relation sollen die Einheiten zueinander haben ?
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 13 -
Normierung der Variablen
Lösung einheitliche Transformation aller Variablendurch Skalierung S, Drehung D, Verschiebung V
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 14 -
x z = SDVx = Mx
d2 = z2 = zTz = xTMTMx
d2 = (x–c)TC–1(x–c)
Mahalanobis-Abstand
RBF-Ausgabefunktion
SG(x) = A exp((x–c)TC–1(x–c))
Klassifikation mit RBF-Netzen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 15 -
Beste Klassifizierung
Suche Klasse wi so, daß p(wk|x) = maxi p(wi|x) Bayes-Klassifizierung
Wir wissen: p(wi|x) =
Annahme: Gaußverteilte Abweichungen der x von den Klassenprototypen ci,
also p(ci,x) = A =: S(ci,x)
i i
jj
p( , ) p( , )
p( ) p( , )
x x
x x
2( )i22e
c x
Bayes-Klassifizierung mit NN:
Suche Klasse wk so, daß mit yi =
yk = maxi yi winner take all
RBF Suche Maximum
x1
x2
xn
y1
y2
ym
i i
j jj
S ( , )
S ( , )c x
c x
Klassifikation mit winner-take-all
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 16 -
Zwei-Schichten-Netzwerk
Suche Klasse k so, dass mit fi = Si wiyi
fi = maxk fk
x1
x2
xn
y1
y2
yn
f1
f2
Suche Maximum der Aktivität
Ein-Schicht-Netzwerk
Suche Klasse k so, dass mit yi = S(ci,x) / Sj S(cj,x)
yk = maxi yi
x1
x2
xn
y1
y2
yn
Lernen nur der Gewichte für yi bzw. fi
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12
Lernen in RBF-Netzen
support vector-Maschinen
Approximation & Klassifikation mit RBF
Anwendung RBF-Netze
- 17 -
Lernverfahren
Ansätze
Schichtweise Einzelanpassung Anpassen der ersten Schicht (Zentrum +Breite) Anpassen der zweiten Schicht (Gewichte)
Gesamtanpassung, z.B. durch Backpropagation
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 18 -
Anpassung der ersten Schicht
Phasen1. initiale Verteilung (Anzahl, Lage und Form) der Glockenfunktionen2. iterative Adaption der RBF-Parameter an die Trainingsdaten
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 19 -
Initiale Verteilung Bekannte Trainingsdaten
Clustersuche, RBF-Zentren = Clusterzentren; RBF-Breite = Clusterstreuung
Unbekannte Trainingsdaten• Sukzessiver Netzaufbau• Überdeckung durch Fehlerminimierung • Überdeckung durch regelmäßiges Raster• Clusteranalyse durch Kohonen-Netze
Anpassung der ersten Schicht
Initiale Verteilung Sukzessiver, fehlerorientierter Netzaufbau
Start mit einem Neuron
Füge ein neues Neuron hinzu für jedes Beispiel mit hohem
Fehler (Abweichung vom gewünschten Netz-Ausgabewert)
Verändere die Parameter bei den Nachbarn so, daß der
Fehler verringert wird (Einpassen des neuen Neurons)
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 20 -
Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß
zurückgegangen ist.
Anpassung der ersten Schicht
Initiale Verteilung Adaptiver und sukzessiver Netzaufbau für Abdeckung einer Testverteilung
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 21 -
RBF-Probleme
Sigmoidale Ausgabefkt auch für Extrapolation,
RBF-Ausgabefkt nur für Intrapolation.
Problem: Vorhersage durch untrainierte RBF-Neuronen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 22 -
Anpassung der zweiten Schicht
Normiertes RBF-Netz
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 23 -
y (x) = (x) = i wivi mit vi = (x,ci) iS~
Schicht 1 Schicht 2
· · ·
Normierung ·
·
·
X1
xn
S1(X)
Sn(X)
y(X)SSi
/
/
W
W
w(t) = w(t–1) – (t)(wTv– (x)) 2
v
vWidrow-Hoff Lernregel f̂
f̂
Anpassung der zweiten Schicht
TLMSE: Eigenvektor fitting
w(t) = w(t-1) – (t) y [x(t) w(t-1)y] negative Oja Lernregel
mit Mittelwertskorrektur y = (x-x0)Tw
Minimisierung der Entropie
w(t) = w(t-1) – g grad H(y(w))
Approximation von p(x) mit Parzen Windows:
Rechnung
w(t) = w(t-1) - g(y-yk) (x - xk) Hebb'sche Regel Ausgabe y, frühere Ein/Ausgabe k
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 24 -
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12
Lernen in RBF-Netzen
support vector-Maschinen
Approximation & Klassifikation mit RBF
Anwendung RBF-Netze
- 25 -
Gesamtanpassung
Lernen mit Backpropagation
Zielfunktion R(M) = (f(x,M)–F(x))2 = r(x,M)
1.Schicht: Lernen der RBF-Koeffizienten Mij durch
Gradientenalgorithmus
Mkij(t+1) = Mk
ij(t) r(x,Mk)
2. Schicht: Standard, z.B. BP
Klassifikation durch support vector-Maschinen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 26 -- 26 -
kijM
Gesamtanpassung: nicht-lin. Separierung
Klassifikation
Idee: Verwenden von RBF für lineare Separierung
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 27 -
Hyperfläche
x2
x1
Hyperebene
z2
z1
Einbettung
Gesamtanpassung: Einbettung
Einbettung in einen Hyperraum
Ziel Klassifikation mit linearer Separierung
fi(z) = sgn(wiTz + b) =
Mittel Einbettungsfunktion finden: Muster x z, Prototyp ci w
fi(x) = sgn((ci)T(x) + b) =
= sgn( K(ci,x) + b) mit K(ci,x) = (ci)T(x) kernel function
nicht notwendig, es reicht die skalare Funktion K(ci,x).
Warum ?Beispiel !
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 28 -
sonst 1-
Klasseaus wenn1 iz
sonst 1-
Klasseaus wenn1 ix
Gesamtanpassung: Einbettung
Mercer‘s theorem
Sei eine Funktion K(x,y) gegeben.
Erfüllt sie die Bedingung > 0
für alle Funktionen g mit < , so wird sie „positiv definierte Kernfunktion“ (positiv definite kernel) genannt und es gibt eine Funktion (x) mit K(x,y) = (x)T(y), einem Skalarprodukt in einem hochdimensionalen Raum.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 29 -
dxdy)y(g)x(g)y,x(K
dx)x(g 2
Typische Kernfunktionen
K(x,y) = Gaußfunktion K(x,y) = (xTy +1)d Polynom vom Grad d K(x,y) = tanh(xTy –q) Multi-layer-Perzeptron
a2||
eyx
Gesamtanpassung
Ziel für lin. Separierung: Klassifikationsfehler minimieren
R(a) = ½|fa(z) – y| dp(z,y) kontinuierl. Fall
Re(a) = 1/N S ½|fa(zi) – yi| diskreter Fall
beim Training mit N Mustern.
Erreichbar im diskreten Fall mit Mindestwahrscheinlichkeit 1–
R(a) < Re(a) + f( , ) Vapnik 1979
mit f(a,b) =
bei beliebiger Klassifkation fa(z)
und gegebener „Diagnosevariabilität“ h
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 30 -
N
hN
log
Nbaa /)4(log)1)/2(log(
Gesamtanpassung
„Diagnosevariabilität“ h VC-Dimension
h = maximale Anzahl der Punkte, die durch die Diagnosemaschine auf 2h Arten in zwei Klassen geteilt werden können.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 31 -
Beispiel h = 3 Punkte, 23=8 Diagnosearten möglich. h < 4
b a
c
A={}, B={a,b,c}
A={a}, B={b,c}
A={a,b}, B={c}
A={a,c}, B={b}
A
Bsowie 4 Möglichkeiten bei Umbenennung AB,
BA
Gesamtanpassung: support vector machineForderung für lin. Separierung
„Lege die Hyperebene so, dass sie maximalen Abstand zu allen Grenzpunkten hat“
| wTzi + b | = 1 Mindestabstand = 1
fw,b(zi) = sgn(wTzi + b) yi {+1,–1} Klassifizierung
(wTzi + b) yi > 1
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 32 -
(wTzi + b) yi > 1 – i Minimierung des strukturellen Risikos
Schlupfvariable
imin
!
Gesamtanpassung : support vector machineAnsatz support vector – Maschine
Alle Muster sind in in einem Cluster: | zi–a| < r Kugelradius
Endliche Beschreibung der Trennung |w| < A Þ h < r2A2 + 1 Vapnik 1995
Reduzierung des Klassifizierungsfehlers durch Beschränkung von h
Neues Ziel: Minimierung von
T(w, i) = ½ w2 + g
mit NB g(w,i) = 1 – (wTzi + b)yi – i = 0
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 33 -
N
1ii
Gesamtanpassung : support vector machine
AnsatzLagrangefunktion
L(w,m1,..,mN) = T(w, i) +
L = w – = 0 oder w =
Bestimmung der mi durch Maximierung von
W(a) = – ½ w2 quadrat. Optimierung
mit NB 0 < mi < g , i = 1,...,N und = 0
mi 0 : zi = Support-Vektoren Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 34 -
N
1ii )i,(g w
w
N
1iiii y z
N
1iiii y z
N
1ii
N
1iii y
Gesamtanpassung : support vector machine
Ergebnis: Klassifizierung mit
f(x) = sgn(wTz + b) = sgn( K(ci,x) +b ) 2-Schicht-RBF-Netz
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 35 -
N
1iii y
Beispiel Supportvektorenlin. Separierung entspricht nicht-lin. Separierung
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12
Lernen in RBF-Netzen
support vector-Maschinen
Approximation & Klassifikation mit RBF
Anwendung RBF-Netze
- 36 -
support vector - Maschine
Ergebnisse
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 37 -
Daten Klassifikations-Fehlerrate
US Postal Service
Klass. RBF
RBF mit SV Zentren
Reine SV-Maschine
Training (7291 Muster)
1,7 % 0,0 % 0,0 %
Test (2007 Muster)
6,7 % 4,9 % 4,2 %
Frage: Warum ist diese Gegenüberstellung problematisch ?
Erkennen von 3D-Figuren
Training Feste Figur xi aus 6 Punkten, 40-100 Random-Projekt. auf 2D-Fläche
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 38 -
P1
P2
P4
P3P6 P5
q
j
q
j
S
S
· · ·
x1(1)x2(1)
x1(6)x2(6)
x10(1)
x20(6)
· · ·
· · ·
WM
W1
S
S
X = = X0
TestErkenne Figurtyp + Winkel und
[0°,30°,60°,..,360°] [0°,30°,60°,..,180°]
Poggio, Edelman 1990
M Trainingsmuster = M hidden units
6x12=78 Standardwinkel
Erkennen von 3D-Figuren
Ergebnisse Erkennungsleistung
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011/12 - 39 -
Kodierung und Trainingszahl Abstand zum Objekt
Bereichsgröße Ausgabefehler u. Bereichsgröße
Würfel vs. Oktaeder bei 40 Trainingsmustern / RBFs