1
Neuronske mreže:Radijalne mreže
Prof. dr. sc. Sven Lončarić
Fakultet elektrotehnike i rač[email protected]://ipg.zesoi.fer.hr
2
Pregled predavanjaUvodCoverov teorem o separabilnosti uzorakaProblem interpolacijeInterpolacija radijalnom mrežomGeneralizirane radijalne mrežeUčenje pod nadzorom kao loše postavljeni problem rekonstrukcije hiperploheTeorija regularizacijeRegularizacijske mrežeXOR problem
3
Pregled predavanjaUsporedba višeslojnih i radijalnih mrežaStrategije učenjaDiskusijaZadaci
4
UvodEngl. radial-basis function (RBF) networksKod višeslojnih mreža koje koriste BP algoritam učenje se interpretira kao problem optimizacije (minimizacije srednje kvadratne pogreške)Kod radijalnih mreža učenje se interpretira kao problem aproksimacije funkcije s više argumenataFunkcija koju treba aproksimirati je funkcija ulaz-izlaz definirana parovima za učenje
5
Struktura radijalne mrežeOsnovna RBF mreža ima tri sloja:
ulazni slojskriveni sloj koji ima drugačiju ulogu nego kod višeslojnih mrežaizlazni sloj
Transformacija od ulaznog sloja do skrivenog sloja je nelinearnaTransformacija od skrivenog sloja do izlaznog sloja je linearna
6
Struktura radijalne mreže
ulazni skriveni izlazni nelinearni linearni sloj sloj sloj
7
Coverov teoremKod upotrebe RBF mreža za probleme klasifikacije uzoraka problem se rješava nelinearnom transformacijom ulaznih uzoraka u prostor više dimenzije nego što je ulazni prostorMotivacija za ovaj postupak je Coverov teorem o separabilnosti uzoraka koji kaže:Veća je vjerojatnost da nelinearno transformirani vektori u višedimenzionalnom prostoru budu linearno separabilni nego u originalnom nižedimenzionalnom prostoru
8
Coverov teorem - interpretacijaIz materijala o perceptronu poznato nam je da je problem klasifikacije jednostavan kad su uzorci linearno separabilniInterpretacija radijalne mreže kao klasifikatora:
1. Skriveni sloj nelinearno transformira ulazne uzorke tako da klase postanu linearno separabilne
2. Izlazni sloj je linearan i kao takav može obaviti klasifikaciju dvaju linearno separabilnih klasa
9
Coverov teoremNeka je X = { x1, x2, …, xN } skup ulaznih uzoraka gdje svaki uzorak pripada jednoj od dviju klasa X+ i X-
Neka je ulazni vektor x p-dimenzionalanFormirajmo za svaki vektor x novi vektor:
Tada vektor ϕ(x) preslikava ulazne vektore u novi M-dimenzionalni prostorFunkcija ϕi(x) zove se skrivena funkcija jer ima ulogu sličnu skrivenom neuronu u višeslojnoj mreži
TM )](,),(),([)( 21 xxxx ϕϕϕ K=ϕ
10
Coverov teoremZa dvije klase ulaznih uzoraka X+ i X- kaže se da su ϕ-separabilne ako postoji M-dimenzionalni vektor wtakav da vrijedi:
Hiperravnina definirana jednadžbom
definira plohu razdvajanja u ϕ prostoru
−
+
∈<∈≥
XX
T
T
xxwxxw
,0)(,0)(
ϕϕ
0)( =xw ϕT
11
Coverov teoremInverzna slika ove hiperravnine definira graničnu plohu u ulaznom prostoru (prostoru ulaznih uzoraka):
{ }0)(: =xwx ϕT
12
Primjer: XOR problem0 XOR 0 = 01 XOR 1 = 00 XOR 1 = 1 1 XOR 0 = 1
(0,0) (1,0)
(0,1)(1,1)
x1
x2
13
Primjer: XOR problemDefinirajmo skrivene funkcije kao:
Ulazni vektori se preslikavaju u ϕ prostoru na slijedeći način
T
T
ee
]0,0[,)(]1,1[,)(
22
112
2
21
==ϕ
==ϕ−−
−−
txtx
tx
tx
14
Primjer: XOR problemVidi se da su ulazni uzorci u novom prostoru linearno separabilni i problem se može rješitilinearnim klasifikatorom kao što je perceptron(izlazni sloj radijalne mreže)
(0,0)(1,0) (0,1)
(1,1)ϕ2
granica
1
1
ϕ1
15
Problem interpolacijePretpostavimo da imamo mrežu s ulaznim, jednim skrivenim i izlaznim slojem s jednim neuronomNeka mreža realizira nelinearno preslikavanje od ulaza do skrivenog sloja i linearno preslikavanje od skrivenog do izlaznog slojaSveukupno mreža realizira preslikavanje
Ovo preslikavanje može se prikazati kao ploha
RRs p →:
1+⊂Γ pR
16
Problem interpolacijeTreniranje mreže može se onda shvatiti kao optimizacija aproksimacijske funkcije koja bi trebala biti što sličnija željenoj plohi Γ koja je određena pomoću parova za učenje ulaz-izlazFaza generalizacije je ekvivalentna interpolaciji između zadanih točaka ulaz-izlazOvo vodi na teoriju multivarijabilne interpolacije u okviru koje se problem interpolacije postavlja na sljedeći način
17
Problem interpolacijeUz dani skup od N točaka
i korespondentni skup od N realnih brojeva
treba naći funkciju
takvu da zadovoljava uvjet interpolacijeRRF p →:
{ }NiR pi ,,2,1| K=∈x
{ }NiRdi ,,2,1| K=∈
NidF ii ,,2,1,)( K==x
18
Interpolacija radijalnom mrežom
Radijalne mreže koriste interpolacijsku tehniku gdje funkcija F ima slijedeću formu:
gdje je
skup proizvoljnih (nelinearnih) funkcija koje se zovu radijalne funkcije (engl. radial-basis functions) Poznati uzorci xi se uzimaju kao centri radijalnih funkcija
( )∑=
−=N
iiiwF
1
)( xxx ϕ
( ){ }Nii ,,2,1| K=− xxϕ
19
Interpolacija radijalnom mrežom
Ako uvjet interpolacije izrazimo pomoću izraza za radijalne funkcije dobivamo:
gdje je
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
NNNNNN
N
N
d
dd
w
ww
MM
L
MMMM
L
L
2
1
2
1
21
22221
11211
ϕϕϕ
ϕϕϕϕϕϕ
Nijijji ,,2,1,),( K=−= xxϕϕ
20
Interpolacija radijalnom mrežom
Neka su d i w vektor željenog odziva i vektor težina:
Neka je Φ matrica dimenzija N×N s elementima ϕij:
Ova matrica zove se interpolacijska matricaRanije dobiveni sustav jednadžbi možemo pisati u obliku:
[ ][ ]TN
TN
wwwddd,,,,,,
21
21
K
K
==
wd
{ } Nijji ,,2,1,, K== ϕΦ
dΦw =
21
Interpolacija radijalnom mrežom
Pretpostavimo da su x1, …, xN različiti vektori.Promatrajmo klasu radijalnih funkcija koje imaju svojstvo da je pripadna interpolacijska matrica Φpozitivno definitnaPrimjeri ovakvih radijalnih funkcija (najćešćekorišteni) su:
0,0,)(
1)( 2/122 ≥>+
= rccr
rϕ
0,0,2
exp)( 2
2
≥>⎟⎟⎠
⎞⎜⎜⎝
⎛−= rrr σ
σϕ
22
Interpolacija radijalnom mrežom
Istraživanja su pokazala da izbor nelinearne funkcije nije kritičanBudući da je matrica Φ pozitivno definitna postoji inverzna matrica i nepoznati vektor težina možemo dobiti kao:
Iako danu jednadžbu teoretski uvijek možemo riješiti u praksi imamo poteškoća s nalaženjem inverznematrice ako je matrica Φ blizu singularnoj matriciOvaj problem se može riješiti uz pomoć teorije regularizacije
dΦw 1−=
23
Interpolacija radijalnom mrežom
i-ti neuron skrivenog sloja realizira funkciju ϕ(||x-xi||)Izlazni neuron računa linearnu kombinaciju svojih ulaza
ulazni skriveni izlazni sloj sloj sloj
w1
wN
F(x)
x1
xp
ϕ(||x-x1||)
ϕ(||x-xN||)
24
Generalizirana radijalna mrežaIz ranije izloženoga vidi se da za svaki ulazni uzorak xi trebamo jedan neuron u skrivenom slojuZa veliki broj ulaznih uzoraka to postaje problemU tom slučaju može se koristiti umjesto N samo M << N radijalnih funkcija
∑=
−=M
iiiwF
1)()( xxx ϕ
25
Generalizirana radijalna mrežaDobivena matrica Φ u ovom slučaju ima dimenzije N×M tako da inverzna matrica ne postojiTežine za ovaj slučaj možemo naći pomoću pseudoinverzne matrice od Φ
dΦΦΦdΦw TT 1)( −+ ==
26
ModifikacijeOsim da se koristi M<<N moguće su i druge modifikacije osnovne ideje radijalnih mreža:1. Centri radijalnih funkcija ne moraju biti određeni vrijednostima ulaznih vektora nego mogu imati i neke druge vrijednosti2. Ako se koriste npr. Gausove funkcije, svaka funkcija može imati različiti parametar širine σ3. Izlaznom neuronu se može dodati i pragSvi ovi nepoznati parametri se moraju onda odrediti u procesu učenja
27
Učenje kao inverzni problemUčenje se može shvatiti kao problem rekonstrukcije plohe koja je definirana skupom točaka koje mogu biti i jako razmaknuteGledajući na taj način učenje je inverzni problem (poznato je nekoliko parova točaka ulaz-izlaz, a treba odrediti funkciju F tj. cijelu plohu)Inverzni problem može biti dobro postavljen (engl. well-posed) i loše postavljen (engl. ill-posed)Pretpostavimo da imamo nepoznato preslikavanje
gdje je X domena, a Y kodomenaYXF →:
28
Dobro postavljen problemDefinicija: Problem rekonstrukcije funkcije F je dobro postavljen ako su zadovoljena slijedeća tri uvjeta:1. Egzistencija: za svaki ulaz x postoji izlaz y=F(x)2. Injektivnost: F(x)=F(t) ako i samo ako x=t3. Kontinuiranost:
gdje su ρx i ρy mjere za udaljenost između vektora
ερδρεδδε <⇒<=∃>∀ ))(),((),(|)(,0 txtx FFyx
29
Loše postavljen problemDefinicija: Problem rekonstrukcije funkcije F je loše postavljen onda i samo onda ako nije dobro postavljen
30
Učenje pod nadzoromUčenje pod nadzorom je loše postavljen problem rekonstrukcije željene plohe:1. Nema dovoljno informacija u primjerima za učenje tako da injektivnost ne vrijedi2. Zbog šuma i nepreciznosti ne vrijedi ni uvjet kontinuiranosti ni egzistencijeDa bi problem učenja postao dobro postavljen potrebno je imati neko dodatno a priori znanje o preslikavanju FTakvo znanje može biti sadržano u redundantnosti uzoraka za učenje
31
Teorija regularizacijeTikhonov, 1963Teorija regularizacije omogućuje nalaženje rješenja za loše postavljene inverzne problemeIdeja regularizacije je da stabilizira rješenje dodatnim funkcionalom koji sadrži u sebi a priori informaciju o preslikavanju F (npr. kontinuiranost)Na taj način se loše postavljeni problem pretvara u dobro postavljeni problemNepoznata funkcija F se određuje minimizacijom funkcije cijene E(F) koja se sastoji od dva člana
32
Teorija regularizacijeStandardni član pogreške mjeri pogrešku između željenog odziva i dobivenog odziva za neku funkciju F
Član za regularizaciju ovisi o geometrijskim svojstvima funkcije F
gdje je P linearni diferencijalni operator
∑=
−=N
iiis FdFE
1
2)]([21)( x
2
21)( FFEc P=
33
Rješenje problema Princip regularizacije je minimizirati funkciju definiranu izrazom
Za određeni izbor operatora P može se izračunati optimalna vrijednost funkcije F koja ima formu:
gdje funkcija G (. ; .) ovisi o izboru operatora P
)()()( FEFEFE cs λ+=
∑=
=N
iiiGwF
1);()( xxx
34
Rješenje problemaU slučaju da je operator P invarijantan na pomak funkcija G je radijalna funkcija:
∑=
−=N
iiiGwF
1
)()( xxx
35
Regularizacijske mrežeZaključak: Regularizacija problema interpolacije dovodi do radijalnih mreža kao rješenjaRadijalne mreže su arhitektura koja omogućuje rješenje interpolacijskog problema korištenjem teorije regularizacije
36
Radijalna mrežaSkriveni sloj daje vrijednosti funkcija G(||x - xi||) Izlazni sloj realizira linearnu kombinaciju
ulazni skriveni izlazni sloj sloj sloj
w1
wN
F(x)
x1
xp
37
Kao radijalnu funkciju koristimo:
gdje su centri t1=[1 1]T i t2=[0 0]T
Izlazni neuron ima i prag b da bi mreža mogla lakše naučiti željenu funkciju
( ) ( ) 2,1,exp 2 =−=− iG ii txtx
Primjer: XOR problem
38
Primjer: XOR problemStruktura RBF mreže prikazana je na slici:
w1
w2
+1 bx1
x2
y
39
Primjer: XOR problemOdnos ulaz-izlaz ima oblik:
Da bi mreža naučila zadane primjere za učenje treba vrijediti:
Neka je:
( ) bGwyi
ii +−= ∑=
2
1)( txx
4,3,2,1,)( == jdy jjx
( ) 2,1;4,3,2,1, ==−= ijGg ijji tx
40
Primjer: XOR problemTada dobivamo sustav jednadžbi u matričnoj formi: Gw=d gdje je:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
137,037,01113,0137,037,0113,01
1111
4241
3231
2221
1211
gggggggg
G
[ ]Tbww 21=w
[ ]T0101=d
41
Primjer: XOR problemOvaj sustav jednadžbi je predeterminiran jer ima više jednadžbi nego nepoznanicaZbog toga matrica G nije kvadratnaRješenje nalazimo pomoću pseudoinverzne matrice:
w = G+ d = (GT G)–1 GT
Rješenje je w = [2.28 2,28 –1,7]T
Prve dvije dobivene težine su jednake zbog simetrije problema
42
Usporedba RBF i višeslojnih mreža1. RBF mreža ima jedan skriveni sloj dok perceptron
može imati i više slojeva2. Svi neuroni perceptrona obično imaju isti model dok
su skriveni neuroni RBF mreže različiti i imaju drugu ulogu
3. Skriveni sloj RBF mreže je nelinearan, a izlazni linearan, kod perceptrona svi su neuroni nelinearni
4. Argument aktivacijske funkcije kod RBF mreže je udaljenost između ulaznog vektora i centra, a kod perceptrona argument aktivacijske funkcije je skalarni produkt ulaznog vektora i vektora težine.
43
Strategije učenjaPostoji više različitih strategija učenja kod radijalnih mreža
Neke od mogućih strategija su:
1. Fiksni centri koji su slučajno odabrani2. Samo-organizirani odabir centara3. Odabir centara pod nadzorom
44
Fiksni centri U ovom pristupu centri RBF funkcija postavljeni su na unaprijed određene lokacije ti
gdje je M broj centara, a d je maksimalna udaljenost izmedu centaraStandardna devijacija Gausovih funkcija jednaka je
( ) MidMG ii ,,2,1,exp 2
2 K=⎟⎠⎞
⎜⎝⎛ −−=− txtx
Md2
=σ
45
Fiksni centriOvakav odabir standardne devijacije garantira da Gausove funkcije neće biti niti preuske ni preširokeJedine nepoznanice koje se trebaju odrediti procesom učenja su težine wTežine se mogu odrediti pseudoinverznom metodom:
gdje je matrica G={gji} i
dGw +=
MiNjdMg ijji ,,1;,,1,exp
2
2 KK ==⎟⎠⎞
⎜⎝⎛ −−= tx
46
Samo-organizirani centriU ovom pristupu centri radijalnih funkcija se mogu pomicati na samoorganizirani načinSamoorganizacija omogućuje da se centri funkcija postave samo u područjima gdje ima puno ulaznih vektora
47
Samo-organizirani centriPoložaji centara mogu se računati algoritmom grupiranja s K srednjih vrijednostiIznosi težina w se računaju kroz proces učenja pod nadzoromZa učenje pod nadzorom može se koristiti LMS algoritamIzlazi skrivenih neurona služe kao ulazi za LMS algoritam učenja
48
Učenje pod nadzoromOvo je najopćenitiji slučaj gdje se svi slobodni parametri mreže određuju učenjem pod nadzorom (korekcijom pogreške)U ovom pristupu promatramo pogrešku mreže za sve parove ulaz-izlaz:
gdje je N broj parova za učenje, a ej signal pogreške
∑=
=N
jjeE
1
2
21
49
Učenje pod nadzoromPogreška ej definirana je kao:
gdje je:
a matrica A je pozitivno definitna matrica
( )∑=
−−=
−=M
iAijij
jjj
Gwd
Fde
1
)(
tx
x
AzzzzzAA
T== ,2
50
Učenje pod nadzoromU ovom pristupu slobodni parametri koje treba odrediti da bi se minimizirala pogreška su:
težine wi
centri radijalnih funkcija ti
matrica skalarnog produkta AIterativnom metodom najbržeg spusta izvode se korekcije gornjih parametara
51
Učenje pod nadzoromEksperimenti su pokazali da:1. Radijalna mreža s samo-organizirajućim centrima i učenjem izlaznih težina pod nadzorom ima lošija svojstva generalizacije od višeslojnog perceptrona2. Generalizirane RBF mreže gdje se svi parametri određuju učenjem pod nadzorom imaju bolja svojstva generalizacije
52
Primjene radijalnih mrežaObrada slikePrepoznavanje govoraAdaptivna ekvalizacijaMedicinska dijagnostikaLokalizacija izvora kod radaraAnaliza stohastičkih signala
53
ZadaciZadatak 7.3Težine w dobivene u primjeru za rješenje XOR problema predstavljaju samo jednu moguću realizacijuNaći alternativne vrijednosti težina w za rješenje XOR problema