+ All Categories
Home > Documents > Support Vector Regression

Support Vector Regression

Date post: 16-Mar-2016
Category:
Upload: elvina
View: 91 times
Download: 1 times
Share this document with a friend
Description:
Seminar Machine Learning WS 2003/04. Support Vector Regression. Sebastian Schneegans. Konzept der Support Vector Regression Erläuterung der Problemstellung und der Lösungsideen, Formulieren der Aufgabe als Optimierungsproblem - PowerPoint PPT Presentation
Popular Tags:
27
1 Support Vector Regression Seminar Machine Learning WS 2003/04 Sebastian Schneegans
Transcript
Page 1: Support Vector  Regression

1

Support Vector Regression

Seminar Machine LearningWS 2003/04

Sebastian Schneegans

Page 2: Support Vector  Regression

2

Übersicht

Support Vector Regression – Sebastian Schneegans

I. Konzept der Support Vector RegressionErläuterung der Problemstellung und der Lösungsideen, Formulieren der Aufgabe als Optimierungsproblem

II. Lösen des OptimierungsproblemsAufstellen des Lagrangepolynoms, Ermitteln der Ebenengleichung und Anwenden des Kernel-Tricks

III. Variationen der Support Vector Regressiona) υ-SVRb) Weitere Variationen

Page 3: Support Vector  Regression

3

Teil I:Konzept der Support Vector

Regression

Support Vector Regression – Sebastian Schneegans

Page 4: Support Vector  Regression

4

Problem der Funktionsschätzung

Support Vector Regression – Sebastian Schneegans

• Gegeben:{(x1, y1), (x2, y2), ..., (xn, yn)}, xiH, yiRmit Skalarproduktraum H, meist H = Rd

Unabhängig und identisch verteilt nach einer Wahrscheinlichkeitsverteilung P(x, y)

• verrauschte Funktion x g(x) + ω(x)• Gesucht:

Schätzung f(x) mit minimalem RisikoR[f] = ∫c(y, f(x)) dP(x, y)

• c: Y Y R Fehlerfunktion• Da aber P(x, y) unbekannt: Minimiere empirisches Risiko

mit möglichst flacher Funktion

Page 5: Support Vector  Regression

5

Grundidee der SVR

Übertragung der Prinzipien von SVM auf die Funktionsschätzung:

• Lineare Approximation durch Hyperebene der Formf(x) = w, x + b

• Repräsentation durch (wenige) Support Vectors• Nicht-Linearität durch Kernel-Funktion

Φ(xi), Φ(xj) = k(xi, xj)

Support Vector Regression – Sebastian Schneegans

Page 6: Support Vector  Regression

6

Geometrische Interpretation

y

x1

x2

Support Vector Regression – Sebastian Schneegans

w

w, x + b = 0

SVM zur Klassifizierung:

Page 7: Support Vector  Regression

7

f(x) = w, x + b

x2

Geometrische Interpretation

x1

Support Vector Regression – Sebastian Schneegans

w, x + b = 0

SVR zur Funktionsschätzung:y

Der Parameter b verschiebt die Ebene in entlang der y-Achse.

Der Vektor w bestimmt die Steigungder (Hyper-)Ebene.Dies folgt aus der Linea-rität des Skalarprodukts:

d

1i iixwxw,

Page 8: Support Vector  Regression

8

Fehlerfunktion

ε-insensitive loss:|y – f(x)|ε = max {0, |y – f(x)| – ε}

x1

f(x)

εε

ε-ε

|y – f(x)|ε

y – f(x)

Support Vector Regression – Sebastian Schneegans

*iξ

*iii

iii

ξεy)f(ξε)f(y

xx

Page 9: Support Vector  Regression

9

Formulierung des Minimierungsproblems

Support Vector Regression – Sebastian Schneegans

n1i

*iin

n1i iin

1 ξξ)f(yR[f] x• Minimieren des empirischen Fehlers:

ww,ww 212

21 bzw. minimiere

• Verwendung einer möglichst flachen Funktion f(x):

n1i

*iin

1221(*) ξξC, τminimiere wξw

• Gewichtung der beiden Ziele zueinander durch Parameter C :

i i i

*i i i

*i i

y , b ε ξ

, b y ε ξ

ξ ,ξ 0

w x

w x

• Nebenbedingungen:

Page 10: Support Vector  Regression

10

Minimierung von w bei SVR und SVM

f(x)

x1

x2

1

-1

Kanonische Hyperebene bei SVMzur Mustererkennung:

1b,y ii xw

Support Vector Regression – Sebastian Schneegans

Page 11: Support Vector  Regression

11

Minimierung von w bei SVR und SVM

f(x)

x1

x2

1

-1

Kanonische Hyperebene bei SVMzur Mustererkennung:

1b,y ii xw

Je kleiner der Abstand derseparierenden Hyperebene vom nächsten Trainingspunkt, desto steiler muss die Funktion f(x) verlaufen, um obige Bedingung zu erfüllen!

Support Vector Regression – Sebastian Schneegans

Page 12: Support Vector  Regression

12

Teil II:Lösen des Optimierungs-

problems

Support Vector Regression – Sebastian Schneegans

Page 13: Support Vector  Regression

13

Aufstellen des Lagrange-Polynoms

Nebenbedingungen:

n

1i*iin

1221(*) ξξC, τminimiere wξw

i i i

*i i i

*i i

y ,x b ε ξ

,x b y ε ξ

ξ ,ξ 0

w

w

Support Vector Regression – Sebastian Schneegans

Duale Formulierung: Einführen neuer Parameter , um Nebenbedingungen in das Lagrange-Polynom zu integrieren:

n n2 * * *1 1i i i i i i2 n i 1 i 1

ni i i ii 1

n * *i i i ii 1

L C ξ ξ η ξ η ξ

α ε ξ y , +b

α ε ξ + y , b

w

w x

w x

0η,α (*)i

(*)i

Minimiere L in Bezug auf Variablen und maximiere L inBezug auf Variablen .

(*) b, , ξw(*)(*) ,ηα

Page 14: Support Vector  Regression

14

Nebenbedingen im Lagrange-Polynom

Die Nebenbedingung iii ξεyb, xw

wird gewährleistet durch die Minimierung (bzgl. ) bzw.Maximierung (bzgl. ) des Terms

ni i i ii 1

α ε ξ y , +b

w x

Support Vector Regression – Sebastian Schneegans

(*) b, , ξwiα

< 0, wenn Bedingung verletzt

beliebig groß, wenn maximiert bzgl. iαZur Minimierung muss ξi die Nebenbedingung erfüllen.

Bemerke: αi wird 0 für alle Trainingspunkte innerhalb des ε-Bandes auf Grund der KKT-Bedingungen!

Page 15: Support Vector  Regression

15

Vereinfachen des Lagrange-Polynoms

Support Vector Regression – Sebastian Schneegans

Lösung des Minimierungs- bzw. Maximierungsproblems ist ein Sattelpunkt,alle partiellen Ableitungen sind hier null:

(*)i

n *b i ii 1

n *i i ii 1

* *Ci imξ

L -α +α 0

L -α α 0

L α η 0

w w x

Einsetzen liefert schließlich das zu lösende Optimierungsproblem als

n * *1i i j j i j2 i,j 1

n n* *i i i i ii 1 i 1

maximiere - α α α α ,

ε α α y α α

x x

nC(*)

in

1i*ii α ααmit ,0,0

Page 16: Support Vector  Regression

16

• Der Vektor w ergibt sich als Linearkombination von Trainingsvektoren (den Support Vectors):

Bestimmung der Ebenengleichung

Support Vector Regression – Sebastian Schneegans

n *i i ii 1

-α α

w x

n *i i ii 1

f , b -α α , bi x w x x x

• Die Funktion f(x) lässt sich nun auch ohne explizite Angabe von w schreiben:

n

C*iii

nC

iii

0,α einfür ε,yb0,α einfür ε,yb

xwxw

• Der Wert von b lässt sich aus einem der SVs bestimmen, der gerade auf dem Rand desε-Bandes liegt:

(xi, yi)y

x1

b

ε

Page 17: Support Vector  Regression

17

Nicht-Linearität durch Kernels

Support Vector Regression – Sebastian Schneegans

)Φ(:Φ

xx

xΗΧ X: Eingaberaum,

H: Merkmalsraum (meist H = Rd)mit

• Erweiterung auf nicht-lineare Funktionen durch Vorverarbeitungder Eingaben mittels Abbildung Φ:

Φ• Beispiel:X = R, H = R2

)(),(),( jiji xxxx ΦΦk • Kernel-Funktion zur schnelleren

Berechnung:

n *i i ii 1

f -α α k , bx x x

• Damit:

Page 18: Support Vector  Regression

18

Teil III:Variationen der Support

Vector Regression

Support Vector Regression – Sebastian Schneegans

a) ν-Support Vector Regression

Page 19: Support Vector  Regression

19

Einfluss des Parameters ε

kleines ε kleiner empirischer Fehlergroßes ε flache Funktion, wenige SVs

Support Vector Regression – Sebastian Schneegans

[Smola98]

Page 20: Support Vector  Regression

20

Automatische Wahl von ε: -SVR

Minimiere nun auch ε, gewichtet mit neuem Parameter :

(Nebenbedingungen wie vorher)

Proposition: ist obere Schranke für den Anteil der

Trainingspunkte, die außerhalb des ε-Bandes liegen ist untere Schranke für den Anteil der SVs an den

Trainingspunkten

n2(*) *1 1i i2 n i 1

minimiere τ , , C ξ ξ

w ξ w

Support Vector Regression – Sebastian Schneegans

Page 21: Support Vector  Regression

21

Bedeutung des Parameters

Support Vector Regression – Sebastian Schneegans

f(x)

ε1

x1

n1i

*iin

1 ξξMinimieren des Teilausdrucks

ε1

Beispiel: 102 ν10,n

101i

*ii10

1110

21 ξξεm

(vier Punkte außerhalb des ε-Bandes)

Page 22: Support Vector  Regression

22

Bedeutung des Parameters

Support Vector Regression – Sebastian Schneegans

f(x)

ε2

ε2

x1

d

d

Beispiel: 102 ν10,n

101i

*ii10

1110

21 ξξεm

n1i

*iin

1 ξξMinimieren des Teilausdrucks

(vier Punkte außerhalb des ε-Bandes)

12

10410

1i*ii10

1102

1102

101i

*ii10

1210

22

mmdξξdε

ξξεm

dεε 12

Page 23: Support Vector  Regression

23

Teil III:Variationen der Support

Vector Regression

Support Vector Regression – Sebastian Schneegans

b) Weitere Variationen

Page 24: Support Vector  Regression

24

Parametrische Unempfindlichkeitsmodelle

Support Vector Regression – Sebastian Schneegans

• Bei verrauschten Funktionenx g(x) + ω(x)ist die Stärke des Rauschens oft abhängig von der Eingabe.

-3 -2 -1 0 1 2 3-1.5

-1

-0.5

0

0.5

1

1.5

2

• Um dies bei der Funktionsschätzung zu berücksichtigen, kann die Breite des ε-Bandes in Abhängigkeit von x variiert werden:

)ζ(:)ζ(

xxx

• Die Funktion ζ(x) tritt dann in den Nebenbedingungen als Skalierungsfaktor von ε auf:

iiii ξ)εζ(ybx, xw

Page 25: Support Vector  Regression

25

Optimierung über ℓ1-Norm

Support Vector Regression – Sebastian Schneegans

• ℓ1-Norm:

d1i ix

1x

• Vorteil: Optimierung lässt sich durch lineare Programmierung lösen (bisher quadratische Programmierung)

• Idee: Minimiere Koeffizienten anstelle von ,um flache Funktion zu erzeugen:

mit Nebenbedingungen:

n1i

*iin

1n1i

*iin

1 ξξCαα minimiere

n * *j j j i i ij 1

n *i j j j i ij 1

(*) (*)i i

α - α k , b y ε ξ

y α α k , b ε ξ

,ξ 0

x x

x x

α

(*)iα w

Page 26: Support Vector  Regression

26

Andere Fehlerfunktionen

Support Vector Regression – Sebastian Schneegans

• An Stelle des ε-insensitive loss können auch andere Funktionen zur Fehlermessung verwendet werden, z. B.:

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

-3 -2 -1 0 1 2 30

0.5

1

1.5

2

2.5

3

sonstf(x)yσf(x)yfür f(x)yf(x)y,x,c

f(x)yf(x)y,x,cf(x)yf(x)y,x,c

22σ1

Huber

221

Gauss

Laplace

Laplacian loss Gaussian loss Huber‘s robust loss

• Nachteil: Alle Trainingspunkte tragen zu w bei, nicht nur wenige Support Vectors

Page 27: Support Vector  Regression

27

Zusammenfassung

Support Vector Regression – Sebastian Schneegans

• Support Vector Regression als Übertragung der SVM auf das Problem der Funktionsschätzung

• Lineare Regression durch Hyperebene• Bestimmen der Ebenengleichung über

Minimierungsproblem mit Nebenbedingungen• Duale Formulierung als Lagrange-Polynom• Erweiterung auf nicht-linearen Fall durch Kernel-

Trick -SVR zur einfacheren Bestimmung der Parameter


Recommended