+ All Categories
Home > Data & Analytics > Support Vector Machines

Support Vector Machines

Date post: 07-Dec-2014
Category:
Upload: sakis-sotiropoulos
View: 112 times
Download: 3 times
Share this document with a friend
Description:
Support Vector Machines Tutorial
Popular Tags:
60
Support Vector Machines Dionysios N. Sotiropoulos Ph.D ([email protected]) 1 SVM Tutorial
Transcript
Page 1: Support Vector Machines

Support Vector Machines

Dionysios N. SotiropoulosPh.D

([email protected])

1SVM Tutorial

Page 2: Support Vector Machines

Presentation Summary

• Introduction• Theoretical Justifications• Linear Support Vector Machines

– Hard Margin Support Vector Machines– Soft Margin Support Vector Machines

• Non‐Linear Support Vector Machines– Mapping Data to High Dimensional Feature Spaces– Kernel Trick– Kernels 

• Conclusions

2SVM Tutorial

Page 3: Support Vector Machines

Theoretical Justifications (1 / 6)

• Training Data: – We want to estimate a function                         using  training data                                                    .

• Empirical Risk:– measures classifier’s accuracy on training data 

• Risk:– measures classifier’s generalization ability:

SVM Tutorial 3

1: NRf 1),(),....,,( 11 N

ll Ryxyx

l

iiilemp yxffR

1211 )(][

),()(21][ yxdPyxffR

Page 4: Support Vector Machines

Theoretical Justifications (2 / 6)

• Structural risk minimization (SRM) is an inductive principle.

• Commonly in machine learning, a generalized model must be selected from a finite data set, with the consequent problem of overfitting the model becoming too strongly tailored to the particularities of the training set and generalizing poorly to new data.

• The SRM principle addresses this problem by balancing the model's complexity against its success at fitting the training data.

SVM Tutorial 4

Page 5: Support Vector Machines

Theoretical Justifications (3 / 6)

• VC Dimension: Vapnik – Chervonenkis dimension is a measure of the capacity of a statistical classification algorithm defined as the cardinality of the largest set of points that the algorithm can shatter.

• Shuttering:• a classification model f(θ) with some parameter vector θ is 

said to shatter a set of data points                             if, for all assignments of labels to those points, there exists a θ such that the model fmakes no errors when evaluating that set of data points.

SVM Tutorial 5

1{ ,..., }lX x x

Page 6: Support Vector Machines

Theoretical Justifications (4 / 6)• Examples:

– consider a straight line as the classification model: the model used by a perceptron.

– The line should separate positive data points from negative data points. 

– An arbitrary set of 3 points can indeed be shattered using this model (any 3 points that are not collinear can be shattered). 

– However, there exists a set of 4 points that can not be shattered. Thus, the VC dimension of this particular classifier is 3.

SVM Tutorial 6

Page 7: Support Vector Machines

Theoretical Justifications (5 / 6)• VC Theory provides bounds on the test error, which depend 

on both empirical risk and capacity of function class. • The bound on the test error of a classification model (on 

data that is drawn i.i.d from the same distribution as the training set) is given by:

with probability 1 – η.where h is the VC dimension of the classification model, andl is the size of the training set (restriction: this formula isvalid when the VC dimension is small h < l).

SVM Tutorial 7

lh

emphl

RR )log()1(log 42

)()(

Page 8: Support Vector Machines

Theoretical Justifications (6 / 6)

• Vapnik has proved the following:The class of optimal linear separators has VC dimension h bounded from above as: 

– where γ is the margin, D is the diameter of the smallest sphere that can enclose all of the training examples, and n is the dimensionality.

SVM Tutorial 8

1,min 2

2

nDh

Page 9: Support Vector Machines

Introduction 1 / 2

• SVMs gained much popularity as the most important recent discovery in machine learning.

• In binary pattern classification problems– generalize linear classifiers in high‐dimensional feature spaces through non‐linear mappings defined implicitly by kernels in Hilbert space.

– produce non‐linear classifiers in the original space.

9SVM Tutorial

Page 10: Support Vector Machines

Introduction 2 / 2

• Initial linear classifiers are optimized to give maximal margin separation between classes.

• This task is performed by solving some type of mathematical programming such as quadratic programming (QP) or linear programming (LP).

10SVM Tutorial

Page 11: Support Vector Machines

Hard Margin SVM 1 /26 

• Let                                 be a set of training patterns such that             and               .

• Each training input belongs to one of two disjoints classes which are associated with the labels           and           .

• If data points are linearly separable, it is possible to determine a decision function of the following form: 

1 1{( , ),...,( , )}l lS y y x xn

ix { 1,1}iy

1iy 1iy

( ,) Tg b b x w x w x

11SVM Tutorial

Page 12: Support Vector Machines

Hard Margin SVM 2 / 26w T x + b = 0

w T x + b < 0w T x + b > 0

g(x) = <w T , x> + b

12SVM Tutorial

Page 13: Support Vector Machines

Hard Margin SVM 3 / 26

• The decision function        defines a hyper plane in the n‐dimensional vector space       which has the following property:

• Since training data are linearly separable, there will not be any training instances satisfying:  

( )g xn

0, for 1;,

0 , for 1.i

i

yb

y

w x

, 0b w x

13SVM Tutorial

Page 14: Support Vector Machines

Hard Margin SVM 4 / 26

• In order to control separability we may write that:

• By incorporating class labels, inequalities may be rewritten as: 

1, for

1;,

1, for 1.i

i

yb

y

w x

( , ) 1, [ ]i iy b i l w x

14SVM Tutorial

Page 15: Support Vector Machines

Hard Margin SVM 5 / 26Var1

Var21 bxw

1 bxw

0 bxw 11

wmargin

15SVM Tutorial

Page 16: Support Vector Machines

Hard Margin SVM 6 / 26

• The hyperplane for                   forms a separating hyperplane in the n‐dimensional vector space         that separates

• When         , the separating hyperplane lies within the middle of hyperplanes          

• The distance between the separating hyperplane and the training datum nearest to the hyperplane is called the margin.

( ) ,g b c x w x 1 1c

n, [ ]i i lx

0c1c

16SVM Tutorial

Page 17: Support Vector Machines

Hard Margin SVM 7 / 26

• Assuming that hyperplanes             and             include at least one training datum, the hyperplane has the maximum margin for ‐1<c<+1.

• The region                           is called the generalization region of the decision function.

( ) 1g x ( ) 1g x

( ) 0g x

{ : 1 ( ) 1}x g x

17SVM Tutorial

Page 18: Support Vector Machines

Hard Margin SVM 8 / 26

Margin Width

Var1

Var2

Margin Width

IDEA : Select the separating hyperplane that maximizes the margin!

1( ) 0g x

2 ( ) 0g x

18SVM Tutorial

Page 19: Support Vector Machines

Hard Margin SVM 9 / 26

• Decision functions         and          are separating hyperplanes.

• Such separating hyperplanes are not unique.• Choose the one with higher generalization ability.

• Generalization ability depends exclusively on separating hyperplane location.

• Optimal Hyperplane is the one that maximizes margin.

1( )g x 2 ( )g x

19SVM Tutorial

Page 20: Support Vector Machines

Hard Margin SVM 10 / 26

• Assuming:– no outliers within the training data– the unknown test data will obey the same probability law as that of the training data

• Intuitively clear that generalization ability will be maximized if the optimal hyperplane is selected as the separating hyperplane

20SVM Tutorial

Page 21: Support Vector Machines

Hard Margin SVM 11 / 26Optimal Hyperplane Determination I 

• The Euclidean distance for a training datum x to the separating hyperplane parameterized by (w , b) is given by:

• Notice that w is orthogonal to the separating hyperplane. 

• Line              goes through x being orthogonal to the separating hyperplane. 

| ( ) | | , |( ; , ) g bR b

x w xx ww w‖ ‖ ‖ ‖

( ; )l x w

21SVM Tutorial

Page 22: Support Vector Machines

Hard Margin SVM 12 / 26Optimal Hyperplane Determination II 

Var1

Var21 bxw

1 bxw

0 bxw 11

wmargin

x

( ; ) al x w w xw‖ ‖

22SVM Tutorial

Page 23: Support Vector Machines

Hard Margin SVM 13 / 26Optimal Hyperplane Determination III 

• |a| is the Euclidean distance from x to the hyperplane.

• crosses the separating hyperplane at the point where                    .( ; )l x w

( ( ; )) 0g l x w

T

T

T T

2 T

g ( l ( x ; w ) ) = 0w l ( x ; w ) + b = 0

aw ( w + x ) + b = 0w

a w w + w x + b = 0wa w = - w x - bw

g ( x )a = -w

g ( x )| a | =| w

‖ ‖

‖ ‖

‖ ‖‖ ‖

‖ ‖

‖ ‖

23SVM Tutorial

Page 24: Support Vector Machines

Hard Margin SVM 14 / 26Optimal Hyperplane Determination IV 

• Let      ,       be two data points lying on the hyperplanes             and             respectively.

• Optimal hyperplane is determined by specifying (w , b) that maximize the quantity:

• γ corresponds to the geometric margin.

x x( ) 1g x ( ) 1g x

1 1{ ( ; , ) ( ; , ))}2

R b R b x w x ww‖ ‖

24SVM Tutorial

Page 25: Support Vector Machines

Hard Margin SVM 15 / 26

• optimal separating hyperplane is obtained by maximizing the geometric margin.

• equivalent to minimizing the quantity:                  subject to the constraints:

• The Euclidean norm ||w|| used to transform the optimization problem into a QP.

• The assumption of separability means that there exist (w , b) (feasible solutions) that satisfy the constraints.

212

( )f w w‖ ‖

( , ) 1, [ ]i iy b i l w x

25SVM Tutorial

Page 26: Support Vector Machines

Hard Margin SVM 16 / 26

• Optimization Problem:– quadratic objective function– inequality constraints defined by linear functions

• Even if the solutions are non‐unique, the valueof the objective function is unique.

• Non‐uniqueness is not a problem for support vector machines.

• Advantage of SVMs over neural networks which have several local optima.

26SVM Tutorial

Page 27: Support Vector Machines

Hard Margin SVM 17 / 26

• Optimal Separating Hyperplane will remain the sameeven if it is computed by removing all the training patterns that satisfy the strict inequalities.

• Points on both sides of the separating hyperplanesatisfying  the corresponding equalities are called support vectors. 

Var1

Var21 bxw

1 bxw

0 bxw 11

wmargin

27SVM Tutorial

Page 28: Support Vector Machines

Hard Margin SVM 18 / 26

• Primal Optimization Problem of Hard Margin SVM:

• Variables of the convex primal optimization problem are the parameters (w , b) defining the separating hyperplane.

• Variables  = Dimensionality of the input space plus 1 which is n+1.

• When n is small, the solution can be obtained by QP technique.

2

,

1min2

s.t ( , ) 1, [ ]b

i iy b i l w

w

w x

‖ ‖

28SVM Tutorial

Page 29: Support Vector Machines

Hard Margin SVM 19 / 26

• SVMs operate by mapping input space into high‐dimensional feature spaces which in some cases may be of infinite dimensions.

• Solving the optimization problem is then too difficult to be addressed in its primal form.

• Natural solution is to re‐express the optimization problem in its dual form.

• Variables in dual representation = Number of training data.

29SVM Tutorial

Page 30: Support Vector Machines

Hard Margin SVM 20 / 26

• Transform the original primal optimization problem into its dual by computing the Lagrangian function of the primal form.

• matrix of non‐negative Lagrange multipliers.

SVM Tutorial 30

1

1( , , ) , { ( , ) 1}2

l

i i ii

L b a y b

w a w w w x

1[ ]Tla a a

Page 31: Support Vector Machines

Hard Margin SVM 21 / 26

• The dual problem is formulated as:

• Kuhn‐Tucker Theorem: necessary and sufficient conditions for a normal point            to be an optimum is the existence of     such that: 

SVM Tutorial 31

,max min ( , , )

s.t 0, [ ]b

i

L b

a i l wa

w a

( , )b wa

Page 32: Support Vector Machines

Hard Margin SVM 22 / 26

SVM Tutorial 32

( , , )L b

w a 0

w ( , , ) 0L b

b

w a

{ ( , ) 1)} 0, [ ]i i ia y b i l w x

( , ) 1) 0, [ ]i iy b i l w x

0, [ ]ia i l

1

l

i i ii

a y

w x

10

l

i ii

a y

Hard Margin SVMKarush‐Kuhn‐Tucker

Complementarity Conditions

(I)

(II)

(III)

(IV)

(V)

Page 33: Support Vector Machines

Hard Margin SVM 23 / 26

• Substituting (I),(II) in the original Lagrangian we get:

• The Dual Optimization Problem:

SVM Tutorial 33

0 1 1

1( , , ) ,2

l l l

i i j i j i ji i j

L b a a a y y

w a x x

0 1 1

1

1max ,2

s.t 0

and 0, [ ]

l l l

i i j i j i ji i j

l

i ii

i

a a a y y

a y

a i l

ax x

Page 34: Support Vector Machines

Hard Margin SVM 24 / 26

• Dependence on original primal variables is removed. 

• Dual formulation: – number of variables = number of the training patterns

– concave quadratic programming problem– if a solution exists (linearly separable classification problem) then exists a global solution for     .

SVM Tutorial 34

a

Page 35: Support Vector Machines

Hard Margin SVM 25 / 26

• Karush‐Kuhn‐Tuck Complementarity Conditions:– for active constraints(        ) we have that:

– for inactive constraints (        ) we have that:

• Training data points    for which          corresponds to support vectors lying on hyperplanes g(x) = +1 and g(x) = ‐1.

SVM Tutorial 35

0i a

( , ) 1) 0i iy b w x0i

a( , ) 1) 0i iy b w x

ix 0i a

Page 36: Support Vector Machines

Hard Margin SVM 26 / 26

• Geometric margin (optimal hyperplane):

• Optimal Hyperplane:

• Optimal b parameter:

SVM Tutorial 36

1

w‖ ‖

1( ) , ,

l

i i i i i ii i SV

g a y b a y b

x x x x x

1 {( ) , }ii SV

b n nn n

w x

Page 37: Support Vector Machines

Soft Margin SVM 1 / 11

• Linearly inseparable data:– no feasible solution– optimization problem corresponding to Hard Margin Support Vector Machine unsolvable.

• Remedy: extension of Hard Margin paradigm by the so called Soft Margin Support Vector Machine.

• Key Idea: allow for some slight error represented by slack variables            .

SVM Tutorial 37

( 0)i i

Page 38: Support Vector Machines

Soft Margin SVM 2 / 11 

• Introduction of slack variables yields that the original inequalities will be reformulated as:

• Utilization of slack variables guarantees the existence of feasible solutions for the reformulated optimization problem.

SVM Tutorial 38

( , ) 1 , [ ]i i iy b i l w x

Page 39: Support Vector Machines

Soft Margin SVM 3 / 11 

SVM Tutorial 39

Var1

Var2

j > 1

j > 1j = 0

j = 0j < 1

j < 1

Page 40: Support Vector Machines

Soft Margin SVM 4 / 11 

• Optimal Separating Hyperplane correctly classifies all training patterns     for which:      

even if they do not have the maximum margin.

• Optimal Separating Hyperplane fails to correctly classify those training patterns for    which:          .

SVM Tutorial 40

ix0 1i

1i

Page 41: Support Vector Machines

Soft Margin SVM 5 / 11 

• Primal optimization problem of Soft Margin SVM introduces a tradeoff parameter C between maximizing margin and minimizing the sum of slack variables.

• Margin: directly influences generalization ability of the classifier.

• Sum of Slack Variables: quantifies the empirical risk of the classifier.

SVM Tutorial 41

Page 42: Support Vector Machines

Soft Margin SVM 6 / 11

• Primal Optimization Problem of Soft Margin SVM:

• Lagrangian:

SVM Tutorial 42

2

, , 1

1min2

s.t. ( , ) 1 , [ ]and 0, [ ]

l

ib i

i i i

i

C

y b i li l

ww

w x

‖ ‖

1[ ]Tla a a 0, i [l]ia

1[ ]Tl 0, i [l]i

1 1 1

1( , , ) , ( , { }2

l l l

i i i i i i i ii i i

L b a y b a y C a

w a w w w x

Page 43: Support Vector Machines

Soft Margin SVM 7 / 11 

• The dual problem  is formulated as: 

• Kuhn‐Tucker Theorem: necessary and sufficient conditions for a normal point            to be an optimum is the existence of           such that: 

SVM Tutorial 43

, ,,max min ( , , )

s.t 0, [ ]and 0, [ ]

b

i

i

L b

a i li l

waw a

( , , )b w( , ) a

Page 44: Support Vector Machines

Soft Margin SVM 8 / 11 

SVM Tutorial 44

( , , , , )L b

w a 0

w ( , , , , )L b

w a 0

( , , , , ) 0L bb

w a

{ ( , ) 1 )} 0, [ ]i i i ia y b i l w x

0, [ ]i i i l

( , ) 1 ) 0, [ ]i i iy b i l w x

0, [ ]ia i l

0, [ ]i i l

1

l

i i ii

a y

w x

0, [ ].i iC a i l

10

l

i ii

a y

(I)

(II)

(III)

(IV)

(V)

(VI)

(VII)

(VIII)

KKT Complementarity 

Conditions

Page 45: Support Vector Machines

Soft Margin SVM 9 / 11

• Equations (II),(VII) and (VIII) may be combined as:                 .

• Substituting (I),(II) and (III) in the original Lagrangian we get:

• Dual optimization problem:

SVM Tutorial 45

0 ia C

0 1 1

1( , , ) ,2

l l l

i i j i j i ji i j

L b a a a y y

w a x x

0 1 1

1

1max ,2

s.t 0and 0, [ ]

and 0, [ ]

l l l

i i j i j i ji i j

l

i i ii

i

a a a y y

a y a i l

i l

ax x

Page 46: Support Vector Machines

Soft Margin SVM 10 / 11

• Karush‐Kuhn‐Tuck Complementarity Conditions:– active constraints:                                                   corresponding training patterns     are correctlyclassified.– inactive constraints:

• (unbounded support vectors)

• (bounded support vectors)

SVM Tutorial 46

0 0 0i i ia C

ix

0 0 0 ( , ) 1i i i i ia C y b w x

0 0 ( , ) 1 0i i i i i ia C y b w x

Page 47: Support Vector Machines

Soft Margin SVM 11 / 11

• Geometric margin (optimal hyperplane):

• Optimal b parameter:

• Optimal    parameters:

• Optimal Hyperplane:

SVM Tutorial 47

1

w‖ ‖

1 {( ) , }u

u u ii SVu u

b n nn n

w x

max(0,1 ( , ) )i i iy b w x

1( ) , ,

l

i i i ii i SVi i

g a y b a y b

x x x x x

Page 48: Support Vector Machines

Linear SVMs Overview

• The classifier is a separating hyperplane.• Most “important” training points are support vectors as they define the hyperplane.

• Quadratic optimization algorithms can identify which training points xi are support vectors with non‐zero Lagrangian multipliers αi.

• Both in the dual formulation of the problem and in the solution training points appear only inside inner products.

SVM Tutorial 48

Page 49: Support Vector Machines

Mapping Data to High Dimensional Feature Spaces (1 / 4)

• Datasets that are linearly separable with some noise work out great:

• But what are we going to do if the dataset is just too hard?

• How about… mapping data to a higher‐dimensional space:

SVM Tutorial 49

x0

0 x

0

x1

x2

Page 50: Support Vector Machines

Mapping Data to High Dimensional Feature Spaces (2 / 4)

• General idea:   the original input space can always be mapped to some higher dimensional feature space where the training set is separable.

SVM Tutorial 50

Φ: x→ φ(x)

x1

x2

f1

f2

f3

Page 51: Support Vector Machines

Mapping Data to High Dimensional Feature Spaces (3 / 4)

• Find function (x) to map to a different space, then SVM formulation becomes:

• Data appear as (x), weights w are now weights in the new space.

• Explicit mapping expensive if (x) is very high dimensional.

• Solving the problem without explicitly mapping the data is desirable.

SVM Tutorial 51

21m in2 i

i

w C

0 ,1))(,( ..

i

iii xbxwyts

Page 52: Support Vector Machines

Mapping Data to High Dimensional Feature Spaces (4 / 4)

• Original SVM formulation– n inequality constraints– n positivity constraints– n number of ξ constraints

• Dual formulation– one equality constraint– n positivity constraints– n number of  variables (Lagrange multipliers)

– NOTICE: Data only appear as <(xi) , (xj)>

SVM Tutorial 52

0 ,1))(( ..

i

iii xbxwyts

i

ibwCw 2

, 21min

iii

i

yxts

0 ,0C .. i

ji i

ijijijiaxxyy

i ,)()(

21min

Page 53: Support Vector Machines

Kernel Trick (1/ 2)• The linear classifier relies on inner product between vectors K(x I , x j)= <x I ,x j>.

• If every data point is mapped into high‐dimensional space via some transformation Φ:  x → φ(x), the inner product becomes:

K(x I , x j)= <φ(x I ),φ(x j)>.• A kernel function is some function that corresponds to an inner product in some expanded feature space.

• We can find a function such that: – K(< xi , x j >) = <(xi) ,(x j)>, i.e., the image of the inner product of the data is the inner product of the images of the data.

SVM Tutorial 53

Page 54: Support Vector Machines

Kernel Trick (2/ 2)• Then, we do not need to explicitly map the data into the high‐dimensional space to solve the optimization problem (for training)

• How do we classify without explicitly mapping the new instances? Turns out:– Optimal Hyperplane:

– Optimal b parameter: 

– Optimal ξ parameter: SVM Tutorial 54

1( ) , ) ( ,( )

l

i i i ii i SVi i

g a y bK a y K b

x x x x x

1 {( ) ( , )}u

u u ii SVu u

b n n Kn n

w x

max(0,1 ( ( , )) )i i iy K b w x

Page 55: Support Vector Machines

Kernels (1 / 5)Examples I

• 2D input space mapped to 3D feature space:  where      

SVM Tutorial 55

22

21

21

2 2)(),(),(

x

xx

x

K jiji xxxxx 2, Ryx

2 21 12

1 121 2 1 2

2 2 2 22 2

( ) 2 2

( ( ) ( )) ( , )

x yx y

x y x x y yx y

x y

x y k x y

Page 56: Support Vector Machines

Kernels (2 / 5)Examples II

2D input space mapped to 6D feature space:         x=[x1   x2];  let K(xi , x j)=(1 + <x I , x j >)2,Need to show that K(xi , x j)= < φ(x I) , φ(x j)>:K(xi ,x j)=(1 + <xi , x j >)2=                                                 1+ xi12xj12 + 2 xi1xj1 xi2xj2+ xi22xj22 + 2xi1xj1 + 2xi2xj2 = [1  xi12  √2 xi1xi2   xi22  √2xi1  √2xi2]T [1   xj12  √2 xj1xj2   xj22  √2xj1  √2xj2] = 

= < φ(xi) , φ(x j)>where φ(x) =  [1  x12  √2 x1x2   x22   √2x1  √2x2]

SVM Tutorial 56

Page 57: Support Vector Machines

Kernels (3 / 5)

• Which functions are kernels?• For some functions K(xi , xj) checking that 

K(xi, xj) = <φ(xi) ,φ(xj)> can be easy. • Is there a mapping (x) for any symmetric function K(x , z)? No

• The SVM dual formulation requires calculation K(xi , xj) for each pair of training instances. The array Gij = K(xi , xj) is called the Gram matrix.

SVM Tutorial 57

Page 58: Support Vector Machines

Kernels (4 / 5)

• There is a feature space (x) when the Kernel is such that G is always semi‐positive definite (Mercer Theorem)– A symmetric matrix A is said to be positive semi‐definite if, for any non 0 vector x : 

SVM Tutorial 58

K(x1,x1) K(x1,x2) K(x1,x3) … K(x1,xl)K(x2,x1) K(x2,x2) K(x2,x3) K(x2,xl)

… … … … …K(xl,x1) K(xl,x2) K(xl,x3) … K(xl,xl)

K=

0Tx Ax

Page 59: Support Vector Machines

Kernels (5 / 5)

• Linear: K(xi,xj)= <xi,xj >– Mapping Φ:    x →  φ(x), where φ(x) is x itself.

• Polynomial of power p: K(xi,xj)= (1+ <xi, xj>)p

– Mapping Φ:    x →  φ(x), where φ(x) has         dimensions.

• Gaussian (radial‐basis function): – Mapping Φ:  x→  φ(x), where φ(x) is infinite‐dimensional.

SVM Tutorial 59

p

pn

2

2

2ji )x,K(x

ji

exx

Page 60: Support Vector Machines

ConclusionsNeural Networks

• Hidden Layers map to lower dimensional spaces

• Search space has multiple local minima

• Training is expensive• Classification extremely efficient

• Requires number of hidden units and layers

• Very good accuracy in typical domains

SVM Tutorial 60

SVMs• Kernel maps to a very‐

high dimensional space• Search space has a 

unique minimum• Training is extremely 

efficient• Classification extremely 

efficient• Kernel and cost the two 

parameters to select• Very good accuracy in 

typical domains• Extremely robust


Recommended