ESL Chap3 — Linear Methods for Regression Trevor Hastiehorebeek/epe/rosset2.pdf · ESL Chap3 —...

Post on 09-Jun-2020

9 views 0 download

transcript

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Linear Methods for Regression

Outline

• The simple linear regression model

• Multiple linear regression

• Model selection and shrinkage—the state of the art

1

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Preliminaries

Data(x1, y1), . . . (xN , yN ).

xi is the predictor (regressor, covariate, feature, independent variable)

yi is the response (dependent variable, outcome)

We denote theregression functionby

η(x) = E (Y |x)

This is the conditional expectation ofY givenx.

The linear regression model assumes a specific linear form forη

η(x) = α + βx

which is usually thought of as an approximation to the truth.

2

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Fitting by least squares

Minimize:

β0, β = argminβ0,β

N∑i=1

(yi − β0 − βxi)2

Solutions are

β =

∑Nj=1(xi − x)yi∑Nj=1(xi − x)2

β0 = y − βx

yi = β0 + βxi are called the fitted or predicted values

ri = yi − β0 − βxi are called the residuals

3

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

•• •

••

• ••

• •

••

••

••

••

••

•• ••

• ••

•• •

••

• ••

• •

••

• •••

X1

X2

Y

Figure 3.1: Linear least squares fitting with X ∈ IR2.

We seek the linear function of X that minimizes the

sum of squared residuals from Y .

Figure 3.1 - view of linear regression inIRp+1.

4

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Standard errors & confidence intervals

We often assume further that

yi = β0 + βxi + εi

whereE (εi) = 0 andVar (εi) = σ2. Then

se (β) =[

σ2∑(xi − x)2

] 12

Estimateσ2 by σ2 =∑

(yi − yi)2/(N − 2).

Under additional assumption of normality for theεis, a95% confidence

interval forβ is: β ± 1.96se(β)

se (β) =[

σ2∑(xi − x)2

] 12

5

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Fitted Line and Standard Errors

η(x) = β0 + βx

= y + β(x− x)

se[η(x)] =[var(y) + var(β)(x− x)2

] 12

=[σ2

n+

σ2(x− x)2∑(xi − x)2

] 12

6

ESL Chap3 — Linear Methods for Regression Trevor Hastie

••

••

••

••

• ••

•••

••

••

• ••

••

••

••

X

Y

-1.0 -0.5 0.0 0.5 1.0

02

46

Fitted regression line with pointwise standard errors:η(x)± 2se[η(x)].

7

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Multiple linear regression

Model is

f(xi) = β0 +p∑

j=1

xijβj

Equivalently in matrix notation:

f = Xβ

f is N -vector of predicted values

X is N × p matrix of regressors, with ones in the first column

β is ap-vector of parameters

8

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Estimation by least squares

β = argmin∑

i

(yi − β0 −p−1∑j=1

xijβj)2

= argmin(y −Xβ)T (y −Xβ)

Figure 3.2shows theN -dimensional geometry

Solution is

β = (XT X)−1XT y

y = Xβ

Also Var (β) = (XT X)−1σ2

9

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Here are someadditional notes (linear.pdf)on multiple linear regression,

with an emphasis on computations.

10

ESL Chap3 — Linear Methods for Regression Trevor Hastie

The Bias-variance tradeoff

A good measure of the quality of an estimatorf(x) is the mean squared

error. Letf0(x) be the true value off(x) at the pointx. Then

Mse [f(x)] = E [f(x)− f0(x)]2

This can be written as

Mse [f(x)] = Var [f(x)] + [E f(x)− f0(x)]2

This isvarianceplus squaredbias.

Typically, when bias is low, variance is high and vice-versa. Choosing

estimators often involves a tradeoff between bias and variance.

11

ESL Chap3 — Linear Methods for Regression Trevor Hastie

• If the linear model is correct for a given problem, then the least

squares predictionf is unbiased, and has the lowest variance among

all unbiased estimators that are linear functions ofy

• But there can be (and often exist) biased estimators with smaller

Mse .

• Generally, byregularizing(shrinking, dampening, controlling) the

estimator in some way, its variance will be reduced; if the

corresponding increase in bias is small, this will be worthwhile.

• Examples of regularization: subset selection (forward, backward, all

subsets); ridge regression, the lasso.

• In reality models are almost never correct, so there is an additional

model biasbetween the closest member of the linear model class and

the truth.

12

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Model Selection

Often we prefer a restricted estimate because of its reduced estimation

variance. Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 7

RealizationClosest fit in population

Estimation Bias

SPACE

Variance

Estimation

Closest fit

Truth

Model bias

RESTRICTED

Shrunken fit

MODEL SPACE

MODEL

Figure 7.2: Schematic of the behavior of bias and variance.

The model space is the set of all possible predictions from the

model, with the “closest fit” labeled with a black dot. The

model bias from the truth is shown, along with the variance,

indicated by the large yellow circle centered at the black dot

labelled “closest fit in population”. A shrunken or regular-

ized fit is also shown, having additional estimation bias, but

smaller prediction error due to its decreased variance.

13

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Analysis of time series data

Two approaches:frequency domain(fourier)—see discussion of wavelet

smoothing.

Time domain. Main tool is auto-regressive (AR) model of orderk:

yt = β1yt−1 + β2yt−2 · · ·+ βkyt−k + εt

Fit by linear least squares regression on lagged data

yt = β1yt−1 + β2yt−2 · · ·βkyt−k

yt−1 = β1yt−2 + β2yt−3 · · ·βkyt−k−1

... =...

yk+1 = β1yk + β2yk−1 · · ·βky1

14

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Example: NYSE data

Time series of 6200 daily measurements, 1962-1987

volume — log(trading volume) —outcome

volume.Lj — log(trading volume)day−j , j = 1, 2, 3

ret.Lj — ∆ log(Dow Jones)day−j , j = 1, 2, 3

aret.Lj — |∆log(Dow Jones)|day−j , j = 1, 2, 3

vola.Lj — volatilityday−j , j = 1, 2, 3

Source—Weigend and LeBaron (1994)

We randomly selected a training set of size 50 and a test set of size 500, from the

first 600 observations.

15

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Trevor Hastie Stats315a January 15, 2003 Chap3: 16

NYSE data

volume ••

•••••• •

• ••••• •

••

• •••

•••

• ••••

•• •

••••

•••••

••••

••• •

•••••

•••

••

••••• ••

••

••

••• •• •

• •••• ••

••• ••••

• ••

• ••• •• •••

• •••

••

•••• ••

•• •

••

•••

••

-2 1

••

• ••••••

• •• ••••

••

• •••

••••• ••

•••

•••

••

••••

•• • •

••• ••

••••

•••

••

••••• •••

••

•••• •••• •

••• ••

••

• ••

• ••••

• ••• •• •••

•••

•••

•••

• •••

•••

••

•• •• •

••

• ••••

••• •• •

••••

••••

•••

•• ••

••

•••

•••••••••

•• ••

••• ••

•••

••

• ••

••• •

••• •••

•••••• •• •

•••

••• •

••• ••• ••• •

• ••• •••••

• • ••

••

••

•• •••

•••

••

• ••••

-2 1

••

•••••••

• ••••••

••

• ••

•••

••••

••

•••

•••

••

••••

••••

•••••

•••••

•••

••

• ••••• ••

•••

••• • •••••••• •

••••

••••••

• • ••• ••• •

•••

•• •

••

•••••• •

••

•••••

••

•••••

•••• ••

•••

••

••••

••••• •

••

•••

• ••

••

•• ••••••

••• ••

•••••••

••

••••• ••

•••••••• ••••

•• • ••

••

•••

• ••• •

•• •••• •••

••••••

••

••• ••••

•••••••

-1 2

••

•••

• •••

•• •••••

••• •••

• •••• •

••

•• •

•••

••• •••• •• •

•••••

•••

••

•••

••••

•••••••••

•• ••• •• ••

••••

••

• ••

•••••

••• ••••••

• •••••

••

•• ••

•••

••

• ••••

••• ••• •

••• •••

•••

••

•••

•••

•• ••

••

•• •• •

••

••••

•••••

••• ••

•••••

•••

••••

••• •••

••

••• •• ••• ••• • ••

••

•••

•••••

•• •••••••

•••

•••

••

••••

•• •

••

•••••

-1 1

••

•• •••••

••••

••••

•• •

••

•••• ••

••

•••

•••

•••••

•••• •

••• ••

•••

••

•••

••••

••• •••

•••

•• •• ••••••• ••

••

•••

••• ••

•• •• • ••••

•• ••

••

••

•• •••••

•••••••

••

•••

••••

• ••••

•••

•• •••

•••• ••

••

•••

•••

••

• •••• •••

•••••

•••

••

•••

••••

••• •••

•••

•••• ••

•••

••• •

••

•••

• ••••

• ••• •• •• •

••••••

••

••••

•• ••

••

•••••

-1 1 3

••

• ••• •••• •••

••••

•••••

•••

• ••••

•••

•••

••

•••••• ••

••••

• ••

•••••

••

•••• •• •

•••

••

••• ••• •

••• ••

••

•••

•••••

•• •• •• •••

•• ••••

••••••

••••

••

•••••

••

• ••• •••• •••

••••

•• ••

•••

•• ••••

••••••

••

• ••••• ••

•• •••

• ••

•••••

••

•••• •• •

•••

••

••• ••• •

••• ••

••

•••

•••••

•• •• •• •••

•• ••••

••••••

••••

••

•••••

-2 0 2

••

• ••• •••• •••

••••

•• ••

•••

•• ••••

•••

•••

••

•••••• ••

•• •••

• ••

••

•••

••

•••• •• •

•••

••

••• ••• •

•••••

••

•••

•••••

•• •• •• •••

•• ••••

••

••••

••••

••

•••

•• -0.40.00.4

••••• • •••• • •••••

••

•• ••••

•••• •

• ••••• •

•••• •••••••

•• •

•••• •

••••

•••

••• ••

• •• ••

•••••

•••••• • •• •••

•••

••••••

••

••

••

••• •••

••• •

•• •

•• •

•••

•• •

-202

volume.L1 ••• •••• ••• •• ••••

••

•••••

••• •• •

•••••• •

••••••• • •• ••

•••••••

•• •••

•••

••• ••

•••••

•••••••••

••• • ••• ••••

••

••••

••

••

••

••••

••

••••

•••

•• ••

••••

• • ••• •• •• ••• •• ••

•••

•• •

•••

•••• ••••

•••••••• ••• ••••

•• •••

•• •• ••

••

•••

••• ••

••••••• ••

••••

••• ••••• ••• •

••

••••

•••

••

••

•• ••

••

••• •

•••

•• •

•• •

••• •• ••••• ••

• ••••••

••

•••

•••

••• ••

••• •• ••

• •••••••••••

• ••••••

••••

•••

•• •••• ••••• •••••••

•••••

•• •••••

••

• •••

•••

•••

••

•• ••

• •

•• ••

•••

•••

•••

••• • • ••• •••• •• •••

••••

••• ••••

• •• •• ••

• •• •• •• •••••••••

••••••••• •••

•••

• •••••••••• •• ••

•• ••

••• •• •• •••

••

•• •••

••

•••

••

••••••

••• •

• ••

•• •

•••••• •••• •• ••••• •• •

•••

•••• •••

• • •••• • •• ••

•• •••• •• •••••••••• ••••

••

•••

••••••••• ••• •••

• •••

• ••• •• ••••

••

•••

••••

••

••

••••••

••••

•••

••••

•• •

••• ••• ••• •••

• ••• •••

••

•••

•••

••• ••

•••• •••• ••••••••

•••

•••••• ••• •••

•••

• ••••••

•• •• ••••

•• ••

•• •••• •••••

••

• ••••

••

••

••

••• •

••

•• ••

•••

••••

•••

••• •• •• •••••••

••••••

••• ••••

••••••• •• ••

• ••••••• •••••••••••

•• •••

•••

• ••••

•••• •• •••••••

••• ••• •••

• •••

•• ••••••

••

••

•• ••••

•• ••

•••

•• •

•••••• •• ••• ••••

• ••• •••

••

••• ••••

••• •••

• •• •••• •••• •••

•••••••• ••

•• ••

•••

• ••••••

•••• •••

•• •••

•• ••• •• ••••

••

••••

••

••

••

••••••

•• • •

•• •

••• •

•••

••• •• • ••• •••• •••

••••

•• •

•••

••• ••

• •••• ••

• •••••• ••• •

•••• •

• ••••••

•••

•• •••••

•••• •••

•• ••

••• ••

• •••••

••

•• •

•••

••

••

••

•• ••••

•••••••

•• •

•••

••• •• • ••• •••• •••

••••

•• •

•••

••• ••

• •••• ••

• • ••••• ••••

•••• •• ••

••••

•••

•• •••••

•••• •••

•• ••

••• ••

• •••••

••

•• •

• •••

••

••

•• ••••

•••••••

•• •

•••

••• •• • ••• •••

• ••••

•••

•• •

•••

••• ••

• •••• ••• •••••• ••

•••

••• •• ••

••••

•••

•• •••••

•••• •••

•• ••

••• ••

• •••••

••

•• •

•••

••

••

••

•• ••

••

••• ••••

•• •

•••

•••

••••• •

•••

•• ••• •••

••• ••

• • •••

•••

••

••

••

•••• •••

•• ••

• •••

•• •••• ••

••••

••••

•••• ••••

• •• •••

••

• ••• •••

••••

•••••

••

••

••

•••• ••• •• •••

•• •

••••

•••

••

•••••••• •

••••• • ••

••• ••

• •• •••••

• •

••••

•••• •••

•• ••

• ••

••••••

• ••••

••• ••

•••

••••••••

••••

••••• ••••

• •••

•••••

••

••

••

•• •• ••• •• •••

•••

• •••

•••

•• volume.L2 ••

••• ••••

••• •• •• •

••• ••

• •• ••

•••

••

•••••••• •

••••••

• ••

••• •• •

• ••• •

••• ••

•••

•••••• ••

• •••

••

• •• •••

••• •

••

••••

••

••

••

•• • •••• • ••••

•••

••••

•• •

••

•••••••••

••••••• •

•••••

•• •••

•••

••

••

••• •••••••••••

• ••••••••

• ••• ••••• ••

••••••

• •••

••••

••••••••

••••

••

••••

••

••••

••• ••• • •••• ••

•••

• •• •

•••

••

• ••

•• ••••

•• •••

•••

•• •• •

•••••

•••

••

••

••

• •• ••••••

•••

•••••••••

•••••

••• ••

•••••••• •

• •••

• ••

•••

•• ••

••• •

•••

•••

•••

••••••••••••••••

•••

••••

•••••

•••• ••

•••

•• •• ••••

•••••

••••••

• •• •

••

•••• •••

• •• •

•••

•••••• •••

•• •••

••••••••••• •••

••••••

••

••• •••••••

•••

• ••

••

••

••

•• •••••••••••

•••

••••

•• •

••

•••

••• ••••••• ••••

•• •• •• •• •

••••

• •

••

••

• ••••••••••

•••••• •••

•••••

••• •••

••••• •

• •••••

• ••

•• •••• •

••••

••

••••

••

••

••

•••• ••• •••• •

•••

• •••

•••

••

•••

• ••••••••••

•• •

•••• •

••• •••

• •••

••

••

• ••••••• ••••

••••••••••••

••••

• •••

••••• •

• •••

••••

••

• ••• •

••• ••

•••

•••

••

••

••

••• •••••••• •

•••

••••

•••••

•••

•• ••••

•••• ••••

•••• •

••• ••

•• •

••

••

••

•• •••• •

•••••

••••• ••••

•••••

••• •••

••• •••• •••••••

••

• ••• •

•••••

••

••••

••

••

••

••••••••••• •

•• •

• •• •

•••

••

•••

••••

•••

••• ••••

••• • •

• •• ••

•••••

••

••

• ••••••

•••••

•••

•• ••••

•••••

•••• •

•••

• •••• •••

••••

••• ••• ••

•••••

••

•••

••

••

••

••• •••• ••••••

•••

••••

•••

••

•••••• •

•••

••• ••• •

••• • •

• •• ••

•••••

••

••

• • •••••

••••

•••

•• ••••

•••••

•••• •

•••

• •••• •••

••••

••• ••• ••

•••••

••

•• •

••

••

••

••• •••• ••••••

•••

••••

•••

••

•••••• •

•••

••• ••••

••• • •

• •• ••

•••

••

••

••

• ••••••

••••

•••

•• •• ••

•••••

•••• •

•••

• •••• •••

•••••

•• ••• •

••

••••

••

•••

••

••

••

••• •••• ••• ••

•••

••••

•••

••

-202

••••

•••••

•• •

••

•••

•••••

••

••• ••••

••• • •••

• ••••• •••• •••

••

••

••• •

••••

•• ••

• •• ••••• ••

••••

•• •• ••

••••

•• •••

••

••

•••

•••

• ••••

• •••

•••

••••

•-2

0

2••

•••••• •

•••

••

• ••

•• •••

••

•••••• •

•••••••• •••

•• •••• ••

••

•••

•• •••••

•• ••

••••••• •• •

•• •••

•• •••••

••

•• •

•••

• •

••

••• ••

•• ••••

••• •

•••

••••

•••

• •••

• •••

••

••••

•• •••

••

• •• ••••

••• ••••••••

• •• ••

••••

••

••

••• •

••••

•• ••

•••••

•••• ••

•• ••

•• • •••

••••

•• •••

• •

••

••••••••••

••••

•••

•• •••

volume.L3 ••••••

• •••

••

••••

•• •••

••

•• •••••

•• ••• ••

•••••••••

• •••

••

••

••••

••••

• •••

• ••••• •••••

••••••••• •

• ••

••

• •••

••

•••

•• •

•••••• •

••• •

• ••

••• ••

• ••••

••••

•• •

••

•••

• •• ••

••

• •• ••••

••• •• ••

••••••••••••

••••

••• •••••

••••

•••••• •• ••

• • ••

•• •• ••

•••

••

•• •••

• •

•••

••••••••••

••••

••••••••

••••

••

••••

• •

••••

•• •••

•••

• • •• •• •

•• •••• •••• •

• ••••••••

••

••

•• ••

••••

••••

•••• ••• •• ••

••••

••• •• •

•••

••

••• ••

••

••

••••••

••••

••••

•••

• ••••

••• •••

••••••

••••

• •• ••

••

•• •••• •

••••• ••

•••••••••

••••

••

••

••• ••••••••

•••• •• ••• •

• • •••

•••• •• ••••

•••••

••

••

••• •••

••• ••

••• •

•••

••• ••

•••• •

•••••••

••

•••

• • •••

••

•••• •••

•• •• • ••••••

• ••••••••

••

••

••••••••

••••

•••• •• ••••

•• ••

•••• ••

•••

••

•• •••

••

••

•• •

•••••• •

••••

••••••••

••••

••

••••

••

••

•••

•• •••

•••

••• • •••

•• •••• •

••• ••••••

••••

••

••

••••

••••

••••

•• •••

• •••••

••••

•••• ••

••••

•• •

•••

• •

••

••••••••• •

• •• •• ••

•••••

••• •••

••••

••

••

•••

•••••

••

•• •••

••

•• ••• ••••••••• •

•••• •

••••••• •

••• •• ••

•• •••

• ••• ••

•• •••

••• ••• •

••

••••••

• •

••

•• •

••••••••

••••••

•••• •

•••• •••

••••

••

••

•••

•• •••

••

•• •••

••

•• ••• • ••••••••• •

••• •

••••••• •

••• •• ••

•• •••

• ••• ••

•• •••

••• ••• •

••

••••••

• •

••

•• •

••••••••

••••••

•••• •

•••• •••

••••

••

••

•••

•• •••

••

•• •••

••

•• ••• •••••••••• •

••• •

••

••••• •

••• •• ••

•• •••• ••• ••

••••

•••• ••

• ••

••

•••••

• •

••

•• •

••••••••

••••••

•••

• ••

••

••• ••

•••

•••• ••

• ••

•••

••

••

•• •• •

•••

•• ••

•• ••••• ••••

••• •• ••••

•• ••••••

• • •• •• •••

•• •• ••••

•• • •• •

••

••• ••••••

•••

•• • •••••

••

•• •••

••• ••••• •

••• • ••

•••••• •

•••• • •

• ••

•••

••

• •

•••••••••••

••• ••••• ••••••• •••••••

• ••••••• • ••••••

•••• ••••

••••••

••

• •• ••

••••

•• •

•• • •••• •

••

•• •••

• •••• ••• •

• ••• ••

• ••••••

•• ••••• •

•••••

••

•• •••

••

••

•••••••• • •• ••

•••• •••

•• ••• •••••

•• • ••••••

••

•• •••••

••• •••

••

••• ••

••••

•• •

•• • •••••

•••••••

• ••••••• •

• •• • ••

• •• ••••

•• •• ••

•••

•• •••

• •

•• •••

••

••••••• ••• •••••

•••• •• •

• •••

•• •••• •• • •••••

•••••• •••

•• ••••

••

••• ••

••••

•••

•• • •••• •

••

• ••••

• ••••••• •

••••

retd.L1 ••

••• •

•••

•••• ••

• ••

• ••

••

••

•• •• •

••

••

•••

• ••••••••• ••••••

••• ••• ••••• •

••••••••

••

• •••• ••

••• •• •

••••

••••

•••

•• •

••• ••••••

••••••

•• •••••••

•••• •

••• ••

•••

••• •••

•••

•••• •

••

••• •••

••

•••

••••• •• •••••

••••• ••••

••••••

•••• •••••

••

••• •• •••

• •••••

••••

•• ••

• ••

•••

•••••

• • ••

••••••

• ••••••• •

•••• •

•• ••• •

•••

••• •••••

• ••

••

• •

••••••

••

•••

••••••••••• ••••••

••• ••• ••••• ••• •••••

••

••• ••• •

•• ••••

••

•••• •

••••

•••

•••••

••••

••

•••••

•••••••• •

•• •• ••

••••

••••

•••• •••••

•••

••

• •

••• •••

••

•• •

••••••• •••• •

••••••

•• •••••••

••

••••••••

••••••••

•• ••• •

••• •• ••

••••

•••

••••• ••••

••••••

• ••••••••

•••• •

•••• •

•••

••• •••

• ••

•••

••

• •

•• • •••

••

•••

••••• •••••••

•••• •••• ••

•••••• •••••• •••

••

•••• •••

•• ••• •

••••• ••••••

•• •

•••• •

••••

•••••••

••• •• •• ••

•••• •

•• ••••

•••

•••

•••••

•••

••

• •

•••• •••

••

•••••••• ••• •••

•• •• ••••••

• •••• ••

••••• •••

••

•• •• •••

•• ••• •

••

••• ••

••••

•• •

•••• •

••••

••

•••••

•••• •••••

•• •• ••

• ••• •

•••

•••

•••••

•••

••

• •

•••• •••

••

•••••••• •••• •

••• •• ••

••••

• •••• ••

••••• •••

••

•• •• •••

•• ••• •

••

••• ••

••• •

•• •

•••• •

••••

••

•••••

•••• •••••

•• •• ••

• ••• •

•••

•••

•••••

•••

••

• •

•••• •••

••

•••••••• •••• •

••• •• ••

••••

• •••• ••

••••• ••••

••• •• ••

•• ••• •

••

••• ••

••••

•• •

• ••• •• ••

••

••• ••

•••• •••••

•• ••

-202

•••

•••••

• •••••• •

•• •

•• ••

•• •••• •

•• ••

•• ••••• •••• •

•• •• ••••

•••

•••••• •

•• •• •••••

••••

•••

••

•••

••••

• •• •••• ••

• •• • •• •••• ••• •• ••

••

•••••

• ••••• •-1

1 •••

•••• •

••••••• •

•• •

••• •••••

• ••

•••

•• ••••• •••• •

•• ••••••

•••

•••••• •

••••••

•••• •

•••

•••

• ••

••• •

• •• ••

•• ••• •

• • •• •• •• ••• •• ••••

••• •

• ••• ••• •• •••

• •••

•••••

•• ••

•••

••••

•• ••

•• •

•••

••••• •

•• ••••

•• ••••••••

•••••

•• ••••••• ••

•• •

•••

••

••

• ••

••••

• •• ••

•• ••• •

• • •• ••••••••••••

••

••••

• ••• •• • •• •

••

• •••

•• •••

• •••

•• •

••• ••

• •••• •

••••

•• ••• •••••• ••• •• •• •

•••

•••••

•• ••••••

••••••

••••

••

• ••

••••

• •• ••

•• ••• •• • •• •• • •••• • ••••

••

••••

• •• •••• •••

••

• •••

•••••• ••

•••

•• ••

••••

•••

•••

••••••••••

• ••••••••

•••

•••••

• •••• •••

•• •

•••••

••

•••

•••

•• ••••• •

•••• •••

••••••• ••• • ••••

•••

••• •

•• ••• •• retd.L2 •••

••

••••

• •• •••••

•••

••••

••• •

• ••

•••

•••• •••••••••••• •••

•• •

•••••

•••••••••

•••• •• ••

••

••

• ••

••••

•• ••••• ••

• •••••• • •••••••••

••

••••

• •• •••• •• •••

••••

••• •••••

•••

••• •

••••

• ••

•••

••••••••••

•••••• •••

•••

•••••

••••••••

•• ••

• •••

••

••

•••

•• •••• •••••••• ••••••••• ••• ••••

•••

••• •

• • ••• •• ••••

•••••

•••••

• •••

•••

••• •

••• ••••

•• •

••••••

••••••••••••••

•••

•••••••

••••••

• ••

••••

••

••

•••

••• •• ••••

•• • •• •

•••• ••• •••••••••

••

••••

•••••• •••

••

••••

••• •••• •

•••

••• ••

• • ••••

•••

•••• ••••••••••• ••••

•••

••••••••

••• •••• ••••

• ••

••

••

•••

••••• •• ••

••••••

• •• • ••••••••••••

••

••• ••

•• ••••• •• ••

••••

••• ••••••

•• •

••• •

•••••••

•••

••••• ••• ••

••• •• ••••

•••

•••• •• ••

••• •••• ••

• •• •

••

••

•••

•• ••• •••

•••••

••••• • ••• •••• ••••••

•• ••

•• ••• •• •• ••

••••

••• ••• ••

•• •

••• •

••••

•••

••••

••••• •••• •

••• •• ••••

•••

•••• •• ••

••• •••• ••

• •• •

••

••

•••

•• ••• •••

•• •••

••••• • ••• •••• ••••

•••

•• ••

•• ••• •• •• ••

••••

••• •••••

•• •

••• •

••••

•••

•••

••••• •••• •

••• •• •• ••

•••

•••• •• ••

••• •••• ••

• •• •

••

••

•••

•• ••

• ••••

••••••

••• • • •• •••• ••• ••

••

•• ••

•• ••• ••

••••

•••••••

• ••• •••• ••

• • ••• •

••

••

•• ••

•• ••

••

• •••• ••• ••

•••• •• ••••••• • •• •

• ••••• •

• •••••

• •••

•••••

• •• •••• ••

•• ••• ••

•• ••• •• ••• •

•• ••• •

••

•••• • ••

•••

•• •••••

• • •• •• •• ••• ••

••••

••••••••

•• ••••• ••• • ••• •

••

••• •• ••••• •• • •••

••• ••••

•••• ••••• ••••• •• •• •

••• ••

•• ••• ••

•• ••• •• ••••

••••

•••

••

• ••• ••• ••

• ••••• ••••• •• ••••

••• •• ••

••

••

••••

••••

••

•• •• •••• ••

••• ••

• ••••• •• • •••

••• •

•••

•••• ••

••• ••

• •••• •• •••• ••

•• ••• ••

•••••••••••

••••

• ••

••

• •• • ••• •

• ••••

• •• •• ••••• ••

• •••• ••

••

••••••

•• •••

••••• • ••• •

••

• •• ••• •••• •• • •••

••• •

•••• ••••

•• •

• ••• •••• •• •••• ••

•• ••• ••

• •••• • •••• •

••••

• ••

•••••• ••

•••

• ••••

••••• ••• •••••• •• •••

••

••

••• •

••••

••••••• ••••••

••• ••• ••••• •••••

••• •

•••

••••••••••

••• ••

••• •

•••• •

• ••••••• ••• • •••• ••

••••

•••

••

•• •• • •••

••• ••••• ••• • •• ••

•••••• •

••

••

••• •

••••

••

•••• ••••••••• ••• ••••• ••••••

•••••

• •••• • ••

••••

•• •••

•••• •••••

••• •••••••••••••• •

••••• •

••••••• retd.L3 ••

• ••

••• ••

••••••• •• •••

• ••• •••

••

••

••• •

•••••••••• ••••••

••• ••• ••••• ••• •••

••••

•••••• • ••• ••••

•• ••••

•••••••

•••• ••••• ••• •••• ••

••••

•••

••

•• •• •••••

•••••

••• •• •• • •••

••••••••

••

••

•• • •

••••

••

•••• •••••••

•• •••••••• ••••••

•••••••

•••• ••

• •••

•••• •

• ••• ••• • •

••••• ••• •••••••• ••

••••

• ••••

•••• ••••

•••••

•••••• •• •••

••••

•• ••

••

••

••••

••••••

••••••••• ••

•• •••••••• ••••••

••••

••••• ••••

• •••

•• ••

• •• •

•••••

•• •• • •••••••••• • •

•• ••

•••

••

•••• ••• ••

•••••

••••••••

•• ••

• ••• •••

•••

••

•• •

••••

•••• ••••• •••

•••••• •••• •• ••••

••••

•••

•• •• ••• •••

••• ••

• ••••••••

•••• • ••• •••• ••••••

••• •• •

••

••• •• ••

• ••

•••••

••••• •••

•• ••

• ••• •••

•••

••

•• •

••••

••••• •••• •••

•••••

• •••• •• •••••

••••

•••

•• •• ••• •••

••• ••

• ••••• •••

•••• • ••• •••• ••••••

••• •

• ••

••

•• •• ••• ••

••• ••

••••••••

•• ••

• ••• •••

•••

••

•• •

••••

••••• •••• •••

•••••

• •••• •• •••••

••••

•••

•• ••••

• •••

••• ••• •••

•••••

• ••• • • •• •••• ••• •• •

••• •

• ••

••

•• ••-202

••••• •

•••

• •

••• ••• •

••

••

••

• ••

•• •

• ••

••• • •

• •••• ••••

••• •• •••• •• •

•••••

• •••

•• •

••

•• •••

••• •• •

••

••• •••••• ••••

• • •• ••••

••

••• ••

••• ••• •

••

••• •

-1

1•••

••••••

• •

••• • •• •

••

••

••

•••

•••

•••

•••••

• •••• ••••••• •••••

• •• •••••

•• •

•••••

••

•• ••

•••• ••

••

••• ••

•••• •• •

•• • •

• •• ••

••

••• ••

• ••••••

••

• ••• •••

•••

• ••

• •

• ••••

• •

••

••

••

•••

•• •••

••• ••

•••• •• •••••• •••••

••••••••

•• •

•••••

•••

• •••

••• • •••

••

•• ••

•••• •• ••

• • •• ••••

••

•••••

• ••••• ••

• •• • •••

•• •• •

•• •

• •• ••••

•••

•••

•••

•• •

•••

•••••

• ••• •••••

••• •• •• •• ••• ••••

•• •

•••••

••••••

•••• •••

••

• • ••

•••• ••••

• • •• •• • •

••

•• •••

• ••••• •

••

•••• •• •

•••

• ••

• •

••••• ••

•••

•••

• ••

•••

•••

•• •••

•••••••••

••••••••

• ••• •••••

•••••••

••

••••

•••••••

••

••••

• •••• ••••••

•••••

••

•••••

•••••••

••

•••• • • •

•• •

•••

••

••• ••

• •

••

••

••

•••

•• •• •

••• ••

•••••••••

••••••••

••••

•••••

•••••••

•••

• •••

••• •• ••

••

• •••• ••••• •

••• ••••••

••

•••••

•• •••• •

••

•••• •••

•••••

•••

•••••••

••

••

• •

•••

•••

•••

•• •••

••• •• ••••••••• •••

•• ••••••••••••••

••

•• ••

• ••• ••

••••••

••• •• •••••••

•• • ••

••

•••••

• ••••••

••

••••

aretd.L1•• •

•••

•••••

••• ••

••

••

••

••

•••

••••••

•• •• •

••••• ••••

••••••••

••••

•••••

•••••••

••

••• •

••••• ••

•••• •

•• ••• • ••

••••

• ••• •

••

•••••

• ••••• •

••

•••• •• •

•• •••

•• •

•••••

• •

••

••

••

•••

•• •

•••

•• •••

••• •••••••••• ••••

•••••••••

••••• ••

••

•• •••

••••• •

••••• •

•••

•••• ••• ••

• ••••

••

•••••

••• ••••

••

•••• •• •

•••••

•• •

•• •••••

••

••

••

•••

•••

• ••

•• •••

•••• •• ••••• •• ••••

••••

••• ••

••••

• ••

••

•• •••

••••• •

••

••• •

•• ••••• •

••••• ••• •

••

•••••

•••• •• •

••

•••• •• •

•••••

•• •

•• •••••

••

••

••

•••

•••• •

•• •••

•••• ••• •••• •• ••••

••••

••• ••

••••

• ••

••

•• •••

••••• •

••

••• •

•• •• ••• •

••••• ••• •

••

•••••

•••• •• •

••

•••• •• •

•••

•••• •

•• •••••

••

••

••

•••

•••• ••

•• •••

•••• ••• •••• •• •• ••

••••

••• ••

••••

• ••

••

•• •••

••••• •

••

••• •

•• ••••• ••

•••• • •• •

••

•••• •

•••• •• •

••

••••

••••

• •••• •••••••

••

• •

• • •••••

• ••••

••••

• ••••• •••• ••• •• ••••

•• •••••

•• • •• •• •••

•••• •••

•••

•••

••

•••••

• ••••

••• •• •

•••• • •• •• ••

••

••

•••

• ••••• •

•••

•••••• •

••••••

••

• •

• ••••••

•• ••••

••••• ••••

• ••• •••• •••••

••• •••••

•• • ••••••

•• •

• ••••

••••• •

••

•• •• •• •

•••

•• • •• •

•••• • •• •• ••

••

•••• •

• ••• •••

••

•••• ••• •

• ••

•• ••

•••

•••• ••

••••

••

••••

•••• ••• •• •

••• •••••••• •••••

•• • ••••••

•••

• ••••

•••

•• •

••

•••• •• ••

•••• • •

• •••

•• ••••••••

•••••

• ••• •• •

••••

•• ••• •• •

•• •

•••• •

• •••••••••

•••

••••• ••• •

•••• •••• •• •• •

•••• ••••

•• • ••••••

•• ••• ••

•••

•• •

••

••• • •• ••

••••• •

• ••••• ••• • •••

••

•••••

• •• ••••

•••

••• ••• •••

•• •

••

•••

•• ••• •

••••

••

•• ••••••••••••••••••••

•••• ••••

• •••• ••••

•••

••••

••••••

••

• ••••• ••••

• ••••••••• ••• ••••

••

•••••

•• ••• ••

••

••

•••• ••••

••• •

••

••

•••• •••

• •••

••

•• ••••••••••• •

•••••••••

•• •••••

•••••••••

•••

•••••

•••

•••

••

••• ••••

•••

•• •••• •••••••••••

••

••

•••

••••••

•••

•• •••••

••••••

••

••

•••• • •

••• •

••

••• •••• ••

•••••••••• ••••• ••••••

••• ••••••

•• •

• •• ••

•• •

•• •

••

••••• ••

•••••• •••••

• • ••• •••••

••••

• •• ••••

••

••• ••• • •••

•••

••

•••

• •••• •

••• ••

••

•• ••

••••••••• •••••• •••

••• •••••

••• ••••••

•••

• ••••

•••

•••

••

• •••• •••••••• •

••• •••• ••••••

••

••

•••

• • ••• ••aretd.L2

••

••

••••• •••••••

••

••

••••••

••••

••

••• •••• ••

••••••••• ••••••••••••

•••••• •••

•••

••• ••

••••

••

••

•••• •

• ••

•••• ••• •• •

••••••••••

••

•••

•• •••••

••

••

• •••••

••••••••

• •

• •••• •

•• ••

••

•• ••

•••• ••• ••••• •• ••••••• •••• •

• ••••• •••

•••

• •• ••

••••

••

••

• ••• ••••

•••• ••

••• ••••••••••••

••

• ••

•• ••• ••

••••

• •••••

•••• •

••

•• •

• •••• •

•• ••

••

•• • •

•••• •••• ••

•• •• ••••••• •••• •

• ••••• •••

•••

• •• ••

••••

••

••

• ••• ••••

• ••• ••

••• •••••• ••••••

••

• ••

•• ••• ••

••••

• ••• • •••••••

••

• •

• •••• •

•• ••

••

•• ••

•••• •••• ••

•• •• •• ••••• •••• •

• ••••• ••••

••• •• •

••••

••

••

• ••• •••

•••

•• ••••

• •• •••• ••• •

••

••

• ••

•• ••• •• -1

1

••

••••••

•••••

• •••••••

• • •

••

•• ••

•• ••

•••

••• ••• •• •

• ••

• •• •••••• •

•• •

• •••

•• ••••••• •

•••••

•••• ••

•• ••

••

••• ••• •• •••

••

• ••• •

••

••• •-1

1

3

••

•••••• •

••••

• • •••• ••

• ••

•••••

••••

•••

••• ••• •••

•••• •• ••

•• •• ••••

••• •

••• •••••

•••

••• ••

•••• ••

•• ••

••

••• ••• •• •••• •

•••••

••

• ••• ••

• •••

• ••

••• •••••

•• ••

•••

••

••••

••••

•••

• ••• •• •••••

•••• •••• •• ••••

••• •

••• ••• •

•• •

••••••

••• ••

•• ••

••

•••••••••••

• •

•••• •

••

• •• • ••

• •••

• ••

••

• •• •• •

••••

• ••

••••

••

••••

•••

• ••••• •• •

• ••

• ••• ••••• •

•••

••• •

•••••• •

••••

•••• •

•••• ••

•• ••

••

•• •••• • ••••• •

•••• •

••

•••• ••

••••

• ••

••

••••• •

•• ••

•• •

•••••

••• •

•••

••••••••••••

• ••• •••

• •••• •

••• •

•••••• ••••

•• ••••• ••• •

• ••••

••• ••• • ••••

•••

•••••

••

•• •• • •

••••

••••

•••• •••• •• •

•••

••

•• ••

••• •

•••••

•••• ••••••

••• ••••

••••••

••••

•• ••• •••

• ••

•••• •

•• ••••

••• ••••

••••••••••

••

•••• •

••

•••• ••

•• ••

••••

•••••••

•• ••

•••

••

• •••

••••

•••

•••••••••

• ••

•• •••••••• •••

••••

••• ••••

•••

••••

•••• ••

•••••

••

•••••••••

• •

•••••

••

•••• ••

• •••

•••••

••••••

• •• •

• ••

•••••

••• •

•••••

•••••••• ••

••• ••••

••••••

••••

••• •• •••

•••

•• ••••

• • •••

•••••

•••• ••• ••••

•••

•••••

••

•• •• ••

•• •••••••

••• •• •• • ••

•••

••

• •••

•• • •

•••••

•••••••••

••••••••••••••

••••

•••• •• •

•••

••• ••

•• •• • •

•••••

••

• •••••••••

• •

•••• •

••

••••aretd.L3

••

• •••

••••

•••

••••••••

• ••

•••• ••

••• •

•••• •

•• •••••••

•••• ••

• •• •••••

••••

••• •••••

•••

•• •••

•• ••••

•••••

••

• •••• •••••••

•• •• •

••

•• •• ••

• •••

••••

•••

••• ••• ••

• ••

•••• ••

••• •

•••• •

••• ••••••

•••• ••

• •• •••••

••••

••• •••••

•••

•• •••

•• ••••

•••••

••

• •••• •••••••

•• •• •

••

•• •• ••

• •••

••••

•••

•••••• ••

• ••

••••

••

••• •

•••• •

••• ••••••

•••• ••

• •• •••••

••••

••• •••••

•••

•• •••

•• ••••

• •••

•••

• •••• ••• ••••

•• •• •

••

•• ••

••••• •

••••

••

•••••••• •

••

••••

• •••• ••

••

•••

•••••

•••• •••

••••• •••

•••••

• • •••

••••

••

•••

•••

• ••

•••

•••

•••••• ••

••• •

••

••

•• ••

••• ••• •••

••••

•••

• •••

•••••• ••

••

•• •••• •• •

••

••

•••••

• • ••••

••••••

••••

• • •••

••••• ••

••••

•• • ••

••• •

•••

••• •

••••

•••

• ••

•••••• ••

••• •

••

••

•• •••

•• •••• ••

• •••

••

•••

•••

••••

•••

••

•••• •• •••

••

•••

•• ••

•• •••

••

••••••

• •• •• ••••

•••• •••

•••••• • •••

••• •

•••

•••

•••

• ••

••

••••

•••

••• •••

•• ••

•••

••••••••••• ••

••••

••

•• •

••••• •••••

••

••• •

•••• ••

••

••

• •••• ••

•••

••••••••••

• • •••

••• •• •••

••••

•• • •••

••• •

•••

•••• ••

•••

••

••••

•••

••• •••

•• ••

•••

••••

•• •••• • ••

••••

•••••

••••••

••••

••

••• •

•• •••••

•••

••••

•• •••

••

•••••••••••• ••••

••••• ••

••••

••••••

••• •

••

••••••••

••

•••

••••

•••• ••

• ••••

••

••••

••••• ••••

• •• ••

••••

• ••

•• •••• •

••

•••• • •• ••

••

••

••

• ••••• •

••

••••••••

••• •••••

•••• •••

••••

•••••

••••

••

•• • •

••• •

••

•••

•••

••••••••••

••••

••••

•••••• •• •

••••

•••••

•••• ••

••••

••

•••••••••

••

••

•••• •

• • •••

••

• ••

•• •• •

••••••••

•••••• •

••••••• ••

•• ••

•••

•••

•• •

•••

•••••

•• •

•• •• ••

••••

••

• •

••••

••••••• ••

•••••

••

••••

••••••• •

••

••••

• •• •••

••

••

•••• •• •

••

••••••••••• •••••

•••• ••••

••••

••• ••

•• ••

••

•• • •••

•••

••

•••

•• •

•••••••

••••

•••

•• ••

••••• ••••

• ••••

••

••••

•• ••••••

••

••• •

• • ••••

••

•••• ••• ••

••

••••••

• •••• •••••

•••• ••••

••••

•••••

•• ••

••

••• •••

•••

••

•• ••••

•••• • ••

•••••

••

••••

••••• •• ••

••••

••

•••

•••

•• •••••

••

•••••• •••

••

••

••

• • ••• ••

••

• ••

•• •••

••••••••

•••• •••

•••••

•••••

••••

•••

•••

•••••

••••••

••••••••

••• ••

•••

••••••••• • •••

• •• ••

••••

vola.L1 •••••••

•••

••

••• •

•••• •

••

••

••

••••••••

••

• ••

•••••

•••••••

•••••••

••••

•••••

••••

••

•••

•••••

••

•••

•••

••• •••

••••

••

••

••••

•••••••••

••••

••

•••

•••••••

•• •

••

•••••••• •

••

••

••

••••••••

••

••••••

••••

•••••

•• •••••

••••

•••••

••••

••

••••

••••

••

•••

•••

••••••

•• ••

••

• •

••••

•••• •• •••

••••

••

•••

-2

0

2

••••• •

••••

••

••••••

••

••

••

•••

• •••• ••

••

•••

•••••

•••• ••• •

••••• •••

••••

• • •••

••••

••

•••

•••

• ••

•••

•••

•••••• ••

••• •

••

••

•• •••

•• ••• •••

••••

•••

• •-2

0

2••

•••••• ••

••

•• •••••

••

••

••••••

• • ••••

••••••

••••

•• ••

• •

••••• ••

••••

• • •••

••• •

•••

••• •

••••

•••

• ••

••

••

••••

••• •

••

••

•• •••

•• •••• ••

• •••

••

•••

••• ••••

•••

••

•••• •••

••

••••

•• ••

•• •••

••

••••••

• •• ••

•••• •

•••• •••

••••

• • •••

••• •

•••

•••

•••

• ••

••

••••

••

••

••••

••• •

••

••

••••••••••• ••

••••

••

•• •

••• •• •

••••

••

••• •

••••

••

••

•••

• •••• ••

•••

••••••••••

•• ••

• •

••• •• •••

••••

• • •••

••• •

•••

•••• ••

•••

••

••••

••

••

•• •••

•• ••

•••

•••••

• •••• • ••

••••

•••••

••••••

••••

••

••• •

••••

••

••

••

••••

•• •••

••

•••••••••••

• ••••

••••• ••

••••

•••••

••• •

••

••••••••

••

•••

••

••

•••

• ••

• ••••

••

•••• •••••

••••

• •• ••

••••

• •••• •

••• •

••

•••• • •

•••

•••

••

• ••••• •

••

••••••••

•••

•••••

•••• •••

••••

•••••

••••

••

•• • •

••• •

••

•••

••

••

•••

••••••

••••

•••••••••

• •• •

••••

•••••

•••• ••

••••

••

•••••••

••

•••

•••• •

• • •••

••

• ••

•• •• •

••••••••

•••••• •

••••

•• •••

•• ••

•••

•••

•• •

•••

•••••

••

••

•••••

••••

••

• •

•••••••••

•• ••

•••••

••

••••

• •••••• •

••

••••

• ••

••

••

••

••••

• •• •••

•••••••••••

•••••

•••• ••••

••••

•• •••

•• ••

••

•• • •••

•••

••

•••

••

•••••••

••••

••

••

•• •••••••

••••

• ••••

••

••••

•• ••••••

••

••• •

• ••

••

•••

•••• ••• ••

••

••••••

• •••••••••

•••• ••••

••••

•••••

•• ••

••

••• •••

•••

••

•• •••

••

•••• ••

•••••

••

•••••••••

•• ••

••••

••

•••

••••• •

••••

••

•••••••

••

•••

••

• • ••• ••

••

• ••

•• •••

••••••••

•••• •••

••••

•••••

••••

•••

•••

•••••

••••••

••

••

••••

••• ••

•••

•••••••••• •••

• •• ••

••••

••• •••

••••

••

•••••••

••

••

••

•••••••••

••

••••••

••• •••••

••

•••••••

••••

•••••

••••

••

•••

•••••

••

•••

••

••

•••••

••••

••

••

•••••••••••••

••••

••

•••

vola.L2 ••• •••

••• •

••

•••••••

••

••

••

••••

•••••

••

••••••

••••

••••••

•• •••••

••••

•••••

••••

••

••••

••••

••

•••

••

••

•••

•••

• •••

•• •

•••••••• •• •••

••••

••

•••

••••• •

••••

••

••••••

••

••

••

•••

• •••• •

••

••

•••

•••••

•••• ••• •

••

••• •••

••••

• • •••

••••

••

•••• ••

• ••

••

•••

•••

••• ••

•• •

••

••

••

••••••

••••••• •••

••

•• •

-0.4

•••••••• •••

••

•• •••••

••

••

••••••

• • ••••

•••

•••••

•••

• ••• •

••

••• •••

•••

• • •••

••• •

•••

••• •••

•••

••

• ••

••

•••

••

•• •

••

••

•••••

•••

••• ••• ••

••

••

•••

••• ••••

••••

••

•••• •••

••

••••

•• ••

•• ••

••

•••

•••• •

• ••

•••• •

••

•• ••••

••••

• • •••

••• •

•••

••• •••

• ••

••

•••

••

•••

••

•• •

••

••

••

••••••••

• •••• •• •••

•• •

-2 1

••• •• •

••••

••

••• •

••••

••

••

•••

• •••• •

••••

•••

•••••

•••

• ••• •

••

• •• •••

••••

• • •••

••• •

•••

•••• ••

•••

••

•••

••

••• ••

•• •

••

••

••

•••• •

•••• •••• •• •

• •

•••

••••••

•••••

••

••• •

••••

••

••

••

••••

•• ••

•••

•••

•••••

•••

• ••••

••

••• •••

••••

•••••

••• •

••

•••• ••

•••

••

••••

••

•••

• •

•••••

••

••

•• ••••• •

•••• •• ••

••

•••

-2 1

• •••• •

••• •

••

•••• • •

•••

•••

••

• ••••••

••

•••

•••••

•••

•••••

•••• •••

••••

•••••

••••

••

•• • •••

• ••

••

••••

••

•••

••

•••••••

••••••••••

•• ••• •••••

•••

•••• ••

••••

••

•••••••

••

•••

•••• •

• • ••

•••

• ••

•• •• •

••••••••

••

•••• ••

••••

•• •••

•• ••

•••

••••• •••

••

•••

•••

•••••

•••

••

• •

••

•••••

•••

• ••••••

•• •

•••

-2 1 3

••• •••

••• •

••

••••

• ••

••

••

••

••••

• •••

••

•••

•••••

•••

•••••

••

•• ••••

••••

•• •••

•• ••

••

•• • •••

•••

••

••••

••

•••••

•••

••

••

••

•••••

•• ••••• ••

••

••

•••

•••• ••

••••

••

••• •

• ••

••

•••

•••• ••• ••

••

•••

•••• •

••••••••

••

•• ••••

••••

•••••

•• ••

••

••• •••

•••

••

• •••

••

•••• •

•••

••

••

••••••••• •

• •••• •••••

•••

-1 1

••••• •

•••••

••

•••••••

••

•••

••

• • ••• •

••

••

• ••

•• •••

••••••••

••

•• ••••

••••

•••••

••••

•••

•••• ••••

••

•••

••

•••

••

•• ••

•••

••••••••• •

•••• •••

•••

•••

••• •••

••••

••

•••••••

••

••

••

•••••••••

••

•••

•••••

• ••

••• ••

•••••••

•••

•••••

••••

••

••• •••••

••

•••

••

•••••

•••

••

••

••••••••••••••• •••

••

•••

-2 0 2

••• •••

••••

••

••• •

•••

••

••

••

••••

•••••

••

• ••

•••••

•••

••• ••

•••••••

•••

•••••

••••

••

••• •••••

••

•••

••

•• •••

•••

••

••

••

•••••

•••••••• •••

••

•••

vola.L3

-2

0

-2 0

16

ESL Chap3 — Linear Methods for Regression Trevor Hastie

OLS Fit

Results of ordinary least squares analysis of NYSE data

Term Coefficient Std. Error t-Statistic

Intercept -0.02 0.04 -0.64

volume.L1 0.09 0.05 1.80

volume.L2 0.06 0.05 1.19

volume.L3 0.04 0.05 0.81

retd.L1 0.00 0.04 0.11

retd.L2 -0.02 0.05 -0.46

retd.L3 -0.03 0.04 -0.65

aretd.L1 0.08 0.07 1.12

aretd.L2 -0.02 0.05 -0.45

aretd.L3 0.03 0.04 0.77

vola.L1 0.20 0.30 0.66

vola.L2 -0.50 0.40 -1.25

vola.L3 0.27 0.34 0.78

17

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Variable subset selection

We retain only a subset of the coefficients and set to zero the coefficients

of the rest.

There are different strategies:

• All subsets regressionfinds for eachs ∈ 0, 1, 2, . . . p the subset of

sizes that gives smallest residual sum of squares. The question of

how to chooses involves the tradeoff between bias and variance: can

use cross-validation (see below)

• Rather than search through all possible subsets, we can seek a good

path through them.Forward stepwise selectionstarts with the

intercept and then sequentially adds into the model the variable that

most improves the fit. The improvement in fit is usually based on the

18

ESL Chap3 — Linear Methods for Regression Trevor Hastie

F ratio

F =RSS(βold)−RSS(βnew)

RSS(βnew)/(N − s)

• Backward stepwise selectionstarts with the full OLS model, and

sequentially deletes variables.

• There are also hybridstepwise selectionstrategies which add in the

best variable and delete the least important variable, in a sequential

manner.

• Each procedure has one or moretuning parameters:

– subset size

– P-values for adding or dropping terms

19

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Model Assessment

Objectives:

1. Choose a value of a tuning parameter for a technique

2. Estimate the prediction performance of a given model

For both of these purposes, the best approach is to run the procedure on

an independent test set, if one is available

If possible one should use different test data for (1) and (2) above: a

validation setfor (1) and atest setfor (2)

Often there is insufficient data to create a separate validation or test set. In

this instanceCross-Validationis useful.

20

ESL Chap3 — Linear Methods for Regression Trevor Hastie

K-Fold Cross-Validation

Primary method for estimating a tuning parameterλ (such as subset size)

Divide the data intoK roughly equal parts (typicallyK=5 or 10)

Train Train Train

5

TrainTest

21 3 4

• for eachk = 1, 2, . . . K, fit the model with parameterλ to the otherK − 1

parts, givingβ−k(λ) and compute its error in predicting thekth part:

Ek(λ) =P

i∈kth part(yi − xiβ−k(λ))2.

This gives the cross-validation error

CV (λ) =1

K

KXk=1

Ek(λ)

• do this for many values ofλ and choose the value ofλ that makesCV (λ)

smallest.

21

ESL Chap3 — Linear Methods for Regression Trevor Hastie

• In our variable subsets example,λ is the subset size

• β−k(λ) are the coefficients for the best subset of sizeλ, found from the

training set that leaves out thekth part of the data

• Ek(λ) is the estimated test error for this best subset.

• from theK cross-validation training sets, theK test error estimates are

averaged to give

CV (λ) = (1/K)

KXk=1

Ek(λ).

• Note that different subsets of sizeλ will (probably) be found from each of

theK cross-validation training sets. Doesn’t matter: focus is on subset size,

not the actual subset.

22

ESL Chap3 — Linear Methods for Regression Trevor Hastie

subset size

CV

err

or

2 4 6 8 10 12

0.06

00.

065

0.07

00.

075

••

••

all subsets

CV curve for NYSE data

• The focus is onsubset size—not which variables are in the model.

• Variance increases slowly—typicallyσ2/N per variable.

23

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

Subset Size k

Res

idua

l Sum

-of-

Squ

ares

020

4060

8010

0

0 1 2 3 4 5 6 7 8

•••••••

••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••

•••••••

•• • • • • • •

Figure 3.5: All possible subset models for the prostate

cancer example. At each subset size is shown the resid-

ual sum-of-squares for each model of that size.

24

ESL Chap3 — Linear Methods for Regression Trevor Hastie

The Bootstrap approach

• Bootstrap works by samplingN times with replacement from training set to

form a “bootstrap” data set. Then model is estimated on bootstrap data set,

and predictions are made for original training set.

• This process is repeated many times and the results are averaged.

• Bootstrap most useful for estimating standard errors of predictions.

• Can also use modified versions of the bootstrap to estimate prediction error.

Sometimes produces better estimates than cross-validation (topic for current

research)

25

ESL Chap3 — Linear Methods for Regression Trevor Hastie

NYSE example continued

Table shows the coefficients from a number of different selection and shrinkage

methods, applied to the NYSE data.

Term OLS VSS Ridge Lasso PCR PLS

Intercept -0.02 0.00 -0.01 -0.02 -0.02 -0.04

volume.L1 0.09 0.16 0.06 0.09 0.05 0.06

volume.L2 0.06 0.00 0.04 0.02 0.06 0.06

volume.L3 0.04 0.00 0.04 0.03 0.04 0.05

retd.L1 0.00 0.00 0.01 0.01 0.02 0.01

retd.L2 -0.02 0.00 -0.01 0.00 -0.01 -0.02

retd.L3 -0.03 0.00 -0.01 0.00 -0.02 0.00

aretd.L1 0.08 0.00 0.03 0.02 -0.02 0.00

aretd.L2 -0.02 -0.05 -0.03 -0.03 -0.01 -0.01

aretd.L3 0.03 0.00 0.01 0.00 0.02 0.01

vola.L1 0.20 0.00 0.00 0.00 -0.01 -0.01

vola.L2 -0.50 0.00 -0.01 0.00 -0.01 -0.01

vola.L3 0.27 0.00 -0.01 0.00 -0.01 -0.01

Test err 0.050 0.041 0.042 0.039 0.045 0.044

SE 0.007 0.005 0.005 0.005 0.006 0.006

CV was used on the 50 training observations (except for OLS). Test error for

constant: 0.061.

26

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Estimated prediction error

curves for the various selection

and shrinkage methods. The

arrow indicates the estimated

minimizing value of the

complexity parameter. Training

sample size = 50.

subset size

CV

err

or

2 4 6 8 10 12

0.05

0.07 •

••

•• •

• ••

• •

all subsets

degrees of freedom

CV

err

or

2 4 6 8 10 12

0.05

0.07 •

••••••••••••

ridge regression

s

CV

err

or0.0 0.2 0.4 0.6 0.8 1.0

0.05

0.07

•• •

•• • • • • •

• •

lasso

# directions

CV

err

or

0 2 4 6 8 10 12

0.05

0.07

• •

• • • • • • ••

•• •

PC regression

# directions

CV

err

or

0 2 4 6 8 10 12

0.05

0.07 •

•• • • • • •

• • • •

partial least squares

27

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

Subset Size

CV

Err

or

0 2 4 6 8

0.6

0.8

1.0

1.2

1.4

1.6

1.8

•• • • • • • •

All Subsets

Degrees of Freedom

CV

Err

or

0 2 4 6 8

0.6

0.8

1.0

1.2

1.4

1.6

1.8

•••••••••••••

••

Ridge Regression

Shrinkage Factor s

CV

Err

or

0.0 0.2 0.4 0.6 0.8 1.0

0.6

0.8

1.0

1.2

1.4

1.6

1.8

••

• • • • • • • • • • •

Lasso

Number of Directions

CV

Err

or

0 2 4 6 8

0.6

0.8

1.0

1.2

1.4

1.6

1.8

• •• • • • • •

Principal Components Regression

Number of Directions

CV

Err

or

0 2 4 6 8

0.6

0.8

1.0

1.2

1.4

1.6

1.8

•• • • • • • •

Partial Least Squares

Figure 3.6: Estimated prediction error curves and

their standard errors for the various selection and

shrinkage methods, found by 10-fold cross-validation.

28

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Shrinkage methods

Ridge regression

The ridge estimator is defined by

βridge = argmin(y −Xβ)T (y −Xβ) + λβT β

Equivalently,

βridge = argmin (y −Xβ)T (y −Xβ)

subject toX

β2j ≤ s.

The parameterλ > 0 penalizesβj proportional to its sizeβ2j . Solution is

βλ = (XT X + λI)−1XT y

whereI is the identity matrix. This is a biased estimator that for some value of

λ > 0 may have smaller mean squared error than the least squares estimator.

Noteλ = 0 gives the least squares estimator; ifλ →∞, thenβ → 0.

29

ESL Chap3 — Linear Methods for Regression Trevor HastieElements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

Coe

ffici

ents

0 2 4 6 8

-0.2

0.0

0.2

0.4

0.6

••••

••

••

••

••

••

••

••

••

•••

lcavol

••••••••••••••••••••••••

lweight

••••••••••••••••••••••••

age

•••••••••••••••••••••••••

lbph

••••••••••••••••••••••••

svi

•••

••

••

••

••

••••••••••••

lcp

••••••••••••••••••••••••

•gleason

•••••••••••••••••••••••

pgg45

df(λ)

Figure 3.7: Profiles of ridge coefficients for the

prostate cancer example, as tuning parameter λ is var-

ied. Coefficients are plotted versus df(λ), the effec-

tive degrees of freedom. A vertical line is drawn at

df = 4.16, the value chosen by cross-validation.

30

ESL Chap3 — Linear Methods for Regression Trevor Hastie

The Lasso

The lasso is a shrinkage method like ridge, but acts in a nonlinear manner on the

outcomey.

The lasso is defined by

βlasso = argmin (y −Xβ)T (y −Xβ)

subject toX

|βj | ≤ t

• Notice that ridge penaltyP

β2j is replaced by

P|βj |.

• this makes the solutions nonlinear iny, and a quadratic programming

algorithm is used to compute them.

• because of the nature of the constraint, ift is chosen small enough then the

lasso will set some coefficients exactly to zero. Thus the lasso does a kind of

continuous model selection.

31

ESL Chap3 — Linear Methods for Regression Trevor Hastie

• The parametert should be adaptively chosen to minimize an estimate of

expected, using say cross-validation

• Ridge vs Lasso:if inputs are orthogonal, ridgemultipliesleast squares

coefficients by a constant< 1, lassotranslatesthem towards zero by a

constant, truncating at zero.

Ridge

Lasso

Coefficient

OLS

Coefficient

Transformed

32

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Lasso in Action

Profiles of coefficients for NYSE data as lasso shrinkage is varied.

Shrinkage Factor s

Coe

ffici

ents

0.0 0.2 0.4 0.6 0.8 1.0 1.2

-0.4

-0.2

0.0

0.2

23456

7

8

9

10

11

12

s = t/t0 ∈ [0, 1], wheret0 =P|βOLS |.

33

ESL Chap3 — Linear Methods for Regression Trevor HastieElements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

Shrinkage Factor s

Coe

ffici

ents

0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.0

0.2

0.4

0.6

••

•• • • • • • • • • • • • • • • • lcavol

• • • • ••

••

•• • • • • • • • • • • • • • • • lweight

• • • • • • • • • • • • • ••

• • • • • • • • • •age

• • • • • • • • • ••

••

•• • • • • • • • • • • lbph

• • • • • • ••

••

••

•• • • • • • • • • • • •svi

• • • • • • • • • • • • • • ••

••

••

••

••

• lcp

• • • • • • • • • • • • • • • • • • • • • • • • •gleason• • • • • • • • • •

••

•• • • • • • • • • •

••pgg45

Figure 3.9: Profiles of lasso coefficients, as tuning

parameter t is varied. Coefficients are plotted versus

s = t/∑p

1 |βj |. A vertical line is drawn at s = 0.5, the

value chosen by cross-validation. Compare Figure 3.7

on page 7; the lasso profiles hit zero, while those for

ridge do not.

34

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

β^ β^2. .β

1

β2

β1β

Figure 3.12: Estimation picture for the lasso (left)

and ridge regression (right). Shown are contours of the

error and constraint functions. The solid blue areas are

the constraint regions |β1|+ |β2| ≤ t and β21 + β2

2 ≤ t2,

respectively, while the red ellipses are the contours of

the least squares error function.

35

ESL Chap3 — Linear Methods for Regression Trevor Hastie

A family of shrinkage estimators

Consider the criterion

β = argmin β

NXi=1

(yi − xTi β)2

subject toX

|βj |q ≤ s

for q ≥ 0. The contours of constant value ofP

j |βj |q are shown for the case of

two inputs.

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

q = 4 q = 2 q = 1 q = 0.5 q = 0.1

Figure 3.13: Contours of constant value of∑

j |βj |q

for given values of q.

Contours of constant value ofP

j |βj |q for given values ofq.

Thinking of |βj |q as the log-prior density forβj , these are also the equi-contours

of the prior.

36

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Use of derived input directions

Principal components regression

We choose a set of linear combinations of thexjs, and then regress the outcome

on these linear combinations.

The particular combinations used are the sequence of principal components of the

inputs. These are uncorrelated and ordered by decreasing variance.

If S is the sample covariance matrix ofx1, . . . , xp, then the eigenvector equations

Sq` = d2jq`

define the principal components ofS.

37

ESL Chap3 — Linear Methods for Regression Trevor HastieElements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

-4 -2 0 2 4

-4-2

02

4

o

o

o

o

oo

oo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

oo

o

o

o o

o

o

o o

o

o

o

o

oo

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

oo

o

o

oo

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o oo o

o

o

o

ooo

o

o

o o

o

o

o

o

oo

o

oo

o

o

o o

o

o o

o

oo

o

o

o

o

o

o

o

oo

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

oo

o

oo

o

o

o

o

oo

o

o

o

o

o

o

Largest PrincipalComponent

Smallest PrincipalComponent

X1

X2

Figure 3.8: Principal components of some input data

points. The largest principal component is the direc-

tion that maximizes the variance of the projected data,

and the smallest principal component minimizes that

variance. Ridge regression projects y onto these com-

ponents, and then shrinks the coefficients of the low-

variance components more than the high-variance com-

ponents.

38

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Digression: some notes onPrincipal Components and the SVD (PCA.pdf)

39

ESL Chap3 — Linear Methods for Regression Trevor Hastie

PCA regression continued

• Write q(j) for the ordered principal components, ordered from largest to

smallest value ofd2j .

• Then principal components regression computes the derived input columns

zj = Xq(j) and then regressesy onz1, z2, . . . zJ for someJ ≤ p.

• Since thezjs are orthogonal, this regression is just a sum of univariate

regressions:

ypcr = y +

JXj=1

γjzj

whereγj is the univariate regression coefficient ofy onzj .

40

ESL Chap3 — Linear Methods for Regression Trevor Hastie

• Principal components regression is very similar to ridge regression: both

operate on the principal components of the input matrix.

• Ridge regression shrinks the coefficients of the principal components, with

relatively more shrinkage applied to the smaller components than the larger;

principal components regression discards thep− J + 1 smallest eigenvalue

components.

Elements of Statistical Learning c©Hastie, Tibshirani & Friedman 2001 Chapter 3

Index

Shr

inka

ge F

acto

r

2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

••

••

• ••

• • • • • • •

• •

ridgepcr

Figure 3.10: Ridge regression shrinks the regres-

sion coefficients of the principal components, using

shrinkage factors d2j/(d2

j + λ) as in (3.47). Princi-

pal component regression truncates them. Shown are

the shrinkage and truncation patterns corresponding to

Figure 3.6, as a function of the principal component

index.

41

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Partial least squares

This technique also constructs a set of linear combinations of thexjs for

regression, but unlike principal components regression, it usesy (in addition to

X) for this construction.

• We assume thaty is centered and begin by computing the univariate

regression coefficientγj of y on eachxj

• From this we construct the derived inputz1 =P

γjxj , which is the first

partial least squares direction.

• The outcomey is regressed onz1, giving coefficientβ1, and then we

orthogonalizey,x1, . . .xp with respect toz1: r1 = y − β1z1, and

x∗` = x` − θ`z1

• We continue this process, untilJ directions have been obtained.

42

ESL Chap3 — Linear Methods for Regression Trevor Hastie

• In this manner, partial least squares produces a sequence of derived inputs or

directionsz1, z2, . . . zJ .

• As with principal components regression, if we continue on to construct

J = p new directions we get back the ordinary least squares estimates; use of

J < p directions produces a reduced regression

• Notice that in the construction of eachzj , the inputs are weighted by the

strength of their univariate effect ony.

• It can also be shown that the sequencez1, z2, . . . zp represents the conjugate

gradient sequence for computing the ordinary least squares solutions.

43

ESL Chap3 — Linear Methods for Regression Trevor Hastie

Ridge vs PCR vs PLS vs Lasso

Recent study has shown that ridge and PCR outperform PLS in prediction, and

they are simpler to understand.

Lasso outperforms ridge when there are a moderate number of sizable effects,

rather than many small effects. It also produces more interpretable models.

These are still topics for ongoing research.

44

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 1

Regularized Optimization, Boosting,

and Some Connections between

Them

Saharon Rosset (IBM Research)Collaborators: Ji Zhu (Michigan), Trevor Hastie (Stanford)

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 2

Predictive modeling

Given n data samples (xi, yi)ni=1 , x

Ti ∈ R

p

Generated independetly from a data distribution:

y = f(x) + ε(x)

(f — fixed; ε — random)

We want to find a ”good” model f(x) to describe the deterministic part.

Definition of “good” is typically in terms of EXL(y, f(x)), where L depends on

problem.

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 3

Corporate Data Bases

Many tables, relational database.

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 4

Motivation

Modern data (Data Mining, Machine Learning etc.) is:

• High dimensional

– By nature: micro-arrays, scientific data, customer databases

– Computational tool: data often projected into high dimensional space:

kernel methods, wavelets, boosting’s weak hypotheses, etc.

• Noisy and dirty (e.g. customer databases)

• Contains many irrelevant predictors (e.g. customer databases, micro-arrays)

Fitting models without controlling complexity results in:

• Badly over-fitted models

• Useless for prediction or interpretation

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 5

Illustrative example

100 data points, 80 dimensional space. True model:

yi = xi1 + εi

εiiid∼ N(0, 1)

We are fitting a linear regression model of the form:

f(x) = x · β

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 6

Unregularized model projected to x1

Unregularized model: β = arg minβ ‖yi − xiβ‖2

−3 −2 −1 0 1 2

−3

−2

−1

01

23

x_1

y

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 7

Appropriately regularized model

We impose an l1 constraint on the model:

β = arg min‖β‖1≤1

‖yi − xiβ‖2

−3 −2 −1 0 1 2

−3

−2

−1

01

23

x_1

y

non−regularizedl1 regularized

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 8

Prediction problems

• Training data (x1, y1), . . . , (xn, yn)

• Input xi ∈ Rp

• Output yi

– Regression: yi ∈ R

– Two class classification: yi ∈ 1,−1

• Wish to find a prediction model for future data

f : x ∈ Rp → R

Regression: predict f(x)

Classification: predict sign of f(x)

• Generally take f(x) = xβ (linear model)

– Can be linear in a basis expansion (kernel/wavelets etc.)

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 9

The regularized optimization problem

β(λ) = arg minβ

i

C(yi,xiβ) + λJ(β)

Where:

• C is a convex loss, describing the “goodness of fit” of our model to training

data

– Regression: C(y, f) = C(y − f) function of residual

– Classification: C(y, f) = C(yf) function of margin

• J(β) is a model complexity penalty.

Typically J(β) = ‖β‖qq i.e. penalize lq norm of model, q ≥ 1.

• λ ≥ 0 is a regularization parameter

– As λ→ 0, we approach non-regularized model

– As λ→∞, we get that β(λ)→ 0

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 10

Examples

• Regularized linear regression:

Squared error loss: C(y, f) = (y − f)2

– Ridge regression uses l2 penalty J(β) = ‖β‖22

– The Lasso (Tibshirani 96) uses l1 penalty J(β) = ‖β‖1

• Support Vector Machines:

Hinge loss: C(y, f) = (1− yf)+

– Standard (2-norm) SVM uses l2 penalty ‖β‖22

– 1-norm SVM uses l1 penalty ‖β‖1

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 11

Considerations in selecting loss

β(λ) = arg minβ

i

C(yi,xiβ) + λ‖β‖qq

“Classical” view: loss should correspond to data log-likelihood

• Squared error loss corresponds to Gaussian errors

• Logistic regression uses binomial likelihood

Pragmatic view: need to do well on data

• Robustness considerations: sensitivity to incorrect error model

• Computational considerations: can we solve the problem efficiently

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 12

Some loss functions for regression and

classification

−3 −2 −1 0 1 2 30

1

2

3

4

5

6

residual

squared losshuber’s loss

−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 20

1

2

3

4

5

6

7

8

9

10

margin

exponentiallogistichinge

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 13

Considerations in selecting penalty

β(λ) = arg minβ

i

C(yi,xiβ) + λ‖β‖qq

Two perspectives on penalty:

• Bayesian: prior over the model space

– reg. optimization solution is maximum posterior likelihood

• Limit model space to avoid over-fitting

Considerations in selecting penalty:

• Adequacy of penalty (implied prior)

– Sparsity considerations (l1 penalty encourages sparsity)

• Computational considerations

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 14

l1, l2 and l∞ penalties in R2

−1.5 −1 −0.5 0 0.5 1 1.5

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1l1 penalty

l2 penalty

l∞ penalty

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 15

Regularization parameter: balancing loss and

penalty

β(λ) = arg minβ

i

C(yi,xiβ) + λ‖β‖qq

Theoretical approaches to selecting λ:

• Bayesian: λ is “strength of prior”

• Frequentist: use loss + complexity penalty (Cp, AIC etc.)

Practical approach:

1. Solve for many (or all) values of λ.

2. Select based on cross-validation error

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 16

Equivalent constrained formulation

β(S) = arg minβ

i

C(yi,xiβ) s.t. ‖β‖qq ≤ S

Both formulations are equivalent when loss and penalty are convex, with the

following property:

β(λ) : λ ∈ R ⊂ β(S) : S ∈ R

Under most conditions we will consider the two sets are actually equal.

We use both formulations exchangeably.

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 17

Illustration: Lasso and Huberized lasso

• n = 100, p = 80.

• All xij are i.i.d N(0, 1) and the true model is:

yi = 10 · xi1 + εi

εiiid∼ 0.9 ·N(0, 1) + 0.1 ·N(0, 100)

• Sparsity implies l1 penalty is appropriate

• Compare l1-regularized paths using Huber’s loss and squared error loss

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 18

Hub. lasso path Lasso path

0 20 40 60 80

−50

510

0 50 100 150 200 250

−50

510

‖β(λ)‖1‖β(λ)‖1

ββ

Squared error curves for the two solution paths

0 10 20 30 40

010

2030

4050

60

Squa

red

Erro

r LASSOHuberized

‖β(λ)‖1

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 19

Boosting: warmup

• Introduced in the machine learning community by Freund and Schapire

(1996).

• Extremely successful in practice

• Main idea:

Iteratively build prediction model by fitting re-weighted versions of the data

– Weights emphasize badly fitted data points

– Each iteration builds a “weak” learner to model current weighted data

• Boosting can be interpreted as “coordinate descent” in high dimensional

predictor space (Mason et al 99, Friedman 2001)

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 20

Schematic of boosting

Training sample

Weighted sample

Weighted sample

G1(x)

G2(x)

GM (x)

sgn (

Pi αiGi(x)) Final prediction model

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 21

Boosting analysis: outline

• AdaBoost and its interpretations

– Boosting as gradient descent

– Margins view of boosting

• Relation of boosting to `1-constrained optimization

• Convergence of `p-constrained optimization of classification loss functions to

an “ `p-margin” maximizing separator

• Conclusions:

– Boosting approximately corresponds to `1-constrained optimization

– Classification boosting (AdaBoost and LogitBoost) “conver ge” to

`1-optimal separator, compared to `2-optimal for SVM

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 22

Schematic of Talk Structure

BoostingConstrainedOptimization Margins

SVM

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 23

Boosting basics

Given:

• Data xi, yini=1 with xi ∈ R

p and yi ∈ −1, +1

• Convex loss criterion L(y, f)

• DictionaryH of “weak classifiers” , i.e. ∀h ∈ H, h : Rp → −1, +1

– Example: all decision trees with up to k splits

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 24

Boosting basics (ctd)

We want to find a “good” linear combination :

F (x) =∑

hj∈H

βjhj(x)

such that∑

i L(yi, F (xi)) is small.

In boosting this is done incrementally i.e. at step T our model is:

FT (x) =∑

t≤T

αtht(x)

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 25

AdaBoost algorithm (Freund and Schapire 1995)

1. Initialize: wi ≡ 1

2. While (improvement on test set)

(a) Look for ht = arg minh∈H

i wiIyi 6= h(xi) (minimizes weighted

misclassification error)

(b)

errt =

i wiIyi 6= ht(xi)∑

i wi

(c) Set αt = log(1−errt)

errt

(d) wi ← wi · exp(αtIyi 6= ht(xi))

3. Output model F (x) =∑

t αtht(x) and classifier: sign(F (x))

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 26

AdaBoost as Gradient Descent

It has been shown that AdaBoost is “coordinate descent” with exponential loss:

L(y, Ft(x)) = exp(−yFt(x))

The criterion for selecting the next ht is to minimize:

∂∑

i L(yi, Ft(xi))

∂βj= 〈−∇L(Ft(x)), hj(x)〉

ht is the best ”canonical” improvement direction, to first orde r

The AdaBoost αt is chosen via a line search

• We will consider αt ≡ ε — which is “stronger”, empirically better and

theoretically more tractable

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 27

Practical importance of boosting approaches

• Computationally friendly when |H| is large:

– Does not require second derivatives and matrix inversion.

– Greedy search algorithms allow finding best direction “approximately”

– Mainly in situations where there is no explicit β at all, rather a dictionaryH

from which a “best” member is chosen every time using heuristics (e.g.

decision trees using greedy methods).

• Empirically shown to do very well

– AdaBoost (Freund and Schapire 95) and other boosting algorithms are

best “off the shelf” classifiers according to Breiman

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 28

Other gradient-based boosting algorithms

This methodology can be applied to any function estimation problem

• Friedman, Hastie and Tibshirani (2000) use binomial log-likelihood loss:

L(y, Ft(x)) = log(1 + e−yFt(x))

• Friedman (2001) applies it to regression problems with various losses

• Rosset and Segal (NIPS 2002) apply it to density estimation with

log-likelihood criterion : L(Ft(x)) = −log(Ft(x)).

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 29

Margin Basics

• Margin of separating hyper-plane∑

hj∈Hβjhj(x) = 0 is Euclidean

distance of closest point:

mini

yiβ′h(xi)

‖β‖2

• Non-regularized SVM solution maximizes minimal margin

• SVM literature: large margins⇒ “small” prediction error

−4 −3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 30

Margins in Boosting

• Boosting margin of model F (x) =∑

t αtht(x) is defined as:

mini

yiF (xi)∑

t |αt|∈ [−1, +1]

• Basis representation for finite |H|:∑

t αtht =∑

hj∈Hβjhj

• ‖β‖1 =∑

j |βj | ≤∑

t |αt| equality e.g. if αt ≥ 0 ∀t (monotonicity)

−4 −3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 31

The two margin definitions

Euclidean distance (SVM margin) between data point and “hyper-plane”∑

hj∈Fβjhj(x) = 0:

yiβ′h(xi)

‖β‖2

Normalized Boosting margin:

yiβ′h(xi)

‖α‖1=

yiβ′h(xi)

‖β‖2·‖β‖2‖β‖1

·‖β‖1‖α‖1

Differences:

• `1 vs `2 norm - encourages ”sparse” representations

• ‖β‖1 ≤ ‖α‖1 - sign consistency (“monotonicity”) assures equality

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 32

Boosting as a margin-maximizing process

Boosting the Margin - (Schapire et al. 1998, Annals):

• Prove that “weak learnability” (=separability) increases margins

• Experimentally show boosting increases margins

• Discuss geometric interpretation

• Generalization error bounds for finite basis, infinite basis, as function of

margin distribution e.g.: with probability≥ 1− δ

PTe(yF ≤ 0) ≤ PTr(yF ≤ θ) + O(n−.5(log|H|).5θ−1log(δ)−.5)

Plenty of other papers about boosting and margins

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 33

Advantages(?) of margins view

• Explains behavior of Adaboost in separable case:

– Seeks to maximize minimal margin, consequently finds a “good”

separating hyper-plane - similar to SVM

– Loss criterion view does not give such intuitions:

any separating hyper-plane, scaled up, drives exponential loss to 0.

• Generalization error bounds as function of minimal margin:

– Breiman (97) directly maximized margins, attained bad generalization

performance

– That’s not surprising, since margin maximization is clearly overfitting

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 34

What we have learned so far

BoostingConstrainedOptimization Margins

SVM

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 35

Next steps

BoostingConstrainedOptimization Margins

SVM

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 36

Constrained (regularized) optimization

We want to find β(c) which achieves :

min‖β‖1≤c

i

L(yi, β′h(xi))

i.e. the optimal solution with `1 norm c.

What is the relation of this solution to the ε-boosting solution with `1 norm c (i.e.

after c/ε iterations)?

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 37

Relation of boosting to regularized optimization

Consider the local “monotone” optimization problem:

minL(β)

s.t. ‖β‖1 − ‖β0‖1 ≤ ε

|β| ≥ |β0| component-wise

It’s easy to see:

limε→0

|(β − β0)k|

ε> 0⇒ k = arg max

j|∇L(β0)j | = arg max〈−∇L(Ft(x)), h(x)〉

k is unique “almost everywhere” in our space, so we are choosing the direction of

the best monotone path .

We may conjecture that if this ”monotonicity” holds on optimal path then

ε-boosting converges to optimal regularized path

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 38

ε-Boosting and `1 constrained fitting

For squared error loss regression (from Efron et al. 2002):

Lasso: β(c) = arg min‖β‖1≤c ‖y −Xβ′‖22“Stagewise”: the ε-boosting coefficients

Lasso

0 1000 2000 3000

-500

050

0

123 4 5 67 89 10 1

2

3

4

5

6

78

9

10••• • • •• •• •

Stagwise

0 1000 2000 3000

-500

050

0

123 4 5 67 89 10 1

2

3

4

5

6

78

9

10••• • • •• •• •

PSfrag replacements t =P j^jj !t =P j^jj !P j^jj ! j

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 39

What about other loss functions?

For classification with binomial log-likelihood loss:

`1 constrained solutions (left), ε-boosting path (right)

0 2 4 6 8 10 12−2

−1

0

1

2

3

4

5

6Exact constrained solution

||β||1

β va

lues

0 2 4 6 8 10 12−2

−1

0

1

2

3

4

5

6ε−Stagewise

||β||1

β va

lues

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 40

Partial theoretical results

Denote:

β(c) = arg min‖β‖1≤c

i L(yi, β′h(xi))

β(ε)(c) is the ε-boosting coefficient vector for `1 norm c.

Theorem 1 if β(c) is strongly monotone in all coordinates ∀c < c0 , then

limε→0 β(ε)(c0) = β(c0)

• Much stronger condition on derivatives along the optimal path

We also have a “local” result:

Theorem 2 Under monotonicity only, if we denote by γ(ε) the ε-stagewise

“direction” starting from β(c0) then:

limε→0

γ(ε) =dβ(c)

dc|c=c0

• (Efron et al 02) proved for squared error loss, we generalized to any convex

loss

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 41

`p constrained classification losses

Consider the constrained optimization problem:

β(p)(c) = arg min‖β‖p≤c

i

L(yi, β′h(xi))

With the loss being either the exponential or log-likelihood:

Le(y, β′h(x)) = exp(−yβ′h(x))

Ll(y, β′h(x)) = log(1 + exp(−yβ′h))

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 42

Convergence to “ `p- optimal” separating hyper-plane

Define:

β(p) = limc→∞

β(p)(c)

c

Theorem 3 If the data is separable, then with either Le or Ll,

β(p) = arg max‖β‖p=1

mini

yiβ′h(xi)

Interpretation: the normalized constrained optimizer “converges” to an “`p-margin

maximizing” separating hyper-plane

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 43

Boosting interpretation

We can conclude that ε-boosting tends to converge to the `1-margin maximizing

separating hyper-plane

100

101

102

103

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

Minimal margins

||β||1

min

imal

mar

gin

exponentiallogistic AdaBoost

100

101

102

103

0.045

0.05

0.055

0.06

0.065

0.07

0.075

0.08

0.085

0.09

0.095Test error

||β||1

test

err

or

exponentiallogistic AdaBoost

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 44

Boosting and support vector machines

In the separable case:

• SVM non-regularized solution is β(2)

• Boosting non-regularized solution is β(1)

• Differences:

– Boosting margin vs. SVM margin (Euclidean distance)

– Different loss functions⇒ different regularized paths

• “`2 ε-boosting” follows a different regularized path to “SVM” solution

– Choose coefficient to change according to maxh−∇L(Ft(X))′h(X)

βt,h

In non-separable case even the non-regularized solutions would be different

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 45

Simple data example

Same example as before with additional large mass (20 observations) at “far”

point

−2 −1 0 1 2 3 4 5 6−2

0

2

4

6

8

10

Experiment data

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 46

Convergence of `1 and `2 boosting paths to optimal

separator

0 5 10 15

0

0.2

0.4

0.6

0.8

1

Normalized L1−boosting coefficients

||β||1

β/||β

|| 1

boost var1boost var2opt var1 opt var2

0 2 4 6 8 10

0

0.2

0.4

0.6

0.8

1

Normalized L2−boosting coefficients

||β||2

β/||β

|| 2boost var1boost var2svm var1 svm var2 opt var1 opt var2

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 47

More interesting example: Boosting vs. `2 boosting

Boosting `2 boosting

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

optimal boost 105 iter boost 3*106 iter

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

optimal boost 5*106 iterboost 108 iter

Regularization and Boosting: CIMAT, Jan. 2007 Saharon Rosset 48

Summary

• Boosting related to `1-constrained fitting

– Can define `p boosting algorithms to correspond to `p constraints

• `p constrained classification loss solutions converge to “`p-margin”

maximizers in separable case

– Has implication on understanding of logistic regression

• A common thread for boosting and SVM:

Computational trick for regularized fitting in high dimensi onal predictor

spaces

– SVM: kernel trick (`2 regularization)

– Boosting: coordinate descent (approximate `1 regularization)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 1

`1 regularization: properties and

computations

Saharon Rosset (IBM Research)Collaborators: Ji Zhu (Michigan), Trevor Hastie, Rob Tibshirani (Stanford), Nathan

Srebro (TTI), Grzegorz Swirszcz (IBM Research)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 2

Results on `1 regularization• Sparsity

• Piecewise linearity

• Applicability in very high or infinite dimensional embedding

spaces

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 3

The regularized solution pathFixing the loss, penalty and data, and varying the regularization

parameter we get the “path of solutions”

β(λ) , 0 ≤ λ <∞

This is a 1-dim curve through Rp.

• Interesting statistically, as the set of solutions to problems of

interest (Bayesian interpretation: changing prior variance)

• Often interesting computationally, as it has properties which

allow efficient “tracking” of this path

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 4

Example: Lasso solution path in R10

Lasso

0 1000 2000 3000

-500

050

0123 4 5 67 89 10 1

2

3

4

5

6

78

9

10••• • • •• •• •

PSfrag replacements t =P j^jj !t =P j^jj !P j^jj ! j

(from Efron et al. (2004). Least Angle Regression. Annals of Statistics)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 5

Sparseness propert(ies) of `1

regularized path

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 6

`1, `2 and `∞ penalties in R2

−1.5 −1 −0.5 0 0.5 1 1.5

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1l1 penalty

l2 penalty

l∞ penalty

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 7

Sparseness of `1 penalty: n > pShape of `1 penalty implies sparseness. For large values of λ only few non-zero

coefficients.

Lasso

0 1000 2000 3000

-500

050

0

123 4 5 67 89 10 1

2

3

4

5

6

78

9

10••• • • •• •• •

PSfrag replacements t =P j^jj !t =P j^jj !P j^jj ! j

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 8

Sparseness: p > nFor any convex loss, assuming only “non-redundancy”:

Theorem (e.g., Rosset et al. 2004)

Any `1 regularized solution has at most n non-zero components

Proof: Simple application of Caratheodory’s Convex Hull Theorem.

CorollaryThe limiting interpolating (or margin maximizing) solution also has atmost n non-zero components

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 9

Some implications of sparseness• Variable selection (obviously)

• `1-regularized problems are “easier” than, say, `2-regularized

ones

– Can give good solutions in p >> n situations

See:

Friedman, Hastie, Rosset, Tibshirani, Zhu (2004). Discussion

of three boosting papers. Annals of Statistics

Ng (2004). Feature selection, `1 vs `2 regularization and

rotational invariance. ICML-04

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 10

Piecewise Linear Solution Paths

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 11

Piecewise linear property

We want to identify situations where the path of solutions β(λ) , 0 ≤ λ <∞

is easy to generate.

One such situation is when β(λ) is piecewise linear in λ.

+

+

+

+

+

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

−1.0

−0.5

0.0

0.5

1.0

1.5

2.0

+ +

+

+

+

+ + + +

+

+ + +

++

‖β‖1

β

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 12

Primary example: the lasso

(Efron et al 03), (Osborne et al 00) show that for the lasso:

β(λ) = arg minβ

i

(yi − xiβ)2 + λ‖β‖1

β(λ) is piecewise linear in λ.

• Yields efficient algorithm for finding β(λ) , 0 ≤ λ <∞

– Cost is “approximately” one least-squares calculation

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 13

Some properties of the Lasso regularized path

1. Sparsity: if p > n, any regularized solution β(λ) has at most n non-0

coefficients (property of `1 penalty)

2. High correlation:

β(λ)j 6= 0 ⇒∣

∂C(β)∂βj|β=β(λ)

∣=

∣xT

j (y −Xβ(λ))∣

∣= λ

3. Compactness: Number of “pieces” in the path is approximately min(n, p).

+

+

+

+

+

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

−1.0

−0.5

0.0

0.5

1.0

1.5

2.0

+ +

+

+

+

+ + + +

+

+ + +

++

‖β‖1

β

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 14

Our key questions:• What is the fundamental property of (loss, penalty) pairs which

yields piecewise linearity?

• Are there efficient algorithms to generate these regularized

paths?

• Are there statistically interesting members in these families?

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 15

What makes paths piecewise linear?

Assume loss and penalty are both twice differentiable everywhere.

With some algebra we get:

∂β(λ)

∂λ= −(∇2C(β(λ)) + λ∇2J(β(λ)))−1∇J(β(λ))

We want this derivative to be constant, thus:

A sufficient condition for piecewise linearity is that:

• The loss C is piecewise quadratic

• The penalty J is piecewise linear

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 16

Building blocks for PWL regularized optimization

problems

Piecewise quadratic loss:

• Squared error loss: regression: (y − f)2, classification: (1− yf)2

• Huberized squared error loss (robust):

C(y,xβ) =

(y − xβ)2 if |y − xβ| ≤ m

m2 + 2m(|y − xβ| −m) otherwise

• Piecewise linear loss: regression: |y − f | , classification: (1− yf)+

Piecewise linear penalty:

• `1 penalty: J(β) =∑

j |βj | (gives sparse solutions)

• `∞ penalty: J(β) = maxj |βj |

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 17

Some Interesting Examples

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 18

Regression: the Huberized lasso vs. the lasso

0 20 40 60 80

−5

05

10

0 50 100 150 200 250

−5

05

10

‖β(λ)‖1‖β(λ)‖1

ββ

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 19

Squared error loss with `∞ penalty

0 100 200 300 400 500 600 700 800−800

−600

−400

−200

0

200

400

600

800

||β||∞

β

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 20

Classification: 1-norm and 2-norm Support Vector

Machines

0.0 0.4 0.8 1.2

0.0

0.2

0.4

0.6

0.0 0.2 0.4 0.6 0.8

0.0

0.2

0.4

0.6

ββ

‖β‖1 ‖β‖22

1-norm SVM 2-norm SVM

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 21

Multiple penalty problem: Protein Mass

Spectroscopy

(Tibshirani et al, in preparation)

• Predictors are “experssion levels” along a spectrum of masses for proteins.

• Want to constrain model while keeping coefficients “smooth”.

• Solution: `1 penalty on coefficients, `1 penalty on successive differences:

β(λ1, λ2) = arg minβ

i

(yi − xiβ)2 + λ1‖β‖1 + λ2

j

|βj − βj−1|

• Solution path is piecewise affine in (λ1, λ2)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 22

Almost quadratic loss with `1

penalty

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 23

Almost quadratic loss

We define almost quadratic loss as:

C(r) = a2(r) · r2 + a1(r) · r + a0(r)

Where:

• a2, a1, a0 : R → R are piecewise constant functions

• C(r) is (once) differentiable everywhere

• r = (y − xβ) the residual for regression

• r = yxβ the margin for classification

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 24

Motivation for this family

• Piecewise linear solution paths

• `1 penalty⇒ sparse solutions

• Allows efficient, relatively simple algorithm

• Includes robust loss functions for regression and classification

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 25

Algorithm

• Initialize: β = 0, A = arg maxj |(∇L(β))j |, γ = −sgn(∇L(β))A

• While (max|∇L(β)| > 0)

– d1 = arg mind>0 minj /∈A |∇L(β + dγ)j | = |∇L(β + dγ)A|

– d2 = arg mind>0 minj∈A(β + dγ)j = 0 (hit 0)

– d3 = arg mind>0 mini r(yi,xiβ + dγ) hits a “knot”

– set d = min(d1, d2, d3)

– If d = d1 then add variable attaining equality at d toA.

– If d = d2 then remove variable attaining 0 at d fromA.

– β ← β + dγ

– B =∑

i a(f(yi,xiβ))xA′ixAi

– γ = B−1(−sgn(∇L(β))A)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 26

Loss functions of interest: robust, differentiable

Linear for outliers, squared around “corners”:

• Regression: Huberized squared error loss

• Classification: Huberized squared hinge loss:

−3 −2 −1 0 1 2 30

1

2

3

4

5

6

7hinge loss (svm)Hub. sq. hinge (almost quad.)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 27

Computational complexity

Calculations in each step of our algorithm:

• Step size: find the length of current “piece”

– O(np) calculations (for each observation, figure when it hits a “knot”)

• Direction calculation: calculate the direction of the next “piece”

– O(min(n, p)2), using Sherman-Morrison-Woodbury updating formula

Number of steps of the algorithm:

• Difficult to bound in “worst case”

• Under mild assumptions it’s O(n).

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 28

Computational complexity (ctd.)

Overall complexity is thus O(n2p) for both n > p and n < p

Compare to least squares calculation:

• O(np2) when n > p.

• O(n3) when n < p.

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 29

Example: “Dexter” dataset (NIPS 03

challenge)• n = 800 observations

• p = 1152 variables

• Use Huberized squared hinge loss

• Path has 452 “pieces”

• Inefficient R implementation takes about 3 minutes to generate

path on laptop.

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 30

Validation error and number of non-0 coefficients

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2V

al. e

rror

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

20

40

60

80

100

120

140

160

180

200

‖β‖1

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 31

Summary• Regularization is fundamental in modern data modeling

• Considerations in selecting specific formulation:

– Statistical: robustness (loss), sparsity (penalty)

– Computational: efficient computation

• Piecewise linear solution path offer solutions that are:

– Robust: select appropriate loss function

– Adaptable: select regularization parameter adaptively

– Efficient: generate whole regularized path efficiently

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 32

`1 regularization in infinite

dimensional feature spaces

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 33

Outline• Regularized embeddings: kernels, boosting and all that

• Generalizing `1 regularization to non-countable dimension as

measure constraint

• Properties of `1 regularized solutions in infinite dimensions:

– Existence

– Sparsity: existence of finite-support optimal solution

– Optimality criteria

• Practical, exact `1 regularization in very high dimension via path

following

• Example: additive quadratic splines

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 34

Regularized fittingGeneric supervised learning problem, given:

• x1, ...,xn ∈ Rp (or simply Xn∗p)

• y ∈ Rn for regression, y ∈ ±1n for classification

Find model y ≈ f(x)

Linear models set f(x) = xTβ and often use regularized fitting:

β = arg minβ∈Rp

L(y, Xβ) + λJ(β) (or, min L s.t. J ≤ C)

Where L (loss) and J (penalty) are typically convex

J(β) = ‖β‖q is typical choice, usually q ∈ 1, 2

E.g.: Ridge regression, LASSO, Linear SVM,...

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 35

Data embeddingWe can increase the representation power of linear model by

embedding the data into high dimensional space, fitting linear

models there:

x→ φ(x) ∈ RΩ (typically |Ω| >> p)

f(x) = φ(x)Tβ

where Ω is index set of the features in the high dimensional space

Simple example: p = 2(+intercept/bias), Ω is set of degree-2

polynomials

x = (1, x1, x2)

φ(x) = (1, x1, x2, x21, x

22, x1x2)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 36

Examples of embedding-based

methods• Kernel methods: φ often not explicitly defined but implicitly

through inner product kernel: K(x,y) =< φ(x), φ(y) >.

Ω usually infinite.

• Wavelets: φ(x) is wavelet basis values at x.

• Boosted trees: φ(x) is set of all trees of certain size, evaluated

at x. Ω can be made finite.

• Spline dictionary: with x ∈ [0, 1], Ω = [0, 1] and

φ(x) = (x− a)k+ : a ∈ Ω. Infinite (non-countable)

dictionary.

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 37

Embedding+regularization: kernel

methods, boostingSome of the most successful “modern” methods seem to rely on

right combination of embedding and regularization:

• Kernel methods: implicit embedding into RKHS + exact `2

regularization + representer theorem

⇒ computational and statistical success

• Boosting: embedding into space of trees + (very) approximate `1

regularization + incremental implementation

⇒ computational and statistical success

What about exact `1 regularization in embeddings?

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 38

`1 or `2 regularization?Good question! Detailed discussion is outside our scope...

Easy answer (as always): be Bayesian

One important aspect is the sparsity property of `1 regularization:

Sparsity property

If |Ω| > n finite, then any `1 regularized problem has a

solution β containing at most n non-zero entries.

Does this still hold when Ω is infinite?

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 39

Generalizing `1 regularizationWe start from:

minβ

i

L(yi, φ(xi)Tβ) s.t. ‖β‖1 ≤ C

By doubling the number of variables: βj = βj,+ − βj,− and adding

positivity constraints we can replace the norm by sum:

minβ

i

L (yi, φ(xi)T(β+ − β−)) s.t.

j

βj,++βj,− ≤ C , β+, β− 0

Now we replace the sum by a positive measure:

minP∈P

i

L(yi,

Ω

φω(xi)dP (ω)) s.t. P (Ω) ≤ C

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 40

Understanding our generalizationProbability measure requires probability space, hence a σ-algebra

Σ over Ω.

We require w : ω ∈ Ω ⊂ Σ

• If Ω finite or countable this implies Σ = 2Ω and hence

P (Ω) = ‖β‖1 as required

• In the non-countable case this still works!

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 41

When does an optimal solution

exist?Theorem

If the set φω(X) : ω ∈ Ω ⊂ Rn is compact, then our problem

has an optimal solution

Corollary

If the set Ω is compact and the mapping φ.(X) : Ω→ Rn is

continuous, then our problem has an optimal solution.

Bottom line: under mild conditions, an optimal solution is

guaranteed to exist.

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 42

The sparsity property in infinite

dimensionTheorem:

Assume an optimal solution exists, then there exists an optimal

solution P (C) supported on at most n + 1 features in Ω.

Main idea of proof:

- Consider A = φω(X) : ω ∈ Ω ⊂ Rn

- Show that any z ∈ co(A) (convex hull) can be represented as

convex combination of n + 1 points

(for finite Ω this is just Caratheodory’s convex hull theorem)

⇒ any infinite-support measure can be approximated by one

supported on n + 1 features

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 43

Optimality criterionSuppose we are presented with a finite-support solution P (C).

How can we verify it is optimal?

Answer: we only need to verify it is optimal in any finite feature set

containing its support

Theorem

If an optimal solution to the regularized problem exists, and we are

presented with a finite-support candidate solution P supported on

A = ω1, ..., ωk with k ≤ n + 1 then:

P is optimal solution⇔ ∀B ⊂ Ω s.t. A ⊆ B, |B| <∞, P is

optimal solution for the problem in PB

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 44

Summary of mathematical/statistical

properties we prove• Under boundedness + continuity condition an optimal solution

exists

• There is always a sparse optimal solution with at most n + 1

features

• Given a finitely supported solution, we can test its optimality by

considering only finite problems on supersets of its support

Now, can we actually find the solution?

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 45

Path following algorithmsSome regularized problems can take advantage of looking at the

solution set: β(λ) : λ ∈ R as a path in R|Ω| and following it

efficiently:

• Lasso (quadratic loss + `1 penalty): LARS-Lasso of Efron et al.

(2004) (also earlier work from Osborne et al.)

• SVM by Hastie et al. (2004), LP-SVM by Zhu et al. (2004)

• etc.

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 46

Lasso and LARSLasso:

β(λ) = arg minβ‖y −Xβ‖22 + λ‖β‖1,

with X ∈ Rn×p, y ∈ R

n, β ∈ Rp.

LARS-Lasso (Efron et al 2004) is a homotopy algorithm to generate

the path β(λ) for all λ efficiently. Algebraically, we can derive

LARS-Lasso from KKT conditions:

β(λ)j 6= 0 ⇒ |XTj (y −Xβ(λ))| = λ (1)

β(λ)j = 0 ⇐ |XTj (y −Xβ(λ))| < λ (2)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 47

Schematic of LARS-Lasso1. Preliminaries

2. Loop:

(a) Find next variable to add to active setA:

dadd, step size such that a variable not inA attains equality

in (?? )

(b) Find next variable to remove from active set:

drem, step size such that coefficient from active set hits 0

(c) Make step min(dadd, drem), modify active set accordingly

(d) Calculate new LARS direction:

γ = −(XTAXA)−1sgn(XT

A(y −Xβ(λ)))

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 48

Can we do LARS-Lasso in infinite

dimensional embeddings?Going back to schematic of LARS-Lasso:

Only finding dadd requires considering high dimension

Therefore, if:

1. We have sparsity X

2. We can search over Ω for next feature efficiently

⇒ we can apply LARS-Lasso and find full path (optimality

guaranteed by our criterion)

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 49

Search problem for LASSOFormally

dadd = mind > 0 : ∃ ω /∈ A

−φω(X)T(y − φA(X)β(λ)0 − dφA(X)γA) = λ0 − d

We can re-write it as dadd = minω∈Ω−A d(ω), where d(ω) is the

value attaining equality for the dictionary function indexed by ω.

Specifically we get:

d(ω) =φω(X)T

r + λ(β)

φω(X)TφA(X)γA + 1

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 50

Spline basesAssume our data points xi are in [0, 1].

A polynomial spline of order k is a piecewise polynomial of degree

k − 1 with k − 2 continuous derivatives.

E.g. second order spline is piecewise linear continuous function.

Dictionary for kth order spline:

Φk =

1, x, ..., xk−2, xk−2, (x− a)k−1+ : a ∈ (0, 1]

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 51

Total-variation penalties and

regularized splinesStart from the general nonparametric problem with x ∈ R:

f(x) = minf∈C(k−1)

i

(yi − f(xi))2 + λTV (f (k−1))

Most general result:

Theorem (e.g. Mammen & van de Geer 97)

Optimal solution f can be represented as a k-th order spline with at

most n knots

Since roughly TV (f (k−1)) = (k − 1)! · P (Ω), our results prove

this theorem in one line!

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 52

What do we know about

TV-penalized spline solutions?• For k < 3 can show (Mammen and VDG 97) that this spline has

knots at the data points — an `1 “representer” theorem!

• They propose efficient algorithms for solving with k ∈ 1, 2—

can be rephrased as versions of LARS-Lasso with n variables

(constant/linear spline basis)

• For k ≥ 3 they only offer LARS-like approximate algorithm with

knots at data points

But if we can solve the next feature search problem, we can apply

our algorithm and get exact solution path

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 53

Feature search problem for the

k = 3 case (piecewise quadratic)We want to minimize over Ω:

d(ω) =φω(X)T

r + λ(β)

φω(X)TφA(X)γA + 1

This is a piecewise rational function of ω with quadratics in

numerator and denominator

⇒ can solve analytically

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 54

2-dimensional additive spline example ( k = 3)

x1

x2

y

Surface

x1

x2

y

15 steps

x1

x2

y

40 steps

x1x2

y

65 steps

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 55

Boston and California housing ( k = 3)

0 50 100 150 200

810

1214

1618

Iterations

Pre

dict

ion

MS

E

linearquadraticspline

0 50 100 150 200 2500.

090

0.09

50.

100

0.10

50.

110

Iterations

Pre

dict

ion

MS

E

linearquadraticspline

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 56

Summary• `1 regularization generalizes elegantly to infinite dimensional

embeddings through generalization of norm to measure

• Statistical/mathematical properties:

– Existence

– Sparsity

– Testability

• We can design and implement a path following algorithm

– Practical applicability hinges on feature search problem

• We can practically implement in spline bases

– Optimally solves a total-variation penalized non-parametric

regression problem

`1 regularization: CIMAT, Jan. 2007 Saharon Rosset 57

Critical open issues• What can we say about learning performance? Which

embeddings are good?

• Characterize in general feature spaces where we can solve the

feature search problem