+ All Categories
Home > Documents > Sur l’equivalence entre la R´ egression Logistique´ a base ...

Sur l’equivalence entre la R´ egression Logistique´ a base ...

Date post: 29-Jan-2022
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
1
Sur l’´ equivalence entre la R´ egression Logistique ` a base de Splines et l’Apprentissage Profond Marie Guyomard 1 , Cyprien Gilet 1 , Susana Barbosa 2 , Lionel Fillatre 1 1 Universit´ eCˆ ote d’Azur, CNRS, I3S 2 Universit´ eCˆ ote d’Azur, CNRS, IPMC Contacts: [email protected] CJC-MA ´ Ecole Polytechnique Paris, France 27-29 Octobre 2021 1 OBJECTIFS • Probl` eme de classification • Capter des effets non lin´ eaires • Discr´ etiser les variables descriptives Y Y X Y Classe 1 Classe 2 Règle de décision Régression Logistique Classique Régression Logistique Segmentée Régression Logistique Splines a b a b Noeuds Automatisation de la discr´ etisation par Deep Learning 2 R ´ EGRESSION LOGISTIQUE efinition : Probl` eme de classification Y = f (X ) (1) avec Y les ´ etiquettes ({1,...,K }) et X les variables explicatives (X =(X 1 ,...,X p )). Mod` ele : P (Y =1|X )= σ (f θ (X )) = 1 1 + exp (-f θ (X )) , (2) o` u la fonction σ : R [0, 1] est la fonction sigmo¨ ıde σ (t)= 1 1+e -t , (3) et o ` u la fonction f θ (X ) est d´ efinie par f θ (X ) := θ 0 + θ 1 X 1 + ··· + θ d X d . 3 M ´ ETHODES Splines P 0 ( X )=1 P 1 ( X )= X P 2 ( X )= X 2 P 3 ( X )= X 3 P 6 ( X )=( X - ) + P 7 ( X )=( X - ) 2 + Soit h j (X j )=[P 0 (X j ),P 1 (X j ),...,P d (X j )]. la base de splines ` a d +1 degr´ es de libert´ es de X j Cas Univari´ e: f θ (X )= θ 0 + h 1 (X 1 ) T θ 1 + ··· + h p (X p ) T θ p Cas Multivari´ e (p=2): f θ (X 1 ,X 2 )= d j =1 d k=1 θ j,k P j (X 1 )P k (X 2 ) eseaux de Neurones Entrées X 1 X p−1 X p Couches cachées Transformations non-linéaires Sortie σ Classification efinition : eseau de neurones Ψ: X -→ ˆ Y X -→ σ f (L-1) θ (L-1) ◦···◦ f (1) θ (1) . avec σ efinie par (2). efinition : Couche du r´ eseau f (l ) θ (l ) = ρ A (l ) f (l -1) θ (l -1) + B (l ) . avec ρ une fonction d’activation. 4 APPROXIMATION SPLINES Id´ ees : • Partitionner x R p en un espace Ω en R egions : Ω= {ω 1 ,...,ω R }. • Utiliser des fonctions continues et affines par morceau. efinition : Splines affines multivari´ ees s[a, b, Ω](x)= R X r =1 ([a] r,· x T +[b] r )1 {xω r } . (4) avec a R R×p la matrice des pentes et b R p+1 la matrice de biais. efinition : Fonction Max Affine Spline (MAS) S [A, B, Ω](x)= max r =1,...,R [A] r,· x T +[B ] r (5) efinition : Op´ erateurs Max Affine Spline (MASO) M [A, B ](x)= max r =1,...,R [A 1 ] r,· x T +[B 1 ] r . . . max r =1,...,R [A q ] r,· x T +[B q ] r avec A = {A 1 ,...,A q } tel que A k R R×p B = {B 1 ,...,B q } tel que B k R R . (6) Propri´ et´ e : les MASO sont toujours affines par morceau et globalement convexes. 5 R ´ ESEAUX DE NEURONES MASO Proposition : Couche MASO Pr´ eciser composition de q mas Une couche d’un r´ eseau de neurones construite ` a partir d’une compo- sition d’op´ erateurs d’activation ReLU est un MASO S [A (l ) ,B (l ) , Ω] tel que : f (l ) (z (l -1) (x)) = A (l ) [x]z (l -1) (x)+ B (l ) [x] avec A[x]=[A] r,· quand x ω r (7) Th´ eor` emes : • Ce r´ eseau de neurones est une composition de MASO et donc par cons´ equent un op´ erateur glob- alement affine spline. • Ce r´ eseau de neurones est globalement convexe respectivement ` a chacune de ses dimensions de sortie, si les poids des couches ReLU l =2,...,L sont non-n´ egatifs. 6 REPR ´ ESENTATION PARTITION La partition de l’espace d’entr´ ee de chaque couche MASO est un dia- gramme de Laguerre-Voronoi (power diagram), avec μ r le centro¨ ıde et rad r le radius : P (x) = arg min r =1,...,R kx - [μ] r,· k 2 - [rad] r . Th´ eor` eme : Partition du k e neurone MAS [μ] r,· =[A k ] r,· et [rad] r = 2[B k ] r + k[A k ] r,· k 2 2 . Th´ eor` eme : Partition d’une couche MASO μ r = q k =1 [A k ] [I -1 (r )] k ,· et rad r =2 q k =1 [B k ] [I -1 (r 0 )] k + kμ r k 2 . avec I (r )= q k =1 R k ([r ] k - 1). et [r ] k = arg max r =1,...,R [A k ] r,· x T +[B k ] r . Source : Max-Affine Splines Insights Into Deep Learning, R. Balestriero, 2021. 7 EXP ´ ERIENCES Fronti` eres des d´ ecisions : LR classique, LR Univari´ ees, LR Multivari´ ees, NN. LR Lin´ eaire LR Univari´ ee LR Multivari´ ee DN Accuracy 0.64 0.77 0.77 0.92 Accuracy 1 0.55 0.61 0.61 0.88 Accuracy 2 0.71 0.93 0.93 0.96 Couches du R´ eseau de Neurones : Couche 1, Couche 2, Couche 3. 8 R ´ EF ´ ERENCES • Hastie, Trevor and Tibshirani, Robert and Friedman, Jerome (2009).The elements of statistical learning: data mining, inference, and prediction. Springer Sci- ence & Business Media. • Balestriero, R. (2018). A spline theory of deep learn- ing. In International Conference on Machine Learning (pp. 374-383). PMLR. • Balestriero, R., Paris, S., & Baraniuk, R. (2020). Max- affine spline insights into deep generative networks. arXiv preprint arXiv:2002.11912. This work has been supported by the French government, through the UCA DS4H Investments in the Future project managed by the National Research Agency (ANR) with the reference number ANR-17-EURE-0004.
Transcript

Sur l’equivalence entre la Regression Logistique a basede Splines et l’Apprentissage Profond

Marie Guyomard1, Cyprien Gilet1, Susana Barbosa2, Lionel Fillatre1

1 Universite Cote d’Azur, CNRS, I3S2 Universite Cote d’Azur, CNRS, IPMC

Contacts: [email protected]

CJC-MAEcole Polytechnique

Paris, France

27-29 Octobre 2021

1 OBJECTIFS• Probleme de classification

• Capter des effets non lineaires

• Discretiser les variables descriptives

Y Y

X

Y

Classe 1 Classe 2 Règle de décision

Régression Logistique Classique

Régression Logistique Segmentée

Régression Logistique Splines

a b a b

Noeuds

⇒ Automatisation de la discretisation par Deep Learning

2 REGRESSION LOGISTIQUEDefinition : Probleme de classification

Y = f (X) (1)

avec Y les etiquettes (1, . . . , K) et X les variables explicatives (X = (X1, . . . , Xp)).

Modele :

P (Y = 1|X) = σ (fθ(X)) =1

1 + exp (−fθ(X)), (2)

ou la fonction σ : R→ [0, 1] est la fonction sigmoıde

σ(t) =1

1 + e−t, (3)

et ou la fonction fθ(X) est definie par

fθ(X) := θ0 + θ1X1 + · · · + θdXd.

3 METHODESSplines

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

P1(X ) = XP0(X ) = 1

P2(X ) = X2

P3(X ) = X3

P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+

Soit hj(Xj) = [P0(Xj), P1(Xj), . . . , Pd(Xj)]. la base de splines a d + 1 degres de libertes de Xj

• Cas Univarie :

fθ(X) = θ0 + h1(X1)Tθ1 + · · · + hp(Xp)

Tθp

• Cas Multivarie (p=2):

fθ(X1, X2) =∑d

j=1

∑dk=1 θj,kPj(X1)Pk(X2)

Reseaux de Neurones

Entrées

X1

Xp−1

Xp

Couches cachées

Transformations non-linéaires

Sortie

σ

Classification

Definition : Reseau de neurones

Ψ : X −→ Y

X −→ σ f (L−1)

θ(L−1) · · · f (1)

θ(1).

avec σ definie par (2).

Definition : Couche du reseau

f(l)

θ(l)= ρ

(A(l)f

(l−1)

θ(l−1)+ B(l)

).

avec ρ une fonction d’activation.

4 APPROXIMATION SPLINESIdees :• Partitionner x ∈ Rp en un espace Ω en R regions : Ω = ω1, . . . , ωR.• Utiliser des fonctions continues et affines par morceau.

Definition : Splines affines multivariees

s[a, b,Ω](x) =

R∑r=1

([a]r,· xT + [b]r)1x∈ωr. (4)

avec a ∈ RR×p la matrice des pentes et b ∈ Rp+1 la matrice de biais.

Definition : Fonction Max Affine Spline (MAS)

S[A,B,Ω](x) = maxr=1,...,R

[A]r,· xT + [B]r (5)

Definition : Operateurs Max Affine Spline (MASO)

M [A,B](x) =

maxr=1,...,R [A1]r,· xT + [B1]r...

maxr=1,...,R [Aq]r,· xT + [Bq]r

avecA = A1, . . . , Aq tel que Ak ∈ RR×pB = B1, . . . , Bq tel que Bk ∈ RR.

(6)

Propriete : les MASO sont toujours affines par morceau et globalement convexes.

5 RESEAUX DE NEURONES MASOProposition : Couche MASOPreciser composition de q mas Une couche d’un reseau de neurones construite a partir d’une compo-sition d’operateurs d’activation ReLU est un MASO S[A(l), B(l),Ω] tel que :

f (l)(z(l−1)(x)) = A(l)[x]z(l−1)(x) + B(l)[x] avec A[x] = [A]r,· quand x ∈ ωr (7)

Theoremes :• Ce reseau de neurones est une composition de MASO et donc par consequent un operateur glob-

alement affine spline.

• Ce reseau de neurones est globalement convexe respectivement a chacune de ses dimensions desortie, si les poids des couches ReLU l = 2, . . . , L sont non-negatifs.

6 REPRESENTATION PARTITIONLa partition de l’espace d’entree de chaque couche MASO est un dia-gramme de Laguerre-Voronoi (power diagram), avec µr le centroıdeet radr le radius :

P(x) = arg minr=1,...,R

‖x− [µ]r,·‖2 − [rad]r.

Theoreme : Partition du ke neurone MAS[µ]r,· = [Ak]r,· et [rad]r = 2[Bk]r + ‖[Ak]r,·‖22.

Theoreme : Partition d’une couche MASOµr =

∑qk=1[Ak][I−1(r)]k,· et radr = 2

∑qk=1[Bk][I−1(r′)]k + ‖µr‖2.

avec I(r) =∑qk=1R

k([r]k − 1).

et [r]k = arg maxr=1,...,R[Ak]r,· xT + [Bk]r.

Source : Max-Affine Splines Insights IntoDeep Learning, R. Balestriero, 2021.

7 EXPERIENCES

0.6 0.4 0.2 0.0 0.2 0.4 0.6X1

0.6

0.4

0.2

0.0

0.2

0.4

0.6

0.8

X2

Frontières de décision

Classe 1Classe 2

Frontieres des decisions : LR classique, LR Univariees, LRMultivariees, NN.

LR Lineaire LR Univariee LR Multivariee DNAccuracy 0.64 0.77 0.77 0.92Accuracy 1 0.55 0.61 0.61 0.88Accuracy 2 0.71 0.93 0.93 0.96

Couches du Reseau de Neurones : Couche 1, Couche 2, Couche 3.

8 REFERENCES

• Hastie, Trevor and Tibshirani, Robert and Friedman,Jerome (2009).The elements of statistical learning:data mining, inference, and prediction. Springer Sci-ence & Business Media.

• Balestriero, R. (2018). A spline theory of deep learn-ing. In International Conference on Machine Learning(pp. 374-383). PMLR.

• Balestriero, R., Paris, S., & Baraniuk, R. (2020). Max-affine spline insights into deep generative networks.arXiv preprint arXiv:2002.11912.

This work has been supported by the French government, through the UCA DS4H Investments in the Future project managed by the National Research Agency (ANR) with the reference number ANR-17-EURE-0004.

Recommended