+ All Categories
Home > Documents > Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction...

Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction...

Date post: 10-Jul-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
87
Introduction Mod ` eles Algorithmes Simulations Organisation Pr´ esentation Preprocessing esultats Conclusion Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles techniques de ML pour la m ´ edecine : FACTEURS PR ´ EDICTIFS DE LA R ´ EHOSPITALISATION PR ´ ECOCE DE DR ´ EPANOCYTAIRES ADULTES POUR CRISE VASO- OCCLUSIVE Simon Bussy encadr ´ e par Anne-Sophie Jannot, St ´ ephane Gaiffas, Agathe Guilloux Pr´ esentation INSERM 5 octobre 2015 MVA | Pr´ esentation INSERM | Simon BUSSY 1/42
Transcript
Page 1: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Stage de Recherche Master 2 MVA de l’ENS Cachan

Nouvelles techniques de ML pour la medecine :

FACTEURS PREDICTIFS DE LAREHOSPITALISATION PRECOCE DE

DREPANOCYTAIRES ADULTES POUR CRISEVASO-OCCLUSIVE

Simon Bussy

encadre par

Anne-Sophie Jannot, Stephane Gaiffas, Agathe Guilloux

Presentation INSERM

5 octobre 2015

MVA | Presentation INSERM | Simon BUSSY 1/42

Page 2: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Introduction

Contexte : CMAP et equipe INSERM no 22 del’HEGP ; finance par l’Institut Europlace de Finance.

HEGP : centre de reference pour le traitement desCVOTaux de rehospitalisation eleve (∼ 20%)But : construire un modele predictif des rechutes

MVA | Presentation INSERM | Simon BUSSY 2/42

Page 3: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Introduction

Contexte : CMAP et equipe INSERM no 22 del’HEGP ; finance par l’Institut Europlace de Finance.HEGP : centre de reference pour le traitement desCVO

Taux de rehospitalisation eleve (∼ 20%)But : construire un modele predictif des rechutes

MVA | Presentation INSERM | Simon BUSSY 2/42

Page 4: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Introduction

Contexte : CMAP et equipe INSERM no 22 del’HEGP ; finance par l’Institut Europlace de Finance.HEGP : centre de reference pour le traitement desCVOTaux de rehospitalisation eleve (∼ 20%)

But : construire un modele predictif des rechutes

MVA | Presentation INSERM | Simon BUSSY 2/42

Page 5: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Introduction

Contexte : CMAP et equipe INSERM no 22 del’HEGP ; finance par l’Institut Europlace de Finance.HEGP : centre de reference pour le traitement desCVOTaux de rehospitalisation eleve (∼ 20%)But : construire un modele predictif des rechutes

MVA | Presentation INSERM | Simon BUSSY 2/42

Page 6: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

1 Modeles

2 Algorithmes

3 Simulations

4 Organisation

5 Presentation

6 Preprocessing

7 Resultats

8 Conclusion

MVA | Presentation INSERM | Simon BUSSY 3/42

Page 7: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modelisation

MVA | Presentation INSERM | Simon BUSSY 4/42

Page 8: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modelisation

MVA | Presentation INSERM | Simon BUSSY 4/42

Page 9: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 10: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 11: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 12: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 13: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 14: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele de melange

Echantillon (X1,T1) , . . ., (Xn,Tn) ∈ Rd × N∗ i.i.d . ∼ P

Zi ∈ {0, 1} v .a. latente t.q. ∀i ∈ J1, nK, ∀k ∈ {0, 1}, Ti |Zi = k ∼ `k

π0(Xi ) = P(Zi = 0|Xi ) = 1

1+e−X>i β

∀i ∈ J1, nK,Zi ∼ B(1− π0(Xi ))

∀i ∈ J1, nK, ∀t ∈ N∗, fTi |Xi(t) = π0(Xi )fTi |Xi ,0(t) + (1− π0(Xi ))fTi |Xi ,1(t)

`k ∼ G(pk ) de densite ∀t ∈ N∗, fk (t) = pk (1− pk )t−1

MVA | Presentation INSERM | Simon BUSSY 5/42

Page 15: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Inference du modele

θ = {p0,p1, β} ∈ Rd+3

`n(θ) = 1n log

∏ni=1 Pθ(Ti |Xi ) = 1

n∑n

i=1 log[

p0(1−p0)Ti−1

1+e−X>i β0+ p1(1−p1)Ti−1

1+eX>i β0

]

θ ∈ argmin(p0,p1,β)∈]0,1[2×Rd+1

{− 1

n∑n

i=1 log[ p0(1−p0)Ti−1

1+e−X>i β0

+p1(1−p1)Ti−1

1+eX>i β0

]+λ1‖β‖1 +

λ22 ‖β‖

22

}

MVA | Presentation INSERM | Simon BUSSY 6/42

Page 16: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Inference du modele

θ = {p0,p1, β} ∈ Rd+3

`n(θ) = 1n log

∏ni=1 Pθ(Ti |Xi ) = 1

n∑n

i=1 log[

p0(1−p0)Ti−1

1+e−X>i β0+ p1(1−p1)Ti−1

1+eX>i β0

]

θ ∈ argmin(p0,p1,β)∈]0,1[2×Rd+1

{− 1

n∑n

i=1 log[ p0(1−p0)Ti−1

1+e−X>i β0

+p1(1−p1)Ti−1

1+eX>i β0

]+λ1‖β‖1 +

λ22 ‖β‖

22

}

MVA | Presentation INSERM | Simon BUSSY 6/42

Page 17: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Inference du modele

θ = {p0,p1, β} ∈ Rd+3

`n(θ) = 1n log

∏ni=1 Pθ(Ti |Xi ) = 1

n∑n

i=1 log[

p0(1−p0)Ti−1

1+e−X>i β0+ p1(1−p1)Ti−1

1+eX>i β0

]

θ ∈ argmin(p0,p1,β)∈]0,1[2×Rd+1

{− 1

n∑n

i=1 log[ p0(1−p0)Ti−1

1+e−X>i β0

+p1(1−p1)Ti−1

1+eX>i β0

]+λ1‖β‖1 +

λ22 ‖β‖

22

}

MVA | Presentation INSERM | Simon BUSSY 6/42

Page 18: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Regression logistique

Yi = 1{Ti≤s} ; seuil s de 15 jours

`n(β) =∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β))

βElasticNet ∈ argminβ∈Rd

{−∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β)) + λ2‖β‖22 + λ1‖β‖1

}

Score : AUC

ROC : R→ [0, 1]2

t 7→(P(s(X) ≥ t |Y = 0),P(s(X) ≥ t |Y = 1)

)

MVA | Presentation INSERM | Simon BUSSY 7/42

Page 19: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Regression logistique

Yi = 1{Ti≤s} ; seuil s de 15 jours

`n(β) =∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β))

βElasticNet ∈ argminβ∈Rd

{−∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β)) + λ2‖β‖22 + λ1‖β‖1

}

Score : AUC

ROC : R→ [0, 1]2

t 7→(P(s(X) ≥ t |Y = 0),P(s(X) ≥ t |Y = 1)

)

MVA | Presentation INSERM | Simon BUSSY 7/42

Page 20: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Regression logistique

Yi = 1{Ti≤s} ; seuil s de 15 jours

`n(β) =∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β))

βElasticNet ∈ argminβ∈Rd

{−∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β)) + λ2‖β‖22 + λ1‖β‖1

}

Score : AUC

ROC : R→ [0, 1]2

t 7→(P(s(X) ≥ t |Y = 0),P(s(X) ≥ t |Y = 1)

)

MVA | Presentation INSERM | Simon BUSSY 7/42

Page 21: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Regression logistique

Yi = 1{Ti≤s} ; seuil s de 15 jours

`n(β) =∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β))

βElasticNet ∈ argminβ∈Rd

{−∑n

i=1 Yi log(g(X>i β)) + (1− Yi ) log(1− g(X>i β)) + λ2‖β‖22 + λ1‖β‖1

}

Score : AUC

ROC : R→ [0, 1]2

t 7→(P(s(X) ≥ t |Y = 0),P(s(X) ≥ t |Y = 1)

)

MVA | Presentation INSERM | Simon BUSSY 7/42

Page 22: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Esperance-Maximisation

`cn(θ, T ,Z) = 1n∑n

i=1 log[Zi

(log(1− π0(Xi )) + log p1 + (Ti − 1) log(1− p1)

)+(1− Zi )

(log(π0(Xi )) + log p0 + (Ti − 1) log(1− p0)

)]

Etape E :

Qn(θ, θ(l)) = Eθ(l) [`cn(θ, T ,Z)|T ]

Remplacer Zi par q(l)i = E

θ(l) [Zi |Ti ] =p(l)

1 (1−p(l)1 )Ti−1(1−π0(Xi ))

p(l)0 (1−p(l)

0 )Ti−1π0(Xi )+p(l)1 (1−p(l)

1 )Ti−1(1−π0(Xi ))

Etape M :

θ(l+1) ∈ arg maxθQn(θ, θ

(l))

p(l+1)0 =

n−∑n

i=1 q(l)i∑n

i=1 Ti (1−q(l)i )

; p(l+1)1 =

∑ni=1 q(l)

i∑ni=1 Ti q

(l)i

β(l+1) ∈ arg minβ

{−Qn(θ, θ(l)) + λ1‖β‖1 +

λ22 ‖β‖

22

}avec L-BGFS-B

MVA | Presentation INSERM | Simon BUSSY 8/42

Page 23: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Esperance-Maximisation

`cn(θ, T ,Z) = 1n∑n

i=1 log[Zi

(log(1− π0(Xi )) + log p1 + (Ti − 1) log(1− p1)

)+(1− Zi )

(log(π0(Xi )) + log p0 + (Ti − 1) log(1− p0)

)]Etape E :

Qn(θ, θ(l)) = Eθ(l) [`cn(θ, T ,Z)|T ]

Remplacer Zi par q(l)i = E

θ(l) [Zi |Ti ] =p(l)

1 (1−p(l)1 )Ti−1(1−π0(Xi ))

p(l)0 (1−p(l)

0 )Ti−1π0(Xi )+p(l)1 (1−p(l)

1 )Ti−1(1−π0(Xi ))

Etape M :

θ(l+1) ∈ arg maxθQn(θ, θ

(l))

p(l+1)0 =

n−∑n

i=1 q(l)i∑n

i=1 Ti (1−q(l)i )

; p(l+1)1 =

∑ni=1 q(l)

i∑ni=1 Ti q

(l)i

β(l+1) ∈ arg minβ

{−Qn(θ, θ(l)) + λ1‖β‖1 +

λ22 ‖β‖

22

}avec L-BGFS-B

MVA | Presentation INSERM | Simon BUSSY 8/42

Page 24: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Esperance-Maximisation

`cn(θ, T ,Z) = 1n∑n

i=1 log[Zi

(log(1− π0(Xi )) + log p1 + (Ti − 1) log(1− p1)

)+(1− Zi )

(log(π0(Xi )) + log p0 + (Ti − 1) log(1− p0)

)]Etape E :

Qn(θ, θ(l)) = Eθ(l) [`cn(θ, T ,Z)|T ]

Remplacer Zi par q(l)i = E

θ(l) [Zi |Ti ] =p(l)

1 (1−p(l)1 )Ti−1(1−π0(Xi ))

p(l)0 (1−p(l)

0 )Ti−1π0(Xi )+p(l)1 (1−p(l)

1 )Ti−1(1−π0(Xi ))

Etape M :

θ(l+1) ∈ arg maxθQn(θ, θ

(l))

p(l+1)0 =

n−∑n

i=1 q(l)i∑n

i=1 Ti (1−q(l)i )

; p(l+1)1 =

∑ni=1 q(l)

i∑ni=1 Ti q

(l)i

β(l+1) ∈ arg minβ

{−Qn(θ, θ(l)) + λ1‖β‖1 +

λ22 ‖β‖

22

}avec L-BGFS-B

MVA | Presentation INSERM | Simon BUSSY 8/42

Page 25: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Simulations

Idee : tester le schema de prediction suivant :

Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi

Pour l’EM : AUC sur les Zi

MVA | Presentation INSERM | Simon BUSSY 9/42

Page 26: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Simulations

Idee : tester le schema de prediction suivant :

Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi

Pour l’EM : AUC sur les Zi

MVA | Presentation INSERM | Simon BUSSY 9/42

Page 27: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Simulations

Idee : tester le schema de prediction suivant :

Pour la regression logistique : Zi ∼ Yi = 1{Ti≤s} , AUC surles Yi

Pour l’EM : AUC sur les Zi

MVA | Presentation INSERM | Simon BUSSY 9/42

Page 28: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Estimation des vrais parametres

Comparaison des histogrammes de temps de retour reels et simules apres estimation

Parametres p0 p1 π

θ 0,005 0,511 0,872

Resultats de prediction sur les vraies donnees

MVA | Presentation INSERM | Simon BUSSY 10/42

Page 29: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Generation des donnees

On genere Zi ∼ B(1− π0) pour n = 1000 sejoursavec π0 = 0,8721

Puis Ti ∼ G(pZi ) avec p0 = 0,005 et p1 = 0,511

Et enfin les donnees d’apprentisssage :

∀i ∈ J1,nK,

∀j ∈ J1,aK,{

X ji |Zi = 0 ∼ N (0,1)

X ji |Zi = 1 ∼ N (0.5,1)

∀j ∈ Ja + 1,dK,X ji ∼ N (0,1)

MVA | Presentation INSERM | Simon BUSSY 11/42

Page 30: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Generation des donnees

On genere Zi ∼ B(1− π0) pour n = 1000 sejoursavec π0 = 0,8721

Puis Ti ∼ G(pZi ) avec p0 = 0,005 et p1 = 0,511

Et enfin les donnees d’apprentisssage :

∀i ∈ J1,nK,

∀j ∈ J1,aK,{

X ji |Zi = 0 ∼ N (0,1)

X ji |Zi = 1 ∼ N (0.5,1)

∀j ∈ Ja + 1,dK,X ji ∼ N (0,1)

MVA | Presentation INSERM | Simon BUSSY 11/42

Page 31: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Generation des donnees

On genere Zi ∼ B(1− π0) pour n = 1000 sejoursavec π0 = 0,8721

Puis Ti ∼ G(pZi ) avec p0 = 0,005 et p1 = 0,511

Et enfin les donnees d’apprentisssage :

∀i ∈ J1,nK,

∀j ∈ J1,aK,{

X ji |Zi = 0 ∼ N (0,1)

X ji |Zi = 1 ∼ N (0.5,1)

∀j ∈ Ja + 1,dK,X ji ∼ N (0,1)

MVA | Presentation INSERM | Simon BUSSY 11/42

Page 32: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression logistique

Courbe ROC pour la prediction de la regression logistique

MVA | Presentation INSERM | Simon BUSSY 12/42

Page 33: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression logistique

β appris par la regression logistique

MVA | Presentation INSERM | Simon BUSSY 13/42

Page 34: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : EM

Courbe ROC pour la prediction de l’EM

MVA | Presentation INSERM | Simon BUSSY 14/42

Page 35: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : EM

β appris par l’EM

MVA | Presentation INSERM | Simon BUSSY 15/42

Page 36: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Comparaison des deux methodes

Comparaison des AUC des 2 methodes pour 100 tests

MVA | Presentation INSERM | Simon BUSSY 16/42

Page 37: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Organisation des donnees

Donnees heterogenes, differentes sources

1 sejour / patient : ”choix aleatoire par classe”, tauxde rechute de 12,84%

MVA | Presentation INSERM | Simon BUSSY 17/42

Page 38: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Organisation des donnees

Donnees heterogenes, differentes sources1 sejour / patient : ”choix aleatoire par classe”, tauxde rechute de 12,84%

MVA | Presentation INSERM | Simon BUSSY 17/42

Page 39: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Organisation des donnees

Reorganisation des donnees

MVA | Presentation INSERM | Simon BUSSY 18/42

Page 40: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Organisation des donnees

Creation d’un fichier JSON

MVA | Presentation INSERM | Simon BUSSY 19/42

Page 41: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Presentation des donnees

218 patients, 479 visites

Nombre de visites par patient Temps inter-visites

MVA | Presentation INSERM | Simon BUSSY 20/42

Page 42: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Les parametres vitaux

9 variables gardeesProbleme : durees 6= et alignement

Nombre de pointspar parametre vital

Variables biologiques en communa tous les sejours

MVA | Presentation INSERM | Simon BUSSY 21/42

Page 43: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Les parametres vitaux9 variables gardees

Probleme : durees 6= et alignement

Pression arterielle systolique [mmHg], notee PA max ;pression arterielle diastolique [mmHg], notee PA min ;

saturation en oxygene [%] ; Douleur EVA [U] ; frequencerespiratoire [mvt/min] ; temperature [◦C] ; poids [kg] ;

oxygene [L/min] ; frequence cardiaque [bpm]

MVA | Presentation INSERM | Simon BUSSY 21/42

Page 44: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Les parametres vitaux9 variables gardeesProbleme : durees 6= et alignement

Evolution de la temperature au cours de 10 sejours

MVA | Presentation INSERM | Simon BUSSY 21/42

Page 45: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Rescaling entre [0,1]

Interpolation : p valeursPuis filtre de Savitzky–Golay : p′ valeurs de gradient

∀j ∈ J1,NK, xj =xj−mink (xk )

maxk (xk )−mink (xk )

MVA | Presentation INSERM | Simon BUSSY 22/42

Page 46: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Rescaling entre [0,1]Interpolation : p valeursPuis filtre de Savitzky–Golay : p′ valeurs de gradient

Frequence respiratoire pourun patient positif

Frequence respiratoire pourun patient negatif

MVA | Presentation INSERM | Simon BUSSY 22/42

Page 47: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Comportements differents en moyenne

Test de Mann-Whitney-Wilcoxon

Pression arterielle diastolique et moyennes par classe

MVA | Presentation INSERM | Simon BUSSY 23/42

Page 48: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Les parametres vitaux

Comportements differents en moyenneTest de Mann-Whitney-Wilcoxon

Test de Mann-Whitney-Wilcoxon pour la temperature

MVA | Presentation INSERM | Simon BUSSY 23/42

Page 49: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Preprocessing

MVA | Presentation INSERM | Simon BUSSY 24/42

Page 50: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Procedure suivie :

MVA | Presentation INSERM | Simon BUSSY 25/42

Page 51: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Procedure suivie :

MVA | Presentation INSERM | Simon BUSSY 25/42

Page 52: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Procedure suivie :

MVA | Presentation INSERM | Simon BUSSY 25/42

Page 53: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Resultats apres 50 iterations

Dimension de l’espace : 446Donnees manquantes remplacees par les moyennes

Concept Nombre de points Ecart typeFq cardiaque 28 0,3∇ Fq cardiaque 26 0

PA max 28 0∇ PA max 26 0

Temperature 30 8,4∇ Temperature 18 0Saturation O2 34 4,8∇ Saturation O2 26 0

Douleur EVA 21 0,7∇ Douleur EVA 26 0

Debit O2 16 4,6∇ Debit O2 26 0

Fq respiratoire 21 5,3∇ Fq respiratoire 26 0

PA min 28 0∇ PA min 26 0

MVA | Presentation INSERM | Simon BUSSY 26/42

Page 54: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Resultats apres 50 iterationsDimension de l’espace : 446

Donnees manquantes remplacees par les moyennes

MVA | Presentation INSERM | Simon BUSSY 26/42

Page 55: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Selection de p et p′

Resultats apres 50 iterationsDimension de l’espace : 446Donnees manquantes remplacees par les moyennes

MVA | Presentation INSERM | Simon BUSSY 26/42

Page 56: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Benjamini-Hochberg

Tests de Mann-Whitney-Wilcoxon : 446 p-values

Procedure de Benjamini-Hochbergα = 0,9 ; 50 iterations

MVA | Presentation INSERM | Simon BUSSY 27/42

Page 57: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Benjamini-Hochberg

Tests de Mann-Whitney-Wilcoxon : 446 p-valuesProcedure de Benjamini-Hochberg

α = 0,9 ; 50 iterations

On conserve k features avec

k = argmax{

j : p(j) ≤ αjK

}

MVA | Presentation INSERM | Simon BUSSY 27/42

Page 58: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Benjamini-Hochberg

Tests de Mann-Whitney-Wilcoxon : 446 p-valuesProcedure de Benjamini-Hochbergα = 0,9 ; 50 iterations

MVA | Presentation INSERM | Simon BUSSY 27/42

Page 59: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Benjamini-Hochberg

45 features selectionnees (> 13 des cas)

MVA | Presentation INSERM | Simon BUSSY 28/42

Page 60: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Binarisation

Binarisation par quartiles ; dim = 156 ∼ 4× 45

MVA | Presentation INSERM | Simon BUSSY 29/42

Page 61: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Binarisation

Binarisation par quartiles ; dim = 156 ∼ 4× 45

MVA | Presentation INSERM | Simon BUSSY 29/42

Page 62: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Binarisation

Binarisation par quartiles ; dim = 156 ∼ 4× 45

MVA | Presentation INSERM | Simon BUSSY 29/42

Page 63: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Binarisation

Binarisation par quartiles ; dim = 156 ∼ 4× 45

MVA | Presentation INSERM | Simon BUSSY 29/42

Page 64: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Binarisation

Alternative : screening TV

βkTV ∈ argmin

β∈R10

{−

n∑i=1

Yi log(g((Dki )>β))+(1−Yi ) log(1−g((Dk

i )>β))+λ10∑

j=2

|βj−βj−1|}

MVA | Presentation INSERM | Simon BUSSY 30/42

Page 65: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Association + decorrelation

Ajout des produits cartesiens

dim = 11978 ∼(156

2

)Decorrelation |ρ| < 0,95Finalement, dim = 10574

MVA | Presentation INSERM | Simon BUSSY 31/42

Page 66: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Association + decorrelation

Ajout des produits cartesiensdim = 11978 ∼

(1562

)

Decorrelation |ρ| < 0,95Finalement, dim = 10574

MVA | Presentation INSERM | Simon BUSSY 31/42

Page 67: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Association + decorrelation

Ajout des produits cartesiensdim = 11978 ∼

(1562

)Decorrelation |ρ| < 0,95

Finalement, dim = 10574

MVA | Presentation INSERM | Simon BUSSY 31/42

Page 68: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Association + decorrelation

Ajout des produits cartesiensdim = 11978 ∼

(1562

)Decorrelation |ρ| < 0,95Finalement, dim = 10574

MVA | Presentation INSERM | Simon BUSSY 31/42

Page 69: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Association + decorrelation

MVA | Presentation INSERM | Simon BUSSY 32/42

Page 70: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Schema recapitulatif

MVA | Presentation INSERM | Simon BUSSY 33/42

Page 71: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression ridge (dim = 10546)

Courbe ROC pour la regression `2 dans l’espace de dimension 10546

Classe Precision Recall Support0 0,96 0,77 561 0,38 0,80 10

Moyenne/Total 0,87 0,77 66

MVA | Presentation INSERM | Simon BUSSY 34/42

Page 72: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression ridge (dim = 10546)

Probabilites predites sur le jeu de test

MVA | Presentation INSERM | Simon BUSSY 35/42

Page 73: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression ridge (dim = 10546)

Coefficients de |βridge| tries

MVA | Presentation INSERM | Simon BUSSY 36/42

Page 74: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression lasso (dim = 10546)

Courbe ROC pour la regression `1 dans l’espace de dimension 10546

Classe Precision Recall Support0 0,98 0,82 561 0,47 0,90 10

Moyenne/Total 0,90 0,83 66

MVA | Presentation INSERM | Simon BUSSY 37/42

Page 75: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : Support du lasso

Coefficients de |βlasso| non nuls tries

MVA | Presentation INSERM | Simon BUSSY 38/42

Page 76: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression ridge (dim = 30)

Courbe ROC pour la regression `2 dans l’espace de dimension 30

Classe Precision Recall Support0 0,96 0,89 561 0,57 0,80 10

Moyenne/Total 0,90 0,88 66

MVA | Presentation INSERM | Simon BUSSY 39/42

Page 77: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Resultats : regression ridge (dim = 30)

Probabilites predites sur le jeu de test

MVA | Presentation INSERM | Simon BUSSY 40/42

Page 78: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 79: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 80: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 81: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 82: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 83: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Modele censure pour l’EM

Echantillon(

X1, (T1, δ1)), . . . ,

(Xn, (Tn, δn)

)∈ Rd × (N∗ × {0, 1})

Ti = Ri ∧ Ci et δi = 1{Ri≤Ci}

Hyp 1 : ∀i ∈ J1, nK,Ri ⊥⊥ Ci |Zi ,Xi

Hyp 2 : ∀i ∈ J1, nK,Ci ⊥⊥ Zi ,Xi

`cn(θ, T ,∆,Z) = 1n∑n

i=1 δi

{Zi [log(1− π0(Xi )) + log(p1(Ti ))] + (1−

Zi )[log(π0(Xi )) + log(p0(Ti ))] + log(G(T−i ))}

+ (1− δi ){

Zi [log(1− π0(Xi )) +

log(F1(T−i ))] + (1− Zi )[log(π0(Xi )) + log(F0(T−i ))] + log(g(Ti ))}

Implementation a terminer et a tester !

MVA | Presentation INSERM | Simon BUSSY 41/42

Page 84: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Conclusion

De nombreuses pistes restent a explorer maispremiers resultats encourageants !

Tester sur une cohorte exterieureProgres techniques et culturels (ICML, SMILE)These a venir orientee sur les questions posees lorsde ce stage : modelisation de variable longitudinales,adaptation des algorithmes d’apprentissageclassiques a ces donnees, problemes d’alignements,etc.

MVA | Presentation INSERM | Simon BUSSY 42/42

Page 85: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Conclusion

De nombreuses pistes restent a explorer maispremiers resultats encourageants !Tester sur une cohorte exterieure

Progres techniques et culturels (ICML, SMILE)These a venir orientee sur les questions posees lorsde ce stage : modelisation de variable longitudinales,adaptation des algorithmes d’apprentissageclassiques a ces donnees, problemes d’alignements,etc.

MVA | Presentation INSERM | Simon BUSSY 42/42

Page 86: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Conclusion

De nombreuses pistes restent a explorer maispremiers resultats encourageants !Tester sur une cohorte exterieureProgres techniques et culturels (ICML, SMILE)

These a venir orientee sur les questions posees lorsde ce stage : modelisation de variable longitudinales,adaptation des algorithmes d’apprentissageclassiques a ces donnees, problemes d’alignements,etc.

MVA | Presentation INSERM | Simon BUSSY 42/42

Page 87: Stage de Recherche Master 2 MVA de l’ENS Cachan Nouvelles … · 2018-06-29 · Introduction Modeles` Algorithmes Simulations Organisation Presentation´ Preprocessing R´esultats

Introduction Modeles Algorithmes Simulations Organisation Presentation Preprocessing Resultats Conclusion

Conclusion

De nombreuses pistes restent a explorer maispremiers resultats encourageants !Tester sur une cohorte exterieureProgres techniques et culturels (ICML, SMILE)These a venir orientee sur les questions posees lorsde ce stage : modelisation de variable longitudinales,adaptation des algorithmes d’apprentissageclassiques a ces donnees, problemes d’alignements,etc.

MVA | Presentation INSERM | Simon BUSSY 42/42


Recommended