+ All Categories
Home > Documents > Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to...

Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to...

Date post: 16-Apr-2020
Category:
Upload: others
View: 11 times
Download: 0 times
Share this document with a friend
30
Using Extreme Value Theory to test for Outliers Using Extreme Value Theory to test for Outliers Nathaniel GBENRO JMS - 2018, Paris, France 28 mai 2018
Transcript
Page 1: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Using Extreme Value Theory to test for Outliers

Nathaniel GBENROJMS - 2018, Paris, France

28 mai 2018

Page 2: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Plan de la presentationIntroduction

DefinitionsRevue de litterature

Motivation pour un nouveau testTest de Pearson and Sekar [1936] et Grubbs [1950]Limite pour distributions non normale

Theorie sur la loi des extremes (EVT)Generalite sur EVTEstimateur EVI et du seuil

Hypothesis Test and Test’s procedureHypothesis Test and propertiesProcedure de Test

ApplicationComparaison avec GrubbsProcedure de test sous la non normalite

ConclusionBibliographie

Page 3: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Introduction

Introduction

I DefinitionLes valeurs extremes sont des observations qui s’ecartent ducomportement d’ensemble d’un echantillon de donnees.

I ImportanceI Biais d’analyse (calcul indicateurs, analyse econometrique)

Houfi and El Montasser [2009]I Modification de politiques (evaluation d’impacts, analyse

economique, medicale, etc)

Page 4: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Introduction

Definitions

Nuance de definitions

Figure – Planchon viviane (2005)VE : valeurs extremes - VS : valeurs suspectes - VA : valeurs aberrante -CTM : contaminations

Page 5: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Introduction

Revue de litterature

Revue de litterature

I statistiques liees exces / volatilite [Dixon, 1950] ;

I statistiques liees amplitude / volatilite [Dixon, 1950] ;

I statistiques liees gap / volatilite, [Thompson, 1935] [Pearsonand Sekar, 1936] [Grubbs, 1950] ;

I statistiques liees extreme / position report [Dixon, 1950] ;

I statistiques liees Somme de carre [Dixon, 1950] ;

I statistiques liees aux moments ;

I Shapiro-Wilks W statistic (Shapiro et al, 1968 ; Royston.1982).

Page 6: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Motivation pour un nouveau test

Test de Pearson and Sekar [1936] et Grubbs [1950]

Pearson and Sekar [1936] and Grubbs [1950]

Considerions un echantillon de taille n x1, x2, . . . , xn genere d’uneloi normale de moyenne µi et d’ecart type σ2. Test de valeursabberantes equivaut a un test d’echantillon de meme loi :

H0 : µ1 = µ2 = . . . = µm−1 = µm+1 = . . . = µn = µ, µm = µ+ d

Ha1 = d 6= 0, Ha2 = d < 0, Ha3 = d > 0.

τ =δ

s(1)

δ = x(n) − x and s =

√√√√ N∑i=1

(xi − x)2 (2)

Page 7: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Motivation pour un nouveau test

Limite pour distributions non normale

Test de Pearson and Sekar [1936] et Grubbs [1950]

(a) Group 1 (b) Group 2

Figure – Application du test de Grubbs sous plusieurs distributions

Page 8: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Theorie sur la loi des extremes (EVT)

Generalite sur EVT

Generalite

Considerions un echantillon de taille n x1, x2, . . . , xn genere d’uneloi de moyenne µi et d’ecart type σ2.

Statistique Naıve de test : U+ = max xi

Loi de la statistique :

P(U+ ≤ x) = F n(x)

Loi degeneree :

P(U+ ≤ x) −→n→+∞

∈ {0, 1} (3)

Page 9: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Theorie sur la loi des extremes (EVT)

Generalite sur EVT

Generalite

EVT indique ∃an et bns.t :

P(x(n) − an

bn≤ y) = F (n)(ybn + an) −→

n→+∞Gε(y) (4)

ou

Gε(x) =

{exp[−(1 + ε x−µσ )

− 1ε

+ ] si ε 6= 0

exp[−exp(− x−µσ )] si ε = 0

(5)

La loi de X ∈ au domaine d’attraction de Gε.

Page 10: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Theorie sur la loi des extremes (EVT)

Generalite sur EVT

Generalite

Nous avions l’equivalence suivante :

I X suit un Frechet d’indice ε

I ε−1ln(X ) suit un Gumbel

I −X−1 suit un Weibull

Page 11: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Theorie sur la loi des extremes (EVT)

Estimateur EVI et du seuil

Estimateur Extrem Value Index( EVI)Il existe plusieurs estimateurs dans la litterature [Embrechts et al.,2013]. Un estimateur general est celui de Dekkers-Einmahl-deHaan. Il est defini par :

εDEHn = 1 + H

(1)n +

1

2

((H

(1)n )2

H(2)n

− 1

)−1

(6)

ou

H(1)n =

1

k

k−1∑i=0

(ln(x(n−i))− ln(x(n−k))

)et

H(2)n =

1

k

k−1∑i=0

(ln(x(n−i))− ln(x(n−k))

)2

Page 12: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Theorie sur la loi des extremes (EVT)

Estimateur EVI et du seuil

Methodes d’estimation du seuil

I Mean Excess Function

e[i ] =1

n − i

n−i−1∑j=0

x(n−j) − x(i) (7)

I Estimateur de [Pickands III, 1975]

Argmin1≤j≤b n

4csup0≤x<∞|Sj(x)− Gj(x)| (8)

I Estimateur de [Neves and Alves, 2004]

Argmin2≤k≤n

1

k − 1

k∑i=1

iδ(εi − εk) (9)

Page 13: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Hypothesis Test and properties

Hypothesis Test and propertiesNotons x(n) (resp. x(1)) le max (resp. le min) d’un echantillon detaille n, avec Xi ∼ Fi . Le test d’hypothese vise a verifier si x(n) oux(1) est un outlier, Nous avons :{

H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m s.t Fm 6= F

. (10)

1. x(n) est un outlier, version unilateral a droite :{H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m and x* s.t ∀y ≥ x∗ Fm(y) < F (y)

(11)

2. x(1) est un outlier, version unilateral a gauche :{H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m and x* s.t ∀y ≤ x∗ F (y) < Fm(y)

(12)

Page 14: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Hypothesis Test and properties

Statistique et proprietes

γ0n =

x(n) − an

bnpour ε = 0 (13)

γεn = ln

(x(n) − an

bn

) 1ε

pour ε > 0 (14)

γεn = ln

(−x(n) − an

bn

)− 1ε

pour ε < 0 (15)

Page 15: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Procedure de Test

Test unilateral

Les coefficients de normalisation sont donnes par [Embrechts et al.,2013] :

Max-Domain an bnGumbel F−1(1− 1

n ) γ(an)Frechet 0 F−1(1− 1

n )Weibull xF xF − F−1(1− 1

n )

Table – Norming constants

Page 16: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Procedure de Test

Estimateur des quantiles

1. F ∈ Domaine d’attraction de Gumbel :

F−1(1− 1

n) = un + γ(un)ln(nun) (16)

2. F ∈ Domaine d’attraction de Frechet :

F−1(1− 1

n) = nεunun (17)

3. F ∈ Domaine d’attraction de Weibull :

F−1(1− 1

n) = xF − n−εun (xF − un) (18)

Page 17: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Procedure de Test

Estimateur du EndPoint

Estimateur de Alves and Neves [2014] :

xF = x(n) +k−1∑i=0

aik(x(n−k) − x(n−k−i)) (19)

ou

aik =1

log2log(

k + i + 1

k + i)

Page 18: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Hypothesis Test and Test’s procedure

Procedure de Test

Algorithm Start

1. Use the excess function plot

2. Use DEH estimator.

Algorithm B’(ε = 0)

1. j, k ← n ; b1, b2, iter, tol0 ← 0 ;t ; m.iter ← iter + 1 ;

2. While (iter ≤ m and b1=0) do

3. Compute x(j) = Max(x(1), x(2), . . . , x(j))

4. kj = j − min (kP , kRT ) where kP is given by (8)

and kRT bu (9)tol0 ← tol0 + 1

5. While (tol0 ≤ t and b2=0) doun = x(k−kj )

6. Compute γ0j given by (??) with

nun = n − k + kj

7. If γ0j > Λα then

Report ”x(j) as outlier”

tol0 ← 1b2 ← 1

8. Otherwise (i.e γ0j ≤ Λα)

tol0 ← tol0 + 1k ← k − 1End Do ;If tol0 = t − 1 then b1 = 1iter ← iter + 1 ;j ← j − 1 ; k ← j ;tol0 ← 1 ;b2 ← 0 ;End Do ;

Algorithm A’(ε 6= 0)

1. j, k ← n ; b1, b2, iter, tol0 ← 0 ;t ; m.iter ← iter + 1 ;

2. While (iter ≤ m and b1=0) do

3. Compute x(j) = Max(x(1), x(2), . . . , x(j))

4. kj = j − min (kP , kRT ) where kP is given by (8)

and kRT bu (9)tol0 ← tol0 + 1

5. While (tol0 ≤ t and b2=0) doun = x(k−kj )

6. Compute εj given by (6) or (??) withx(k−kj +1), . . . , x(k)

7. Compute γεjj or γ

εjj given by (??) and (??) with

nun = n − k + kj according to the sign of εj

8. If γεjj (resp.γ

εjj ) > Λα then

Report ”x(j) as outlier”

tol0 ← 1b2 ← 1

9. Otherwise (i.e γεjj (resp.γ

εjj ) ≤ Λα)

tol0 ← tol0 + 1k ← k − 1End Do ;If tol0 = t − 1 then b1 = 1iter ← iter + 1 ;j ← j − 1 ; k ← j ;tol0 ← 1 ;b2 ← 0 ;End Do ;

Page 19: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Application

Comparaison avec Grubbs

Comparaison avec Grubbs

Donnees simulees

Yi ∼ 11≤i≤T−pN(a, σ) + 1T−p<i≤TN(a + d , σ) (20)

I p : nombre de contaminations (0, 1, 2 et 3) ;

I T : taille echantillon (50, 100, 500 et 1000) ;

I a, d, σ : resp. moyennes des PGD (0 et 5), et 1 ;

Pour ces paramtres fixes, 1 000 bootstraps puis taux de rejet del’hypothese nulle.

Page 20: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Application

Comparaison avec Grubbs

Application 1

N α (en %)1-Specificie (p=0) Sensibilite (p=1) Sensibilite (p=2) Sensibilite (p=3)Grubs EVT Grubs EVT Grubs EVT Grubs EVT

50 1 0.006 0.003 0.81 0.893 0.796 0.991 0.608 0.99950 5 0.024 0.041 0.919 0.972 0.955 0.997 0.919 1.00050 10 0.036 0.077 0.939 0.99 0.987 0.999 0.972 1.000

100 1 0.014 0.01 0.807 0.866 0.915 0.975 0.903 0.997100 5 0.025 0.038 0.923 0.951 0.974 1.000 0.99 0.998100 10 0.046 0.076 0.935 0.977 0.99 0.999 0.999 1.000500 1 0.007 0.007 0.768 0.801 0.928 0.951 0.974 0.99500 5 0.018 0.041 0.859 0.895 0.973 0.987 0.996 1.000500 10 0.039 0.088 0.903 0.935 0.985 0.994 0.994 1.000

1000 1 0.008 0.011 0.687 0.713 0.913 0.941 0.965 0.981000 5 0.019 0.035 0.819 0.865 0.967 0.981 0.992 0.9951000 10 0.066 0.108 0.875 0.912 0.979 0.993 0.993 0.999

Table – Sensibilite et Specificite

Page 21: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Application

Procedure de test sous la non normalite

Rappel des resultats du test de Grubbs ...

(a) Group 1 (b) Group 2

Figure – Test de Grubbs’s sous des distributions non normales

Page 22: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Application

Procedure de test sous la non normalite

... maintenant avec la nouvelle procedure de tes

(a) Gumbel MD. (b) Frechet and Weibull MD

Figure – Application du test base sur EVT.

Page 23: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Conclusion

Conclusion

I Obj : Identification des valeurs aberrantes

I Echec du test de Grubbs sous la non normalite

I Meilleurs performances sous la normalite et la non normalite

I Resultat robust a la taille de l’echantillon

Page 24: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie I

Isabel Fraga Alves and Claudia Neves. A general estimator for theright endpoint. arXiv preprint arXiv :1412.3972, 2014.

Jan Beirlant, Yuri Goegebeur, Jozef Teugels, and Johan Segers.Front matter. Statistics of Extremes : Theory and Applications,pages i–xiii, 2004.

Noureddine Benlagha, Michel Grun-Rehomme, et al. Applicationde la theorie des valeurs extremes en assurance automobile.Technical report, ERMES, University Paris 2, 2007.

JACQUES Bernier. Sur l’application des diverses lois limites desvaleurs extremes au probleme des debits de crue. HouilleBlanche, 11(5), 1956.

Page 25: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie II

Peter Burridge and AM Robert Taylor. Additive outlier detectionvia extreme-value theory. Journal of Time Series Analysis, 27(5) :685–701, 2006.

Frederico Caeiro and M Ivette Gomes. On the bootstrapmethodology for the estimation of the tail sample fraction. InProceedings of COMPSTAT, pages 545–552, 2014.

Frederico Caeiro and M Ivette Gomes. Threshold selection inextreme value analysis. Extreme Value Modeling and RiskAnalysis : Methods and Applications, page 69, 2016.

Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomalydetection : A survey. ACM computing surveys (CSUR), 41(3) :15, 2009.

Page 26: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie III

Denis Cousineau and Sylvain Chartier. Outliers detection andtreatment : a review. International Journal of PsychologicalResearch, 3(1) :58–67, 2015.

Dipak Dey, Dooti Roy, and Jun Yan. Extreme Value Modeling andRisk Analysis : Methods and Applications. CRC Press, 2016.

Wilfred J Dixon. Analysis of extreme values. The Annals ofMathematical Statistics, 21(4) :488–506, 1950.

Paul Embrechts, Claudia Kluppelberg, and Thomas Mikosch.Modelling extremal events : for insurance and finance,volume 33. Springer Science & Business Media, 2013.

B Everitt. The Cambridge dictionary of statistics/BS Everitt.Cambridge University Press, Cambridge, UK New York :, 2002.

Page 27: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie IVRonald Aylmer Fisher and Leonard Henry Caleb Tippett. Limiting

forms of the frequency distribution of the largest or smallestmember of a sample. In Mathematical Proceedings of theCambridge Philosophical Society, volume 24, pages 180–190.Cambridge Univ Press, 1928.

Jesus Gonzalo and Jose Olmo. Which extreme values are reallyextreme ? Journal of Financial Econometrics, 2(3) :349–369,2004.

Frank E Grubbs. Sample criteria for testing outlying observations.The Annals of Mathematical Statistics, pages 27–58, 1950.

Mohamed Ali Houfi and Ghassen El Montasser. Effets des pointsaberrants sur les tests de normalite et de linearite. applications ala bourse de tokyo. Revue Congolaise Economie, 5(21) :2–38,2009.

Page 28: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie VMalcolm R Leadbetter. Extremes and local dependence in

stationary sequences. Probability Theory and Related Fields, 65(2) :291–306, 1983.

Claudia Neves and MI Fraga Alves. Reiss and thomas, automaticselection of the number of extremes. Computational statistics &data analysis, 47(4) :689–704, 2004.

M Nikulin and A Zerbet. Detection des observations aberrantespar des methodes statistiques. Revue de statistique appliquee,50(3) :25–51, 2002.

Jose Olmo. Extreme value theory filtering techniques for outlierdetection. 2009.

ERWIN S Pearson and C Chandra Sekar. The efficiency ofstatistical tools and a criterion for the rejection of outlyingobservations. Biometrika, 28(3/4) :308–320, 1936.

Page 29: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie VI

James Pickands III. Statistical inference using extreme orderstatistics. the Annals of Statistics, pages 119–131, 1975.

Viviane Planchon. Traitement des valeurs aberrantes : conceptsactuels et tendances generales. Biotechnologie, agronomie,societe et environnement, 9(1) :19–34, 2005.

Saad Rais. Outlier detection for the consumer price index.Statistical Society of Canada Proceedings, IndustrialOrganization, Finance, and Prices Section, BSMD, 2008.

N RANGER. R. cleroux j.-m. helbling. Revue de statistiqueappliquee, 38(1) :5–21, 1990.

Carl Scarrott and Anna MacDonald. A review of extreme valuethreshold es-timation and uncertainty quantification.REVSTAT–Statistical Journal, 10(1) :33–60, 2012.

Page 30: Using Extreme Value Theory to test for Outliers · 2018-07-10 · Using Extreme Value Theory to test for Outliers Introduction Introduction I D e nition Les valeurs extremes sont

Using Extreme Value Theory to test for Outliers

Bibliographie

Bibliographie VII

William R Thompson. On a criterion for the rejection ofobservations and the distribution of the ratio of deviation tosample standard deviation. The Annals of MathematicalStatistics, 6(4) :214–219, 1935.


Recommended