+ All Categories
Home > Documents > High Dimensional Distance

High Dimensional Distance

Date post: 03-Jun-2018
Category:
Upload: enriquegomezcruz
View: 219 times
Download: 0 times
Share this document with a friend

of 15

Transcript
  • 8/12/2019 High Dimensional Distance

    1/15

    O n t h e S u r p r i s i n g B e h a v i o r o f D i s t a n c e M e t r i c s

    i n H i g h D i m e n s i o n a l S p a c e

    C h a r u C . A g g a r w a l

    1

    , A l e x a n d e r H i n n e b u r g

    2

    , a n d D a n i e l A . K e i m

    2

    1

    I B M T . J . W a t s o n R e s e a r c h C e n t e r

    Y o r k t o w n H e i g h t s , N Y 1 0 5 9 8 , U S A .

    c h a r u @ w a t s o n . i b m . c o m

    2

    I n s t i t u t e o f C o m p u t e r S c i e n c e , U n i v e r s i t y o f H a l l e

    K u r t - M o t h e s - S t r . 1 , 0 6 1 2 0 H a l l e ( S a a l e ) , G e r m a n y

    f h i n n e b u r g , k e i m g @ i n f o r m a t i k . u n i - h a l l e . d e

    A b s t r a c t . I n r e c e n t y e a r s , t h e e e c t o f t h e c u r s e o f h i g h d i m e n s i o n a l i t y

    h a s b e e n s t u d i e d i n g r e a t d e t a i l o n s e v e r a l p r o b l e m s s u c h a s c l u s t e r i n g ,

    n e a r e s t n e i g h b o r s e a r c h , a n d i n d e x i n g . I n h i g h d i m e n s i o n a l s p a c e t h e d a t a

    b e c o m e s s p a r s e , a n d t r a d i t i o n a l i n d e x i n g a n d a l g o r i t h m i c t e c h n i q u e s f a i l

    f r o m a e c i e n c y a n d / o r e e c t i v e n e s s p e r s p e c t i v e . R e c e n t r e s e a r c h r e s u l t s

    s h o w t h a t i n h i g h d i m e n s i o n a l s p a c e , t h e c o n c e p t o f p r o x i m i t y , d i s t a n c e

    o r n e a r e s t n e i g h b o r m a y n o t e v e n b e q u a l i t a t i v e l y m e a n i n g f u l . I n t h i s

    p a p e r , w e v i e w t h e d i m e n s i o n a l i t y c u r s e f r o m t h e p o i n t o f v i e w o f t h e

    d i s t a n c e m e t r i c s w h i c h a r e u s e d t o m e a s u r e t h e s i m i l a r i t y b e t w e e n o b -

    j e c t s W e s p e c i c a l l y e x a m i n e t h e b e h a v i o r o f t h e c o m m o n l y u s e d L

    k

    n o r m a n d s h o w t h a t t h e p r o b l e m o f m e a n i n g f u l n e s s i n h i g h d i m e n s i o n -

    a l i t y i s s e n s i t i v e t o t h e v a l u e o f k . F o r e x a m p l e , t h i s m e a n s t h a t t h e

    M a n h a t t a n d i s t a n c e m e t r i c ( L

    1

    n o r m ) i s c o n s i s t e n t l y m o r e p r e f e r a b l e

    t h a n t h e E u c l i d e a n d i s t a n c e m e t r i c ( L

    2

    n o r m ) f o r h i g h d i m e n s i o n a l d a t a

    m i n i n g a p p l i c a t i o n s . U s i n g t h e i n t u i t i o n d e r i v e d f r o m o u r a n a l y s i s , w e

    i n t r o d u c e a n d e x a m i n e a n a t u r a l e x t e n s i o n o f t h e L

    k

    n o r m t o f r a c t i o n a l

    d i s t a n c e m e t r i c s . W e s h o w t h a t t h e f r a c t i o n a l d i s t a n c e m e t r i c p r o v i d e s

    m o r e m e a n i n g f u l r e s u l t s b o t h f r o m t h e t h e o r e t i c a l a n d e m p i r i c a l p e r s p e c -

    t i v e . T h e r e s u l t s s h o w t h a t f r a c t i o n a l d i s t a n c e m e t r i c s c a n s i g n i c a n t l y

    i m p r o v e t h e e e c t i v e n e s s o f s t a n d a r d c l u s t e r i n g a l g o r i t h m s s u c h a s t h e

    k - m e a n s a l g o r i t h m .

    1 I n t r o d u c t i o n

    I n r e c e n t y e a r s , h i g h d i m e n s i o n a l s e a r c h a n d r e t r i e v a l h a v e b e c o m e v e r y w e l l

    s t u d i e d p r o b l e m s b e c a u s e o f t h e i n c r e a s e d i m p o r t a n c e o f d a t a m i n i n g a p p l i c a -

    t i o n s 1 ] , 2 ] , 3 ] , 4 ] , 5 ] , 8 ] , 1 0 ] , 1 1 ] . T y p i c a l l y , m o s t r e a l a p p l i c a t i o n s w h i c h

    r e q u i r e t h e u s e o f s u c h t e c h n i q u e s c o m p r i s e v e r y h i g h d i m e n s i o n a l d a t a . F o r s u c h

    a p p l i c a t i o n s , t h e c u r s e o f h i g h d i m e n s i o n a l i t y t e n d s t o b e a m a j o r o b s t a c l e i n t h e

    d e v e l o p m e n t o f d a t a m i n i n g t e c h n i q u e s i n s e v e r a l w a y s . F o r e x a m p l e , t h e p e r -

    f o r m a n c e o f s i m i l a r i t y i n d e x i n g s t r u c t u r e s i n h i g h d i m e n s i o n s d e g r a d e s r a p i d l y ,

    s o t h a t e a c h q u e r y r e q u i r e s t h e a c c e s s o f a l m o s t a l l t h e d a t a 1 ] .

  • 8/12/2019 High Dimensional Distance

    2/15

    I t h a s b e e n a r g u e d i n 6 ] , t h a t u n d e r c e r t a i n r e a s o n a b l e a s s u m p t i o n s o n t h e

    d a t a d i s t r i b u t i o n , t h e r a t i o o f t h e d i s t a n c e s o f t h e n e a r e s t a n d f a r t h e s t n e i g h b o r s

    t o a g i v e n t a r g e t i n h i g h d i m e n s i o n a l s p a c e i s a l m o s t 1 f o r a w i d e v a r i e t y o f d a t a

    d i s t r i b u t i o n s a n d d i s t a n c e f u n c t i o n s . I n s u c h a c a s e , t h e n e a r e s t n e i g h b o r p r o b l e m

    b e c o m e s i l l d e n e d , s i n c e t h e c o n t r a s t b e t w e e n t h e d i s t a n c e s t o d i e r e n t d a t a

    p o i n t s d o e s n o t e x i s t . I n s u c h c a s e s , e v e n t h e c o n c e p t o f p r o x i m i t y m a y n o t

    b e m e a n i n g f u l f r o m a q u a l i t a t i v e p e r s p e c t i v e : a p r o b l e m w h i c h i s e v e n m o r e

    f u n d a m e n t a l t h a n t h e p e r f o r m a n c e d e g r a d a t i o n o f h i g h d i m e n s i o n a l a l g o r i t h m s .

    I n m o s t h i g h d i m e n s i o n a l a p p l i c a t i o n s t h e c h o i c e o f t h e d i s t a n c e m e t r i c i s

    n o t o b v i o u s ; a n d t h e n o t i o n f o r t h e c a l c u l a t i o n o f s i m i l a r i t y i s v e r y h e u r i s t i c a l .

    G i v e n t h e n o n - c o n t r a s t i n g n a t u r e o f t h e d i s t r i b u t i o n o f d i s t a n c e s t o a g i v e n

    q u e r y p o i n t , d i e r e n t m e a s u r e s m a y p r o v i d e v e r y d i e r e n t o r d e r s o f p r o x i m i t y

    o f p o i n t s t o a g i v e n q u e r y p o i n t . T h e r e i s v e r y l i t t l e l i t e r a t u r e o n p r o v i d i n g

    g u i d a n c e f o r c h o o s i n g t h e c o r r e c t d i s t a n c e m e a s u r e w h i c h r e s u l t s i n t h e m o s t

    m e a n i n g f u l n o t i o n o f p r o x i m i t y b e t w e e n t w o r e c o r d s . M a n y h i g h d i m e n s i o n a l

    i n d e x i n g s t r u c t u r e s a n d a l g o r i t h m s u s e t h e e u c l i d e a n d i s t a n c e m e t r i c a s a n a t u r a l

    e x t e n s i o n o f i t s t r a d i t i o n a l u s e i n t w o - o r t h r e e - d i m e n s i o n a l s p a t i a l a p p l i c a t i o n s .

    I n t h i s p a p e r , w e d i s c u s s t h e g e n e r a l b e h a v i o r o f t h e c o m m o n l y u s e d L

    k

    n o r m

    ( x ; y 2 R

    d

    ; k 2 Z ; L

    k

    ( x ; y ) =

    P

    d

    i = 1

    ( k x

    i

    ? y

    i

    k

    k

    )

    1 = k

    ) i n h i g h d i m e n s i o n a l s p a c e .

    T h e L

    k

    n o r m d i s t a n c e f u n c t i o n i s a l s o s u s c e p t i b l e t o t h e d i m e n s i o n a l i t y c u r s e

    f o r m a n y c l a s s e s o f d a t a d i s t r i b u t i o n s 6 ] . O u r r e c e n t r e s u l t s 9 ] s e e m t o s u g g e s t

    t h a t t h e L

    k

    - n o r m m a y b e m o r e r e l e v a n t f o r k = 1 o r 2 t h a n v a l u e s o f k 3 . I n

    t h i s p a p e r , w e p r o v i d e s o m e s u r p r i s i n g t h e o r e t i c a l a n d e x p e r i m e n t a l r e s u l t s i n

    a n a l y z i n g t h e d e p e n d e n c y o f t h e L

    k

    n o r m o n t h e v a l u e o f k . M o r e s p e c i c a l l y ,

    w e s h o w t h a t t h e r e l a t i v e c o n t r a s t s o f t h e d i s t a n c e s t o a q u e r y p o i n t d e p e n d

    h e a v i l y o n t h e L

    k

    m e t r i c u s e d . T h i s p r o v i d e s c o n s i d e r a b l e e v i d e n c e t h a t t h e

    m e a n i n g f u l n e s s o f t h e L

    k

    n o r m w o r s e n s f a s t e r w i t h i n c r e a s i n g d i m e n s i o n a l i t y f o r

    h i g h e r v a l u e s o f k . T h u s , f o r a g i v e n p r o b l e m w i t h a x e d ( h i g h ) v a l u e o f t h e

    d i m e n s i o n a l i t y d , i t m a y b e p r e f e r a b l e t o u s e l o w e r v a l u e s o f k . T h i s m e a n s t h a t

    t h e L

    1

    d i s t a n c e m e t r i c ( M a n h a t t a n D i s t a n c e m e t r i c ) i s t h e m o s t p r e f e r a b l e f o r

    h i g h d i m e n s i o n a l a p p l i c a t i o n s , f o l l o w e d b y t h e E u c l i d e a n M e t r i c ( L

    2

    ) , t h e n t h e

    L

    3

    m e t r i c , a n d s o o n . E n c o u r a g e d b y t h i s t r e n d , w e e x a m i n e t h e b e h a v i o r o f

    f r a c t i o n a l d i s t a n c e m e t r i c s , i n w h i c h k i s a l l o w e d t o b e a f r a c t i o n s m a l l e r t h a n 1 .

    W e s h o w t h a t t h i s m e t r i c i s e v e n m o r e e e c t i v e a t p r e s e r v i n g t h e m e a n i n g f u l n e s s

    o f p r o x i m i t y m e a s u r e s . W e b a c k u p o u r t h e o r e t i c a l r e s u l t s w i t h e m p i r i c a l t e s t s o n

    r e a l a n d s y n t h e t i c d a t a s h o w i n g t h a t t h e r e s u l t s p r o v i d e d b y f r a c t i o n a l d i s t a n c e

    m e t r i c s a r e i n d e e d p r a c t i c a l l y u s e f u l . T h u s , t h e r e s u l t s o f t h i s p a p e r h a v e s t r o n g

    i m p l i c a t i o n s f o r t h e c h o i c e o f d i s t a n c e m e t r i c s f o r h i g h d i m e n s i o n a l d a t a m i n i n g

    p r o b l e m s . W e s p e c i c a l l y s h o w t h e i m p r o v e m e n t s w h i c h c a n b e o b t a i n e d b y

    a p p l y i n g f r a c t i o n a l d i s t a n c e m e t r i c s t o t h e s t a n d a r d k - m e a n s a l g o r i t h m .

    T h i s p a p e r i s o r g a n i z e d a s f o l l o w s . I n t h e n e x t s e c t i o n , w e p r o v i d e a t h e o -

    r e t i c a l a n a l y s i s o f t h e b e h a v i o r o f t h e L

    k

    n o r m i n v e r y h i g h d i m e n s i o n a l i t y . I n

    s e c t i o n 3 , w e d i s c u s s f r a c t i o n a l d i s t a n c e m e t r i c s a n d p r o v i d e a t h e o r e t i c a l a n a l -

    y s i s o f t h e i r b e h a v i o r . I n s e c t i o n 4 , w e p r o v i d e t h e e m p i r i c a l r e s u l t s , a n d s e c t i o n

    5 p r o v i d e s s u m m a r y a n d c o n c l u s i o n s .

  • 8/12/2019 High Dimensional Distance

    3/15

    2 B e h a v i o r o f t h e L

    k

    - n o r m i n H i g h D i m e n s i o n a l i t y

    I n o r d e r t o p r e s e n t o u r c o n v e r g e n c e r e s u l t s , w e r s t e s t a b l i s h s o m e n o t a t i o n s a n d

    d e n i t i o n s i n T a b l e 1 .

    T a b l e 1 . N o t a t i o n s a n d B a s i c D e n i t i o n s

    N o t a t i o n D e n i t i o n

    d D i m e n s i o n a l i t y o f t h e d a t a s p a c e

    N N u m b e r o f d a t a p o i n t s

    F 1 - d i m e n s i o n a l d a t a d i s t r i b u t i o n i n ( 0 ; 1 )

    X

    d

    D a t a p o i n t f r o m F

    d

    w i t h e a c h c o o r d i n a t e d r a w n f r o m F

    d i s t

    k

    d

    ( x ; y ) D i s t a n c e b e t w e e n ( x

    1

    ; : : : x

    d

    ) a n d ( y

    1

    ; : : : y

    d

    )

    u s i n g L

    k

    m e t r i c =

    P

    d

    i = 1

    ( x

    i

    1

    ? x

    i

    2

    )

    k

    ]

    1 = k

    k k

    k

    D i s t a n c e o f a v e c t o r t o t h e o r i g i n ( 0 ; : : : ; 0 )

    u s i n g t h e f u n c t i o n d i s t

    k

    d

    ( ; )

    D m a x

    k

    d

    = m a x f k X

    d

    k

    k

    g F a r t h e s t d i s t a n c e o f t h e N p o i n t s

    t o t h e o r i g i n u s i n g t h e d i s t a n c e m e t r i c L

    k

    D m i n

    k

    d

    = m i n f k X

    d

    k

    k

    g N e a r e s t d i s t a n c e o f t h e N p o i n t s

    t o t h e o r i g i n u s i n g t h e d i s t a n c e m e t r i c L

    k

    E X ] , v a r X ] E x p e c t e d v a l u e a n d v a r i a n c e o f a r a n d o m v a r i a b l e X

    Y

    d

    !

    p

    c A v e c t o r s e q u e n c e Y

    1

    ; : : : ; Y

    d

    c o n v e r g e s i n p r o b a b i l i t y t o a

    c o n s t a n t v e c t o r c i f : 8 > 0 l i m

    d ! 1

    P d i s t

    d

    ( Y

    d

    ; c ) ] = 1

    T h e o r e m 1 . B e y e r e t . a l . ( A d a p t e d f o r L

    k

    m e t r i c )

    I f l i m

    d ! 1

    v a r

    k X

    d

    k

    k

    E k X

    d

    k

    k

    ]

    = 0 , t h e n

    D m a x

    k

    d

    ? D m i n

    k

    d

    D m i n

    k

    d

    !

    p

    0 .

    P r o o f . S e e 6 ] f o r p r o o f o f a m o r e g e n e r a l v e r s i o n o f t h i s r e s u l t .

    T h e r e s u l t o f t h e t h e o r e m 6 ] s h o w s t h a t t h e d i e r e n c e b e t w e e n t h e m a x i -

    m u m a n d m i n i m u m d i s t a n c e s t o a g i v e n q u e r y p o i n t

    1

    d o e s n o t i n c r e a s e a s f a s t

    a s t h e n e a r e s t d i s t a n c e t o a n y p o i n t i n h i g h d i m e n s i o n a l s p a c e . T h i s m a k e s a

    p r o x i m i t y q u e r y m e a n i n g l e s s a n d u n s t a b l e b e c a u s e t h e r e i s p o o r d i s c r i m i n a t i o n

    b e t w e e n t h e n e a r e s t a n d f u r t h e s t n e i g h b o r . H e n c e f o r t h , w e w i l l r e f e r t o t h e r a t i o

    D m a x

    k

    d

    ? D m i n

    k

    d

    D m i n

    k

    d

    a s t h e r e l a t i v e c o n t r a s t .

    T h e r e s u l t s i n 6 ] u s e t h e v a l u e o f

    D m a x

    k

    d

    ? D m i n

    k

    d

    D m i n

    k

    d

    a s a n i n t e r e s t i n g c r i t e r i o n

    f o r m e a n i n g f u l n e s s . I n o r d e r t o p r o v i d e m o r e i n s i g h t , i n t h e f o l l o w i n g w e a n a l y z e

    t h e b e h a v i o r f o r d i e r e n t d i s t a n c e m e t r i c s i n h i g h - d i m e n s i o n a l s p a c e . W e r s t

    a s s u m e a u n i f o r m d i s t r i b u t i o n o f d a t a p o i n t s a n d s h o w o u r r e s u l t s f o r N = 2

    1

    I n t h i s p a p e r , w e c o n s i s t e n t l y u s e t h e o r i g i n a s t h e q u e r y p o i n t . T h i s c h o i c e d o e s n o t

    a e c t t h e g e n e r a l i t y o f o u r r e s u l t s , t h o u g h i t s i m p l i e s o u r a l g e b r a c o n s i d e r a b l y .

  • 8/12/2019 High Dimensional Distance

    4/15

    p o i n t s . T h e n , w e g e n e r a l i z e t h e r e s u l t s t o a n a r b i t r a r y n u m b e r o f p o i n t s a n d

    a r b i t r a r y d i s t r i b u t i o n s .

    L e m m a 1 . L e t F b e u n i f o r m d i s t r i b u t i o n o f N = 2 p o i n t s . F o r a n L

    k

    m e t r i c ,

    l i m

    d ! 1

    E

    h

    D m a x

    k

    d

    ? D m i n

    k

    d

    d

    1 = k ? 1 = 2

    i

    = C

    1

    ( k + 1 )

    1 = k

    r

    1

    2 k + 1

    , w h e r e C i s s o m e c o n -

    s t a n t .

    P r o o f . L e t A

    d

    a n d B

    d

    b e t h e t w o p o i n t s i n a d d i m e n s i o n a l d a t a d i s t r i b u -

    t i o n s u c h t h a t e a c h c o o r d i n a t e i s i n d e p e n d e n t l y d r a w n f r o m a 1 - d i m e n s i o n a l

    d a t a d i s t r i b u t i o n F w i t h n i t e m e a n a n d s t a n d a r d d e v i a t i o n . S p e c i c a l l y A

    d

    =

    ( P

    1

    : : : P

    d

    ) a n d B

    d

    = ( Q

    1

    : : : Q

    d

    ) w i t h P

    i

    a n d Q

    i

    b e i n g d r a w n f r o m F . L e t

    P A

    d

    = f

    P

    d

    i = 1

    ( P

    i

    )

    k

    g

    1 = k

    b e t h e d i s t a n c e o f A

    d

    t o t h e o r i g i n u s i n g t h e L

    k

    m e t r i c

    a n d P B

    d

    = f

    P

    d

    i = 1

    ( Q

    i

    )

    k

    g

    1 = k

    t h e d i s t a n c e o f B

    d

    . T h e d i e r e n c e o f d i s t a n c e s i s

    P A

    d

    ? P B

    d

    = f

    P

    d

    i = 1

    ( P

    i

    )

    k

    g

    1 = k

    ? f

    P

    d

    i = 1

    ( Q

    i

    )

    k

    g

    1 = k

    .

    I t c a n b e s h o w n

    2

    t h a t t h e r a n d o m v a r i a b l e ( P

    i

    )

    k

    h a s m e a n

    1

    k + 1

    a n d s t a n d a r d

    d e v i a t i o n

    k

    k + 1

    r

    1

    2 k + 1

    . T h i s m e a n s t h a t

    ( P A

    d

    )

    k

    d

    !

    p

    1

    ( k + 1 )

    ;

    ( P B

    d

    )

    k

    d

    !

    p

    1

    ( k + 1 )

    a n d t h e r e f o r e

    P A

    d

    d

    1 = k

    !

    p

    1

    k + 1

    1 = k

    ;

    P B

    d

    d

    1 = k

    !

    p

    1

    k + 1

    1 = k

    ( 1 )

    W e i n t e n d t o s h o w t h a t

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    !

    p

    1

    ( k + 1 )

    1 = k

    r

    2

    2 k + 1

    . W e c a n e x p r e s s

    jP A

    d

    ?P B

    d

    ji n t h e f o l l o w i n g n u m e r a t o r / d e n o m i n a t o r f o r m w h i c h w e w i l l u s e i n

    o r d e r t o e x a m i n e t h e c o n v e r g e n c e b e h a v i o r o f t h e n u m e r a t o r a n d d e n o m i n a t o r

    i n d i v i d u a l l y .

    j P A

    d

    ? P B

    d

    j =

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j

    P

    k ? 1

    r = 0

    ( P A

    d

    )

    k ? r ? 1

    ( P B

    d

    )

    r

    ( 2 )

    D i v i d i n g b o t h s i d e s b y d

    1 = k ? 1 = 2

    a n d r e g r o u p i n g t h e r i g h t - h a n d - s i d e w e g e t :

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    =

    j ( ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    ) j =

    p

    d

    P

    k ? 1

    r = 0

    ?

    P A

    d

    d

    1 = k

    k ? r ? 1

    ?

    P B

    d

    d

    1 = k

    r

    ( 3 )

    C o n s e q u e n t l y , u s i n g S l u t s k y ' s t h e o r e m

    3

    a n d t h e r e s u l t s o f E q u a t i o n 1 w e o b t a i n

    k ? 1

    X

    r = 0

    P A

    d

    d

    1 = k

    k ? r ? 1

    P B

    d

    d

    1 = k

    r

    !

    p

    k

    1

    k + 1

    ( k ? 1 ) = k

    ( 4 )

    H a v i n g c h a r a c t e r i z e d t h e c o n v e r g e n c e b e h a v i o r o f t h e d e n o m i n a t o r o f t h e r i g h t

    h a n d s i d e o f E q u a t i o n 3 , l e t u s n o w e x a m i n e t h e b e h a v i o r o f t h e n u m e r a t o r :

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j =

    p

    d = j

    P

    d

    i = 1

    ( ( P

    i

    )

    k

    ? ( Q

    i

    )

    k

    ) j =

    p

    d = j

    P

    d

    i = 1

    R

    i

    j =

    p

    d . H e r e

    2

    T h i s i s b e c a u s e E P

    k

    i

    ] = 1 = ( k + 1 ) a n d E P

    2 k

    i

    ] = 1 = ( 2 k + 1 ) .

    3

    S l u t s k y ' s T h e o r e m : L e t Y

    1

    : : : Y

    d

    b e a s e q u e n c e o f r a n d o m v e c t o r s a n d h ( ) b e

    a c o n t i n u o u s f u n c t i o n . I f Y

    d

    !

    p

    c t h e n h ( Y

    d

    ) !

    p

    h ( c )

  • 8/12/2019 High Dimensional Distance

    5/15

    R

    i

    i s t h e n e w r a n d o m v a r i a b l e d e n e d b y ( ( P

    i

    )

    k

    ? ( Q

    i

    )

    k

    ) 8 i 2 f 1 ; : : : d g . T h i s

    r a n d o m v a r i a b l e h a s z e r o m e a n a n d s t a n d a r d d e v i a t i o n w h i c h i s

    p

    2 w h e r e

    i s t h e s t a n d a r d d e v i a t i o n o f ( P

    i

    )

    k

    . T h e s u m o f d i e r e n t v a l u e s o f R

    i

    o v e r d

    d i m e n s i o n s w i l l c o n v e r g e t o a n o r m a l d i s t r i b u t i o n w i t h m e a n 0 a n d s t a n d a r d

    d e v i a t i o n

    p

    2

    p

    d b e c a u s e o f t h e c e n t r a l l i m i t t h e o r e m . C o n s e q u e n t l y , t h e

    m e a n a v e r a g e d e v i a t i o n o f t h i s d i s t r i b u t i o n w i l l b e C f o r s o m e c o n s t a n t C .

    T h e r e f o r e , w e h a v e :

    l i m

    d ! 1

    E

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j

    p

    d

    = C

    k

    k + 1

    r

    1

    2 k + 1

    ( 5 )

    S i n c e t h e d e n o m i n a t o r o f E q u a t i o n 3 s h o w s p r o b a b i l i s t i c c o n v e r g e n c e , w e c a n

    c o m b i n e t h e r e s u l t s o f E q u a t i o n s 4 a n d 5 t o o b t a i n

    l i m

    d ! 1

    E

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    = C

    1

    ( k + 1 )

    1 = k

    r

    1

    2 k + 1

    ( 6 )

    W e c a n e a s i l y g e n e r a l i z e t h e r e s u l t f o r a d a t a b a s e o f N u n i f o r m l y d i s t r i b u t e d

    p o i n t s . T h e f o l l o w i n g C o r o l l a r y p r o v i d e s t h e r e s u l t .

    C o r o l l a r y 1 . L e t F b e t h e u n i f o r m d i s t r i b u t i o n o f N = n p o i n t s . T h e n ,

    C

    ( k + 1 )

    1 = k

    r

    1

    2 k + 1

    l i m

    d ! 1

    E

    h

    D m a x

    k

    d

    ? D m i n

    k

    d

    d

    1 = k ? 1 = 2

    i

    C ( n ? 1 )

    ( k + 1 )

    1 = k

    r

    1

    2 k + 1

    .

    P r o o f . T h i s i s b e c a u s e i f L i s t h e e x p e c t e d d i e r e n c e b e t w e e n t h e m a x i m u m a n d

    m i n i m u m o f t w o r a n d o m l y d r a w n p o i n t s , t h e n t h e s a m e v a l u e f o r n p o i n t s d r a w n

    f r o m t h e s a m e d i s t r i b u t i o n m u s t b e i n t h e r a n g e ( L ; ( n ? 1 ) L ) .

    T h e r e s u l t s c a n b e m o d i e d f o r a r b i t r a r y d i s t r i b u t i o n s o f N p o i n t s i n a

    d a t a b a s e b y i n t r o d u c i n g t h e c o n s t a n t f a c t o r C

    k

    . I n t h a t c a s e , t h e g e n e r a l d e -

    p e n d e n c y o f D

    m a x

    ?D

    m i n

    o n d

    1

    k

    ?

    1

    2

    r e m a i n s u n c h a n g e d . A d e t a i l e d p r o o f i s

    p r o v i d e d i n t h e A p p e n d i x ; a s h o r t o u t l i n e o f t h e r e a s o n i n g b e h i n d t h e r e s u l t i s

    a v a i l a b l e i n 9 ] .

    L e m m a 2 . 9 ] L e t F b e a n a r b i t r a r y d i s t r i b u t i o n o f N = 2 p o i n t s . T h e n ,

    l i m

    d ! 1

    E

    h

    D m a x

    k

    d

    ? D m i n

    k

    d

    d

    1 = k ? 1 = 2

    i

    = C

    k

    , w h e r e C

    k

    i s s o m e c o n s t a n t d e p e n d e n t o n k .

    C o r o l l a r y 2 . L e t F b e t h e a r b i t r a r y d i s t r i b u t i o n o f N = n p o i n t s . T h e n ,

    C

    k

    l i m

    d ! 1

    E

    D m a x

    k

    d

    ? D m i n

    k

    d

    d

    1 = k ? 1 = 2

    ( n ? 1 ) C

    k

    .

    T h u s , t h i s r e s u l t s h o w s t h a t i n h i g h d i m e n s i o n a l s p a c e D m a x

    k

    d

    ? D m i n

    k

    d

    i n c r e a s e s a t t h e r a t e o f d

    1 = k ? 1 = 2

    , i n d e p e n d e n t o f t h e d a t a d i s t r i b u t i o n . T h i s

    m e a n s t h a t f o r t h e m a n h a t t a n d i s t a n c e m e t r i c , t h e v a l u e o f t h i s e x p r e s s i o n d i -

    v e r g e s t o 1 ; f o r t h e E u c l i d e a n d i s t a n c e m e t r i c , t h e e x p r e s s i o n i s b o u n d e d b y

    c o n s t a n t s w h e r e a s f o r a l l o t h e r d i s t a n c e m e t r i c s , i t c o n v e r g e s t o 0 ( s e e F i g u r e

    1 ) . F u r t h e r m o r e , t h e c o n v e r g e n c e i s f a s t e r w h e n t h e v a l u e o f k o f t h e L

    k

    m e t r i c

  • 8/12/2019 High Dimensional Distance

    6/15

    0.7

    0.75

    0.8

    0.85

    0.9

    0.95

    1

    1.05

    1.1

    1.15

    20 40 60 80 100 120 140 160 180 200

    p=2

    1

    1.1

    1.2

    1.3

    1.4

    1.5

    1.6

    1.7

    1.8

    1.9

    20 40 60 80 100 120 140 160 180 200

    p=2

    0

    5

    10

    15

    20

    25

    20 40 60 80 100 120 140 160 180 200

    p=1

    ( a ) k = 3 ( b ) k = 2 ( c ) k = 1

    0

    50

    100

    150

    200

    250

    300

    350

    400

    20 40 60 80 100 120 140 160 180 200

    p=2/3

    0

    2e+06

    4e+06

    6e+06

    8e+06

    1e+07

    1.2e+07

    1.4e+07

    1.6e+07

    20 40 60 80 100 120 140 160 180 200

    p=2/5

    ( d ) k = 2 = 3 ( e ) k = 2 = 5

    F i g . 1 . j D m a x ? D m i n j d e p e n d i n g o n d f o r d i e r e n t m e t r i c s ( u n i f o r m d a t a )

    T a b l e 2 . E e c t o f d i m e n s i o n a l i t y o n r e l a t i v e ( L

    1

    a n d L

    2

    ) b e h a v i o r o f r e l a t i v e c o n t r a s t

    D i m e n s i o n a l i t y P U

    d

    < T

    d

    ] D i m e n s i o n a l i t y P U

    d

    < T

    d

    ]

    1 B o t h m e t r i c s a r e t h e s a m e 1 0 9 5 6 %

    2 8 5 0 % 1 5 9 6 1 %

    3 8 8 7 % 2 0 9 7 1 %

    4 9 1 3 % 1 0 0 9 8 2 %

    i n c r e a s e s . T h i s p r o v i d e s t h e i n s i g h t t h a t h i g h e r n o r m p a r a m e t e r s p r o v i d e p o o r e r

    c o n t r a s t b e t w e e n t h e f u r t h e s t a n d n e a r e s t n e i g h b o r . E v e n m o r e i n s i g h t m a y b e

    o b t a i n e d b y e x a m i n i n g t h e e x a c t b e h a v i o r o f t h e r e l a t i v e c o n t r a s t a s o p p o s e d t o

    t h e a b s o l u t e d i s t a n c e b e t w e e n t h e f u r t h e s t a n d n e a r e s t p o i n t .

    T h e o r e m 2 . L e t F b e t h e u n i f o r m d i s t r i b u t i o n o f N = 2 p o i n t s . T h e n ,

    l i m

    d ! 1

    E

    h

    D m a x

    k

    d

    ? D m i n

    k

    d

    D m i n

    k

    d

    p

    d

    i

    = C

    q

    1

    2 k + 1

    .

    P r o o f . L e t A

    d

    , B

    d

    , P

    1

    : : : P

    d

    , Q

    1

    : : : Q

    d

    , P A

    d

    , P B

    d

    b e d e n e d a s i n t h e p r o o f

    o f L e m m a 1 . W e h a v e s h o w n i n t h e p r o o f o f t h e p r e v i o u s r e s u l t t h a t

    P A

    d

    d

    1 = k

    !

    1

    k + 1

    1 = k

    . U s i n g S l u t s k y ' s t h e o r e m w e c a n d e r i v e t h a t :

    m i n

    f

    P A

    d

    d

    1 = k

    ;

    P B

    d

    d

    1 = k

    g !

    1

    k + 1

    1 = k

    ( 7 )

    W e h a v e a l s o s h o w n i n t h e p r e v i o u s r e s u l t t h a t :

    l i m

    d ! 1

    E

    jP A

    d

    ?P B

    d

    j

    d

    1 = k ? 1 = 2

    = C

    1

    ( k + 1 )

    1 = k

    s

    1

    2 k + 1

    ( 8 )

    W e c a n c o m b i n e t h e r e s u l t s i n E q u a t i o n 7 a n d 8 t o o b t a i n :

    l i m

    d ! 1

    E

    p

    d

    j P A

    d

    ? P B

    d

    j

    m i n f P A

    d

    ; P B

    d

    g

    = C

    p

    1 = ( 2 k + 1 ) ( 9 )

  • 8/12/2019 High Dimensional Distance

    7/15

    0 1 2 3 4 5 6 7 8 9 100

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5RELATIVE CONTRAST FOR UNIFORM DISTRIBUTION

    PARAMETER OF DISTANCE NORM

    RELATIVECONTRAST

    N=10,000

    N=1,000

    N=100

    F i g . 2 . R e l a t i v e c o n t r a s t v a r i a t i o n w i t h

    n o r m p a r a m e t e r f o r t h e u n i f o r m d i s t r i b u -

    t i o n

    -1

    -0.8

    -0.6

    -0.4

    -0.2

    0

    0.2

    0.40.6

    0.8

    1

    -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

    f=1f=0.75

    f=0.5f=0.25

    F i g . 3 . U n i t s p h e r e s f o r d i e r e n t f r a c -

    t i o n a l m e t r i c s ( 2 D )

    N o t e t h a t t h e a b o v e r e s u l t s c o n r m o f t h e r e s u l t s i n 6 ] b e c a u s e i t s h o w s t h a t

    t h e r e l a t i v e c o n t r a s t d e g r a d e s a s 1 =

    p

    d f o r t h e d i e r e n t d i s t a n c e n o r m s . N o t e

    t h a t f o r v a l u e s o f d i n t h e r e a s o n a b l e r a n g e o f d a t a m i n i n g a p p l i c a t i o n s , t h e

    n o r m d e p e n d e n t f a c t o r o f

    p

    1 = ( 2 k + 1 ) m a y p l a y a v a l u a b l e r o l e i n a e c t i n g

    t h e r e l a t i v e c o n t r a s t . F o r s u c h c a s e s , e v e n t h e r e l a t i v e r a t e o f d e g r a d a t i o n o f

    t h e d i e r e n t d i s t a n c e m e t r i c s f o r a g i v e n d a t a s e t i n t h e s a m e v a l u e o f t h e

    d i m e n s i o n a l i t y m a y b e i m p o r t a n t . I n t h e F i g u r e 2 w e h a v e i l l u s t r a t e d t h e r e l a t i v e

    c o n t r a s t c r e a t e d b y a n a r t i c i a l l y g e n e r a t e d d a t a s e t d r a w n f r o m a u n i f o r m

    d i s t r i b u t i o n i n d = 2 0 d i m e n s i o n s . C l e a r l y , t h e r e l a t i v e c o n t r a s t d e c r e a s e s w i t h

    i n c r e a s i n g v a l u e o f k a n d a l s o f o l l o w s t h e s a m e t r e n d a s

    p

    1 = ( 2 k + 1 ) .

    A n o t h e r i n t e r e s t i n g a s p e c t w h i c h c a n b e e x p l o r e d t o i m p r o v e n e a r e s t n e i g h -

    b o r a n d c l u s t e r i n g a l g o r i t h m s i n h i g h - d i m e n s i o n a l s p a c e i s t h e e e c t o f k o n t h e

    r e l a t i v e c o n t r a s t . E v e n t h o u g h t h e e x p e c t e d r e l a t i v e c o n t r a s t a l w a y s d e c r e a s e s

    w i t h i n c r e a s i n g d i m e n s i o n a l i t y , t h i s m a y n o t n e c e s s a r i l y b e t r u e f o r a g i v e n d a t a

    s e t a n d d i e r e n t k . T o s h o w t h i s , w e p e r f o r m e d t h e f o l l o w i n g e x p e r i m e n t o n t h e

    M a n h a t t a n ( L

    1

    ) a n d E u c l i d e a n ( L

    2

    ) d i s t a n c e m e t r i c : L e t U

    d

    =

    D m a x

    2

    d

    ? D m i n

    2

    d

    D m i n

    2

    d

    a n d T

    d

    =

    D m a x

    1

    d

    ? D m i n

    1

    d

    D m i n

    1

    d

    . W e p e r f o r m e d s o m e e m p i r i c a l t e s t s t o c a l c u l a t e t h e

    v a l u e o f P U

    d

    < T

    d

    ] f o r t h e c a s e o f t h e M a n h a t t a n ( L

    1

    ) a n d E u c l i d e a n ( L

    2

    ) d i s -

    t a n c e m e t r i c s f o r N = 1 0 p o i n t s d r a w n f r o m a u n i f o r m d i s t r i b u t i o n . I n e a c h t r i a l ,

    U

    d

    a n d T

    d

    w e r e c a l c u l a t e d f r o m t h e s a m e s e t o f N = 1 0 p o i n t s , a n d P U

    d

    < T

    d

    ]

    w a s c a l c u l a t e d b y n d i n g t h e f r a c t i o n o f t i m e s U

    d

    w a s l e s s t h a n T

    d

    i n 1 0 0 0 t r i a l s .

    T h e r e s u l t s o f t h e e x p e r i m e n t a r e g i v e n i n T a b l e 2 . I t i s c l e a r t h a t w i t h i n c r e a s i n g

    d i m e n s i o n a l i t y d , t h e v a l u e o f P U

    d

    < T

    d

    ] c o n t i n u e s t o i n c r e a s e . T h u s , f o r h i g h e r

    d i m e n s i o n a l i t y , t h e r e l a t i v e c o n t r a s t p r o v i d e d b y a n o r m w i t h s m a l l e r p a r a m e t e r

    k i s m o r e l i k e l y t o d o m i n a t e a n o t h e r w i t h a l a r g e r p a r a m e t e r . F o r d i m e n s i o n -

    a l i t i e s o f 2 0 o r h i g h e r i t i s c l e a r t h a t t h e m a n h a t t a n d i s t a n c e m e t r i c p r o v i d e s

    a s i g n i c a n t l y h i g h e r r e l a t i v e c o n t r a s t t h a n t h e E u c l i d e a n d i s t a n c e m e t r i c w i t h

    v e r y h i g h p r o b a b i l i t y . T h u s , a m o n g t h e d i s t a n c e m e t r i c s w i t h i n t e g r a l n o r m s ,

    t h e m a n h a t t a n d i s t a n c e m e t r i c i s t h e m e t h o d o f c h o i c e f o r p r o v i d i n g t h e b e s t

  • 8/12/2019 High Dimensional Distance

    8/15

    c o n t r a s t b e t w e e n t h e d i e r e n t p o i n t s . T h i s r e s u l t o f o u r a n a l y s i s c a n b e d i r e c t l y

    u s e d i n a n u m b e r o f d i e r e n t a p p l i c a t i o n s .

    3 F r a c t i o n a l D i s t a n c e M e t r i c s

    T h e r e s u l t o f t h e p r e v i o u s s e c t i o n t h a t t h e M a n h a t t a n m e t r i c ( k = 1 ) p r o v i d e s

    t h e b e s t d i s c r i m i n a t i o n i n h i g h - d i m e n s i o n a l d a t a s p a c e s i s t h e m o t i v a t i o n f o r

    l o o k i n g i n t o d i s t a n c e m e t r i c s w i t h k

  • 8/12/2019 High Dimensional Distance

    9/15

    B y u s i n g t h e r e s u l t s i n E q u a t i o n 1 0 , w e c a n d e r i v e t h a t :

    j P A

    d

    ? P B

    d

    j

    d

    1 = f ? 1 = 2

    !

    p

    f

    P

    d

    i = 1

    j ( P

    i

    )

    f

    ? ( Q

    i

    )

    f

    j

    p

    d

    g f l

    1

    ( 1 + f )

    l ? 1

    g ( 1 1 )

    T h i s r a n d o m v a r i a b l e ( P

    i

    )

    f

    ? ( Q

    i

    )

    f

    h a s z e r o m e a n a n d s t a n d a r d d e v i a t i o n w h i c h

    i s

    p

    2 w h e r e i s t h e s t a n d a r d d e v i a t i o n o f ( P

    i

    )

    f

    . T h e s u m o f d i e r e n t v a l u e s

    o f ( P

    i

    )

    f

    ? ( Q

    i

    )

    f

    o v e r d d i m e n s i o n s w i l l c o n v e r g e t o n o r m a l d i s t r i b u t i o n w i t h

    m e a n 0 a n d s t a n d a r d d e v i a t i o n 2

    p

    d b e c a u s e o f t h e c e n t r a l l i m i t t h e o r e m .

    C o n s e q u e n t l y , t h e e x p e c t e d m e a n a v e r a g e d e v i a t i o n o f t h i s n o r m a l d i s t r i b u t i o n

    i s C

    p

    d f o r s o m e c o n s t a n t C . T h e r e f o r e , w e h a v e :

    l i m

    d ! 1

    E

    j ( P A

    d

    )

    f

    ? ( P B

    d

    )

    f

    j

    p

    d

    = C = C

    f

    f + 1

    s

    1

    2 f + 1

    : ( 1 2 )

    C o m b i n i n g t h e r e s u l t s o f E q u a t i o n s 1 2 a n d 1 1 , w e g e t :

    l i m

    d ! 1

    E

    j P A

    d

    ? P B

    d

    j

    d

    1 = f ? 1 = 2

    =

    C

    ( f + 1 )

    1 = f

    s

    1

    2 f + 1

    ( 1 3 )

    A n d i r e c t c o n s e q u e n c e o f t h e a b o v e r e s u l t i s t h e f o l l o w i n g g e n e r a l i z a t i o n t o

    N = n p o i n t s .

    C o r o l l a r y 3 . W h e n F i s t h e u n i f o r m d i s t r i b u t i o n o f N = n p o i n t s a n d f = 1 = l

    f o r s o m e i n t e g e r l . T h e n , f o r s o m e c o n s t a n t C w e h a v e :

    C

    ( f + 1 )

    1 = f

    r

    1

    2 f + 1

    l i m

    d ! 1

    E

    D m a x

    f

    d

    ? D m i n

    f

    d

    d

    1 = f ? 1 = 2

    C ( n ? 1 )

    ( f + 1 )

    1 = f

    r

    1

    2 f + 1

    .

    P r o o f . S i m i l a r t o c o r o l l a r y 1 .

    T h e a b o v e r e s u l t s h o w s t h a t t h e a b s o l u t e d i e r e n c e b e t w e e n t h e m a x i m u m

    a n d m i n i m u m f o r t h e f r a c t i o n a l d i s t a n c e m e t r i c i n c r e a s e s a t t h e r a t e o f d

    1 = f ? 1 = 2

    .

    T h u s , t h e s m a l l e r t h e f r a c t i o n , t h e g r e a t e r t h e r a t e o f a b s o l u t e d i v e r g e n c e b e -

    t w e e n t h e m a x i m u m a n d m i n i m u m v a l u e . N o w , w e w i l l e x a m i n e t h e r e l a t i v e

    c o n t r a s t o f t h e f r a c t i o n a l d i s t a n c e m e t r i c .

    T h e o r e m 3 . L e t F b e t h e u n i f o r m d i s t r i b u t i o n o f N = 2 p o i n t s a n d f = 1 = l

    f o r s o m e i n t e g e r l . T h e n ,

    l i m

    d ! 1

    D m a x

    f

    d

    ? D m i n

    f

    d

    D m i n

    f

    d

    p

    d = C

    q

    1

    2 f + 1

    f o r s o m e c o n s t a n t C .

    P r o o f . A n a l o g o u s t o t h e p r o o f o f T h e o r e m 2 .

    T h e f o l l o w i n g i s t h e d i r e c t g e n e r a l i z a t i o n t o N = n p o i n t s .

    C o r o l l a r y 4 . L e t F b e t h e u n i f o r m d i s t r i b u t i o n o f N = n p o i n t s , a n d f = 1 = l

    f o r s o m e i n t e g e r l . T h e n , f o r s o m e c o n s t a n t C

    C

    q

    1

    2 f + 1

    l i m

    d ! 1

    E

    D m a x

    f

    d

    ? D m i n

    f

    d

    D m i n

    f

    d

    C ( n ? 1 )

    q

    1

    2 f + 1

    .

  • 8/12/2019 High Dimensional Distance

    10/15

    P r o o f . A n a l o g o u s t o t h e p r o o f o f C o r o l l a r y 1 .

    T h i s r e s u l t i s t r u e f o r t h e c a s e o f a r b i t r a r y v a l u e s f ( n o t j u s t f = 1 = l ) a n d

    N , b u t t h e u s e o f t h e s e s p e c i c v a l u e s o f f h e l p s c o n s i d e r a b l y i n s i m p l i c a t i o n o f

    t h e p r o o f o f t h e r e s u l t . T h e e m p i r i c a l s i m u l a t i o n i n F i g u r e 2 , s h o w s t h e b e h a v i o r

    f o r a r b i t r a r y v a l u e s o f f a n d N . T h e c u r v e f o r e a c h v a l u e o f N i s d i e r e n t b u t a l l

    c u r v e s t t h e g e n e r a l t r e n d o f r e d u c e d c o n t r a s t w i t h i n c r e a s e d v a l u e o f f . N o t e

    t h a t t h e v a l u e o f t h e r e l a t i v e c o n t r a s t f o r b o t h , t h e c a s e o f i n t e g r a l d i s t a n c e

    m e t r i c L

    k

    a n d f r a c t i o n a l d i s t a n c e m e t r i c L

    f

    i s t h e s a m e i n t h e b o u n d a r y c a s e

    w h e n f = k = 1 .

    T h e a b o v e r e s u l t s s h o w t h a t f r a c t i o n a l d i s t a n c e m e t r i c s p r o v i d e b e t t e r c o n -

    t r a s t t h a n i n t e g r a l d i s t a n c e m e t r i c s b o t h i n t e r m s o f t h e a b s o l u t e d i s t r i b u t i o n s o f

    p o i n t s t o a g i v e n q u e r y p o i n t a n d r e l a t i v e d i s t a n c e s . T h i s i s a s u r p r i s i n g r e s u l t i n

    l i g h t o f t h e f a c t t h a t t h e E u c l i d e a n d i s t a n c e m e t r i c i s t r a d i t i o n a l l y u s e d i n a l a r g e

    v a r i e t y o f i n d e x i n g s t r u c t u r e s a n d d a t a m i n i n g a p p l i c a t i o n s . T h e w i d e s p r e a d u s e

    o f t h e E u c l i d e a n d i s t a n c e m e t r i c s t e m s f r o m t h e n a t u r a l e x t e n s i o n o f a p p l i c a b i l -

    i t y t o s p a t i a l d a t a b a s e s y s t e m s ( m a n y m u l t i d i m e n s i o n a l i n d e x i n g s t r u c t u r e s w e r e

    i n i t i a l l y p r o p o s e d i n t h e c o n t e x t o f s p a t i a l s y s t e m s ) . H o w e v e r , f r o m t h e p e r s p e c -

    t i v e o f h i g h d i m e n s i o n a l d a t a m i n i n g a p p l i c a t i o n s , t h i s n a t u r a l i n t e r p r e t a b i l i t y

    i n 2 o r 3 - d i m e n s i o n a l s p a t i a l s y s t e m s i s c o m p l e t e l y i r r e l e v a n t . W h e t h e r t h e t h e -

    o r e t i c a l b e h a v i o r o f t h e r e l a t i v e c o n t r a s t a l s o t r a n s l a t e s i n t o p r a c t i c a l l y u s e f u l

    i m p l i c a t i o n s f o r h i g h d i m e n s i o n a l d a t a m i n i n g a p p l i c a t i o n s i s a n i s s u e w h i c h w e

    w i l l e x a m i n e i n g r e a t e r d e t a i l i n t h e n e x t s e c t i o n .

    4 E m p i r i c a l R e s u l t s

    I n t h i s s e c t i o n , w e s h o w t h a t o u r s u r p r i s i n g n d i n g s c a n b e d i r e c t l y a p p l i e d t o

    i m p r o v e e x i s t i n g m i n i n g t e c h n i q u e s f o r h i g h - d i m e n s i o n a l d a t a . F o r t h e e x p e r i -

    m e n t s , w e u s e s y n t h e t i c a n d r e a l d a t a . T h e s y n t h e t i c d a t a c o n s i s t s o f a n u m b e r

    o f c l u s t e r s ( d a t a i n s i d e t h e c l u s t e r s f o l l o w a n o r m a l d i s t r i b u t i o n a n d t h e c l u s t e r

    c e n t e r s a r e u n i f o r m l y d i s t r i b u t e d ) . T h e a d v a n t a g e o f t h e s y n t h e t i c d a t a s e t s i s

    t h a t t h e c l u s t e r s a r e c l e a r l y s e p a r a t e d a n d a n y c l u s t e r i n g a l g o r i t h m s h o u l d b e

    a b l e t o i d e n t i f y t h e m c o r r e c t l y . F o r o u r e x p e r i m e n t s w e u s e d o n e o f t h e m o s t

    w i d e l y u s e d s t a n d a r d c l u s t e r i n g a l g o r i t h m s - t h e k - m e a n s a l g o r i t h m . T h e d a t a

    s e t u s e d i n t h e e x p e r i m e n t s c o n s i s t s o f 6 c l u s t e r s w i t h 1 0 0 0 0 d a t a p o i n t s e a c h a n d

    n o n o i s e . T h e d i m e n s i o n a l i t y w a s c h o s e n t o b e 2 0 . T h e r e s u l t s o f o u r e x p e r i m e n t s

    s h o w t h a t t h e f r a c t i o n a l d i s t a n c e m e t r i c s p r o v i d e s a m u c h h i g h e r c l a s s i c a t i o n

    r a t e w h i c h i s a b o u t 9 9 % f o r t h e f r a c t i o n a l d i s t a n c e m e t r i c w i t h f = 0 : 3 v e r s u s

    8 9 % f o r t h e E u c l i d e a n m e t r i c ( s e e g u r e 4 ) . T h e d e t a i l e d r e s u l t s i n c l u d i n g t h e

    c o n f u s i o n m a t r i c e s o b t a i n e d a r e p r o v i d e d i n t h e a p p e n d i x .

    F o r t h e e x p e r i m e n t s w i t h r e a l d a t a s e t s , w e u s e s o m e o f t h e c l a s s i c a t i o n

    p r o b l e m s f r o m t h e U C I m a c h i n e l e a r n i n g r e p o s i t o r y

    5

    . A l l o f t h e s e p r o b l e m s

    a r e c l a s s i c a t i o n p r o b l e m s w h i c h h a v e a l a r g e n u m b e r o f f e a t u r e v a r i a b l e s , a n d

    a s p e c i a l v a r i a b l e w h i c h i s d e s i g n a t e d a s t h e c l a s s l a b e l . W e u s e d t h e f o l l o w i n g

    5

    h t t p : = = w w w : c s : u c i : e d u = ~ m l e a r n

  • 8/12/2019 High Dimensional Distance

    11/15

    50

    55

    60

    65

    70

    7580

    85

    90

    95

    100

    0 0.5 1 1.5 2 2.5 3

    Classification

    Rate

    Distance Parameter

    F i g . 4 . E e c t i v e n e s s o f k - M e a n s

    s i m p l e e x p e r i m e n t : F o r e a c h o f t h e c a s e s t h a t w e t e s t e d o n , w e s t r i p p e d o t h e

    c l a s s v a r i a b l e f r o m t h e d a t a s e t a n d c o n s i d e r e d t h e f e a t u r e v a r i a b l e s o n l y . T h e

    q u e r y p o i n t s w e r e p i c k e d f r o m t h e o r i g i n a l d a t a b a s e , a n d t h e c l o s e s t l n e i g h b o r s

    w e r e f o u n d t o e a c h t a r g e t p o i n t u s i n g d i e r e n t d i s t a n c e m e t r i c s . T h e t e c h n i q u e

    w a s t e s t e d u s i n g t h e f o l l o w i n g t w o m e a s u r e s :

    1 . C l a s s V a r i a b l e A c c u r a c y : T h i s w a s t h e p r i m a r y m e a s u r e t h a t w e u s e d

    i n o r d e r t o t e s t t h e q u a l i t y o f t h e d i e r e n t d i s t a n c e m e t r i c s . S i n c e t h e c l a s s v a r i -

    a b l e i s k n o w n t o d e p e n d i n s o m e w a y o n t h e f e a t u r e v a r i a b l e s , t h e p r o x i m i t y o f

    o b j e c t s b e l o n g i n g t o t h e s a m e c l a s s i n f e a t u r e s p a c e i s e v i d e n c e o f t h e m e a n i n g -

    f u l n e s s o f a g i v e n d i s t a n c e m e t r i c . T h e s p e c i c m e a s u r e t h a t w e u s e d w a s t h e

    t o t a l n u m b e r o f t h e l n e a r e s t n e i g h b o r s t h a t b e l o n g e d t o t h e s a m e c l a s s a s t h e

    t a r g e t o b j e c t o v e r a l l t h e d i e r e n t t a r g e t o b j e c t s . N e e d l e s s t o s a y , w e d o n o t

    i n t e n d t o p r o p o s e t h i s r u d i m e n t a r y u n s u p e r v i s e d t e c h n i q u e a s a n a l t e r n a t i v e t o

    c l a s s i c a t i o n m o d e l s , b u t u s e t h e c l a s s i c a t i o n p e r f o r m a n c e o n l y a s a n e v i d e n c e

    o f t h e m e a n i n g f u l n e s s ( o r l a c k o f m e a n i n g f u l n e s s ) o f a g i v e n d i s t a n c e m e t r i c . T h e

    c l a s s l a b e l s m a y n o t n e c e s s a r i l y a l w a y s c o r r e s p o n d t o l o c a l i t y i n f e a t u r e s p a c e ;

    t h e r e f o r e t h e m e a n i n g f u l n e s s r e s u l t s p r e s e n t e d a r e e v i d e n t i a l i n n a t u r e . H o w e v e r ,

    a c o n s i s t e n t e e c t o n t h e c l a s s v a r i a b l e a c c u r a c y w i t h i n c r e a s i n g n o r m p a r a m e t e r

    d o e s t e n d t o b e a p o w e r f u l w a y o f d e m o n s t r a t i n g q u a l i t a t i v e t r e n d s .

    2 . N o i s e S t a b i l i t y : H o w d o e s t h e q u a l i t y o f t h e d i s t a n c e m e t r i c v a r y w i t h

    m o r e o r l e s s n o i s y d a t a ? W e u s e d n o i s e m a s k i n g i n o r d e r t o e v a l u a t e t h i s a s p e c t .

    I n n o i s e m a s k i n g , e a c h e n t r y i n t h e d a t a b a s e w a s r e p l a c e d b y a r a n d o m e n t r y

    w i t h m a s k i n g p r o b a b i l i t y p

    c

    . T h e r a n d o m e n t r y w a s c h o s e n f r o m a u n i f o r m

    d i s t r i b u t i o n c e n t e r e d a t t h e m e a n o f t h a t a t t r i b u t e . T h u s , w h e n p

    c

    i s 1 , t h e d a t a

    i s c o m p l e t e l y n o i s y . W e s t u d i e d h o w e a c h o f t h e t w o p r o b l e m s w e r e a e c t e d b y

    n o i s e m a s k i n g .

    I n T a b l e 3 , w e h a v e i l l u s t r a t e d s o m e e x a m p l e s o f t h e v a r i a t i o n i n p e r f o r m a n c e

    f o r d i e r e n t d i s t a n c e m e t r i c s . E x c e p t f o r a f e w e x c e p t i o n s , t h e m a j o r t r e n d i n

    t h i s t a b l e i s t h a t t h e a c c u r a c y p e r f o r m a n c e d e c r e a s e s w i t h i n c r e a s i n g v a l u e o f t h e

    n o r m p a r a m e t e r . W e h a v e s h o w t h e t a b l e i n t h e r a n g e L

    0 1

    t o L

    1 0

    b e c a u s e i t w a s

    e a s i e s t t o c a l c u l a t e t h e d i s t a n c e v a l u e s w i t h o u t e x c e e d i n g t h e n u m e r i c a l r a n g e s i n

    t h e c o m p u t e r r e p r e s e n t a t i o n . W e h a v e a l s o i l l u s t r a t e d t h e a c c u r a c y p e r f o r m a n c e

    w h e n t h e L

    1

    m e t r i c i s u s e d . O n e i n t e r e s t i n g o b s e r v a t i o n i s t h a t t h e a c c u r a c y

  • 8/12/2019 High Dimensional Distance

    12/15

    T a b l e 3 . N u m b e r o f c o r r e c t c l a s s l a b e l m a t c h e s b e t w e e n n e a r e s t n e i g h b o r a n d t a r g e t

    D a t a S e t L

    0 1

    L

    0 5

    L

    1

    L

    2

    L

    4

    L

    1 0

    L

    1

    R a n d o m

    M a c h i n e 5 2 2 4 7 4 4 4 9 4 0 2 3 6 4 3 5 3 3 4 1 1 5 3

    M u s k 9 9 8 8 9 3 6 8 3 4 0 5 3 0 1 2 7 2 1 6 3 1 4 0

    B r e a s t C a n c e r ( w d b c ) 5 2 9 9 5 2 6 8 5 1 9 6 5 0 5 2 4 6 6 1 4 1 7 2 4 0 3 2 3 0 2 1

    S e g m e n t a t i o n 1 4 2 3 1 4 7 1 1 3 7 7 1 2 1 0 1 1 0 3 1 0 3 1 3 0 0 3 2 3

    I o n o s p h e r e 2 9 5 4 3 0 0 2 2 8 3 9 2 4 3 0 2 0 6 2 1 8 3 6 1 7 6 9 1 8 8 4

    0 1 2 3 4 5 6 7 8 9 100

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    ACCURACY OF RANDOM MATCHING

    PARAMETER OF DISTANCE NORM USED

    ACCURACYRATIOT

    OR

    ANDOMM

    ATCHING

    F i g . 5 . A c c u r a c y d e p e n d i n g o n t h e n o r m

    p a r a m e t e r

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    ACCURACY OF RANDOM MATCHING

    NOISE MASKING PROBABILITY

    ACC

    URACYRATIO

    L(0.1)

    L(1)

    L(10)

    F i g . 6 . A c c u r a c y d e p e n d i n g o n n o i s e

    m a s k i n g

    w i t h t h e L

    1

    d i s t a n c e m e t r i c i s o f t e n w o r s e t h a n t h e a c c u r a c y v a l u e b y p i c k i n g

    a r e c o r d f r o m t h e d a t a b a s e a t r a n d o m a n d r e p o r t i n g t h e c o r r e s p o n d i n g t a r g e t

    v a l u e . T h i s t r e n d i s o b s e r v e d b e c a u s e o f t h e f a c t t h a t t h e L

    1

    m e t r i c o n l y l o o k s

    a t t h e d i m e n s i o n a t w h i c h t h e t a r g e t a n d n e i g h b o r a r e f u r t h e s t a p a r t . I n h i g h

    d i m e n s i o n a l s p a c e , t h i s i s l i k e l y t o b e a v e r y p o o r r e p r e s e n t a t i o n o f t h e n e a r e s t

    n e i g h b o r . A s i m i l a r a r g u m e n t i s t r u e f o r L

    k

    d i s t a n c e m e t r i c s ( f o r h i g h v a l u e s o f

    k ) w h i c h p r o v i d e u n d u e i m p o r t a n c e t o t h e d i s t a n t ( s p a r s e / n o i s y ) d i m e n s i o n s .

    I t i s p r e c i s e l y t h i s a s p e c t w h i c h i s r e e c t e d i n o u r t h e o r e t i c a l a n a l y s i s o f t h e

    r e l a t i v e c o n t r a s t , w h i c h r e s u l t s i n d i s t a n c e m e t r i c s w i t h h i g h n o r m p a r a m e t e r s

    t o b e p o o r l y d i s c r i m i n a t i n g b e t w e e n t h e f u r t h e s t a n d n e a r e s t n e i g h b o r .

    I n F i g u r e 5 , w e h a v e s h o w n t h e v a r i a t i o n i n t h e a c c u r a c y o f t h e c l a s s v a r i a b l e

    m a t c h i n g w i t h k , w h e n t h e L

    k

    n o r m i s u s e d . T h e a c c u r a c y o n t h e Y - a x i s i s

    r e p o r t e d a s t h e r a t i o o f t h e a c c u r a c y t o t h a t o f a c o m p l e t e l y r a n d o m m a t c h i n g

    s c h e m e . T h e g r a p h i s a v e r a g e d o v e r a l l t h e d a t a s e t s o f T a b l e 3 . I t i s e a s y t o s e e

    t h a t t h e r e i s a c l e a r t r e n d o f t h e a c c u r a c y w o r s e n i n g w i t h i n c r e a s i n g v a l u e s o f

    t h e p a r a m e t e r k .

    W e a l s o s t u d i e d t h e r o b u s t n e s s o f t h e s c h e m e t o t h e u s e o f n o i s e m a s k i n g .

    F o r t h i s p u r p o s e , w e h a v e i l l u s t r a t e d t h e p e r f o r m a n c e o f t h r e e d i s t a n c e m e t r i c s

    i n F i g u r e 6 : L

    0 1

    , L

    1

    , a n d L

    1 0

    f o r v a r i o u s v a l u e s o f t h e m a s k i n g p r o b a b i l i t y o n

    t h e m a c h i n e d a t a s e t . O n t h e X - a x i s , w e h a v e d e n o t e d t h e v a l u e o f t h e m a s k i n g

    p r o b a b i l i t y , w h e r e a s o n t h e Y - a x i s w e h a v e t h e a c c u r a c y r a t i o t o t h a t o f a c o m -

  • 8/12/2019 High Dimensional Distance

    13/15

    p l e t e l y r a n d o m m a t c h i n g s c h e m e . N o t e t h a t w h e n t h e m a s k i n g p r o b a b i l i t y i s 1 ,

    t h e n a n y s c h e m e w o u l d d e g r a d e t o a r a n d o m m e t h o d . H o w e v e r , i t i s i n t e r e s t i n g

    t o s e e f r o m F i g u r e 6 t h a t t h e L

    1 0

    d i s t a n c e m e t r i c d e g r a d e s m u c h f a s t e r t o t h e

    r a n d o m p e r f o r m a n c e ( a t a m a s k i n g p r o b a b i l i t y o f 0 . 4 ) , w h e r e a s t h e L

    1

    d e g r a d e s

    t o r a n d o m a t 0 . 6 . T h e L

    0 1

    d i s t a n c e m e t r i c i s m o s t r o b u s t t o t h e p r e s e n c e o f

    n o i s e i n t h e d a t a s e t a n d d e g r a d e s t o r a n d o m p e r f o r m a n c e a t t h e s l o w e s t r a t e .

    T h e s e r e s u l t s a r e c l o s e l y c o n n e c t e d t o o u r t h e o r e t i c a l a n a l y s i s w h i c h s h o w s t h e

    r a p i d l a c k o f d i s c r i m i n a t i o n b e t w e e n t h e n e a r e s t a n d f u r t h e s t d i s t a n c e s f o r h i g h

    v a l u e s o f t h e n o r m - p a r a m e t e r b e c a u s e o f u n d u e w e i g h t i n g b e i n g g i v e n t o t h e

    n o i s y d i m e n s i o n s w h i c h c o n t r i b u t e t h e m o s t t o t h e d i s t a n c e .

    5 C o n c l u s i o n s a n d S u m m a r y

    I n t h i s p a p e r , w e s h o w e d s o m e s u r p r i s i n g r e s u l t s o f t h e q u a l i t a t i v e b e h a v i o r o f

    t h e d i e r e n t d i s t a n c e m e t r i c s f o r m e a s u r i n g p r o x i m i t y i n h i g h d i m e n s i o n a l i t y .

    W e d e m o n s t r a t e d o u r r e s u l t s i n b o t h a t h e o r e t i c a l a n d e m p i r i c a l s e t t i n g . I n t h e

    p a s t , n o t m u c h a t t e n t i o n h a s b e e n p a i d t o t h e c h o i c e o f d i s t a n c e m e t r i c s u s e d

    i n h i g h d i m e n s i o n a l a p p l i c a t i o n s . T h e r e s u l t s o f t h i s p a p e r a r e l i k e l y t o h a v e a

    p o w e r f u l i m p a c t o n t h e p a r t i c u l a r c h o i c e o f d i s t a n c e m e t r i c w h i c h i s u s e d f r o m

    p r o b l e m s s u c h a s c l u s t e r i n g , c a t e g o r i z a t i o n , a n d s i m i l a r i t y s e a r c h ; a l l o f w h i c h

    d e p e n d u p o n s o m e n o t i o n o f p r o x i m i t y .

    R e f e r e n c e s

    1 . W e b e r R . , S c h e k H . - J . , B l o t t S . : A Q u a n t i t a t i v e A n a l y s i s a n d P e r f o r m a n c e S t u d y

    f o r S i m i l a r i t y - S e a r c h M e t h o d s i n H i g h - D i m e n s i o n a l S p a c e s . V L D B C o n f e r e n c e P r o -

    c e e d i n g s , 1 9 9 8 .

    2 . B e n n e t t K . P . , F a y y a d U . , G e i g e r D . : D e n s i t y - B a s e d I n d e x i n g f o r A p p r o x i m a t e

    N e a r e s t N e i g h b o r Q u e r i e s . A C M S I G K D D C o n f e r e n c e P r o c e e d i n g s , 1 9 9 9 .

    3 . B e r c h t o l d S . , B o h m C . , K r i e g e l H . - P . : T h e P y r a m i d T e c h n i q u e : T o w a r d s B r e a k i n g

    t h e C u r s e o f D i m e n s i o n a l i t y . A C M S I G M O D C o n f e r e n c e P r o c e e d i n g s , J u n e 1 9 9 8 .

    4 . B e r c h t o l d S . , B o h m C . , K e i m D . , K r i e g e l H . - P . : A C o s t M o d e l f o r N e a r e s t N e i g h b o r

    S e a r c h i n H i g h D i m e n s i o n a l S p a c e . A C M P O D S C o n f e r e n c e P r o c e e d i n g s , 1 9 9 7 .

    5 . B e r c h t o l d S . , E r t l B . , K e i m D . , K r i e g e l H . - P . S e i d l T . : F a s t N e a r e s t N e i g h b o r S e a r c h

    i n H i g h D i m e n s i o n a l S p a c e s . I C D E C o n f e r e n c e P r o c e e d i n g s , 1 9 9 8 .

    6 . B e y e r K . , G o l d s t e i n J . , R a m a k r i s h n a n R . , S h a f t U . : W h e n i s N e a r e s t N e i g h b o r s

    M e a n i n g f u l ? I C D T C o n f e r e n c e P r o c e e d i n g s , 1 9 9 9 .

    7 . S h a f t U . , G o l d s t e i n J . , B e y e r K . : N e a r e s t N e i g h b o r Q u e r y P e r f o r m a n c e f o r U n s t a -

    b l e D i s t r i b u t i o n s . T e c h n i c a l R e p o r t T R 1 3 8 8 , D e p a r t m e n t o f C o m p u t e r S c i e n c e ,

    U n i v e r s i t y o f W i s c o n s i n a t M a d i s o n .

    8 . G u t t m a n , A . : R - T r e e s : A D y n a m i c I n d e x S t r u c t u r e f o r S p a t i a l S e a r c h i n g . A C M

    S I G M O D C o n f e r e n c e P r o c e e d i n g s , 1 9 8 4 .

    9 . H i n n e b u r g A . , A g g a r w a l C . , K e i m D . : W h a t i s t h e n e a r e s t n e i g h b o r i n h i g h d i m e n -

    s i o n a l s p a c e s ? V L D B C o n f e r e n c e P r o c e e d i n g s , 2 0 0 0 .

    1 0 . K a t a y a m a N . , S a t o h S . : T h e S R - T r e e : A n I n d e x S t r u c t u r e f o r H i g h D i m e n s i o n a l

    N e a r e s t N e i g h b o r Q u e r i e s . A C M S I G M O D C o n f e r e n c e P r o c e e d i n g s , 1 9 9 7 .

    1 1 . L i n K . - I . , J a g a d i s h H . V . , F a l o u t s o s C . : T h e T V - t r e e : A n I n d e x S t r u c t u r e f o r H i g h

    D i m e n s i o n a l D a t a . V L D B J o u r n a l , V o l u m e 3 , N u m b e r 4 , p a g e s 5 1 7 { 5 4 2 , 1 9 9 2 .

  • 8/12/2019 High Dimensional Distance

    14/15

    A p p e n d i x

    H e r e w e p r o v i d e a d e t a i l e d p r o o f o f L e m m a 2 , w h i c h p r o v e s o u r m o d i e d c o n v e r -

    g e n c e r e s u l t s f o r a r b i t r a r y d i s t r i b u t i o n s o f p o i n t s . T h i s L e m m a s h o w s t h a t t h e

    a s y m p t o t i c a l r a t e o f c o n v e r g e n c e o f t h e a b s o l u t e d i e r e n c e o f d i s t a n c e s b e t w e e n

    t h e n e a r e s t a n d f u r t h e s t p o i n t s i s d e p e n d e n t o n t h e d i s t a n c e n o r m u s e d . T o r e -

    c a p , w e r e s t a t e L e m m a 2 .

    L e m m a 2 : L e t F b e a n a r b i t r a r y d i s t r i b u t i o n o f N = 2 p o i n t s . T h e n ,

    l i m

    d ! 1

    E

    h

    D m a x

    k

    d

    ? D m i n

    k

    d

    d

    1 = k ? 1 = 2

    i

    = C

    k

    , w h e r e C

    k

    i s s o m e c o n s t a n t d e p e n d e n t o n k .

    P r o o f . L e t A

    d

    a n d B

    d

    b e t h e t w o p o i n t s i n a d d i m e n s i o n a l d a t a d i s t r i b u t i o n

    s u c h t h a t e a c h c o o r d i n a t e i s i n d e p e n d e n t l y d r a w n f r o m t h e d a t a d i s t r i b u t i o n F .

    S p e c i c a l l y A

    d

    = ( P

    1

    : : : P

    d

    ) a n d B

    d

    = ( Q

    1

    : : : Q

    d

    ) w i t h P

    i

    a n d Q

    i

    b e i n g d r a w n

    f r o m F . L e t P A

    d

    = f

    P

    d

    i = 1

    ( P

    i

    )

    k

    g

    1 = k

    b e t h e d i s t a n c e o f A

    d

    t o t h e o r i g i n u s i n g

    t h e L

    k

    m e t r i c a n d P B

    d

    = f

    P

    d

    i = 1

    ( Q

    i

    )

    k

    g

    1 = k

    t h e d i s t a n c e o f B

    d

    .

    W e a s s u m e t h a t t h e k t h p o w e r o f a r a n d o m v a r i a b l e d r a w n f r o m t h e d i s -

    t r i b u t i o n F h a s m e a n

    F ; k

    a n d s t a n d a r d d e v i a t i o n

    F ; k

    . T h i s m e a n s t h a t :

    P A

    k

    d

    d

    !

    p

    F ; k

    ;

    P B

    k

    d

    d

    !

    p

    F ; k

    a n d t h e r e f o r e :

    P A

    d

    = d

    1 = k

    !

    p

    (

    F ; k

    )

    1 = k

    ; P B

    d

    = d

    1 = k

    !

    p

    (

    F ; k

    )

    1 = k

    : ( 1 4 )

    W e i n t e n d t o s h o w t h a t

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    !

    p

    C

    k

    f o r s o m e c o n s t a n t C

    k

    d e p e n d i n g

    o n k . W e e x p r e s s j P A

    d

    ? P B

    d

    j i n t h e f o l l o w i n g n u m e r a t o r / d e n o m i n a t o r f o r m

    w h i c h w e w i l l u s e i n o r d e r t o e x a m i n e t h e c o n v e r g e n c e b e h a v i o r o f t h e n u m e r a t o r

    a n d d e n o m i n a t o r i n d i v i d u a l l y .

    j P A

    d

    ? P B

    d

    j =

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j

    P

    k ? 1

    r = 0

    ( P A

    d

    )

    k ? r ? 1

    ( P B

    d

    )

    r

    ( 1 5 )

    D i v i d i n g b o t h s i d e s b y d

    1 = k ? 1 = 2

    a n d r e g r o u p i n g o n r i g h t - h a n d - s i d e w e g e t

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    =

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j =

    p

    d

    P

    k ? 1

    r = 0

    ?

    P A

    d

    d

    1 = k

    k ? r ? 1

    ?

    P B

    d

    d

    1 = k

    r

    ( 1 6 )

    C o n s e q u e n t l y , u s i n g S l u t s k y ' s t h e o r e m a n d t h e r e s u l t s o f E q u a t i o n 1 4 w e h a v e :

    k ? 1

    X

    r = 0

    P A

    d

    = d

    1 = k

    k ? r ? 1

    P B

    d

    = d

    1 = k

    r

    !

    p

    k (

    F ; k

    )

    ( k ? 1 ) = k

    ( 1 7 )

    H a v i n g c h a r a c t e r i z e d t h e c o n v e r g e n c e b e h a v i o r o f t h e d e n o m i n a t o r o f t h e r i g h t -

    h a n d - s i d e o f E q u a t i o n 1 6 , l e t u s n o w e x a m i n e t h e b e h a v i o r o f t h e n u m e r a t o r :

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j =

    p

    d = j

    P

    d

    i = 1

    ( ( P

    i

    )

    k

    ? ( Q

    i

    )

    k

    ) j =

    p

    d = j

    P

    d

    i = 1

    R

    i

    j =

    p

    d .

    H e r e R

    i

    i s t h e n e w r a n d o m v a r i a b l e d e n e d b y ( ( P

    i

    )

    k

    ? ( Q

    i

    )

    k

    ) 8 i 2 f 1 ; : : : d g .

    T h i s r a n d o m v a r i a b l e h a s z e r o m e a n a n d s t a n d a r d d e v i a t i o n w h i c h i s

    p

    2

    F ; k

    w h e r e

    F ; k

    i s t h e s t a n d a r d d e v i a t i o n o f ( P

    i

    )

    k

    . T h e n , t h e s u m o f d i e r e n t v a l u e s

  • 8/12/2019 High Dimensional Distance

    15/15

    o f R

    i

    o v e r d d i m e n s i o n s w i l l c o n v e r g e t o a n o r m a l d i s t r i b u t i o n w i t h m e a n 0

    a n d s t a n d a r d d e v i a t i o n

    p

    2

    F ; k

    p

    d b e c a u s e o f t h e c e n t r a l l i m i t t h e o r e m .

    C o n s e q u e n t l y , t h e m e a n a v e r a g e d e v i a t i o n o f t h i s d i s t r i b u t i o n w i l l b e C

    F ; k

    f o r s o m e c o n s t a n t C . T h e r e f o r e , w e h a v e :

    l i m

    d ! 1

    E

    j ( P A

    d

    )

    k

    ? ( P B

    d

    )

    k

    j

    p

    d

    = C

    F ; k

    ( 1 8 )

    S i n c e t h e d e n o m i n a t o r o f E q u a t i o n 1 6 s h o w s p r o b a b i l i s t i c c o n v e r g e n c e , w e c a n

    c o m b i n e t h e r e s u l t s o f E q u a t i o n s 1 7 a n d 1 8 t o o b t a i n :

    l i m

    d ! 1

    E

    j P A

    d

    ? P B

    d

    j

    d

    1 = k ? 1 = 2

    = C

    F ; k

    k

    ( k ? 1 ) = k

    F ; k

    ( 1 9 )

    T h e r e s u l t f o l l o w s .

    C o n f u s i o n M a t r i c e s W e h a v e i l l u s t r a t e d t h e c o n f u s i o n m a t r i c e s f o r t w o

    d i e r e n t v a l u e s o f p b e l o w . A s i l l u s t r a t e d , t h e c o n f u s i o n m a t r i x f o r u s i n g t h e

    v a l u e p = 0 : 3 i s s i g n i c a n t l y b e t t e r t h a n t h e o n e o b t a i n e d u s i n g p = 2 .

    T a b l e 4 . C o n f u s i o n M a t r i x - p = 2 , ( r o w s f o r p r o t o t y p e , c o l u m s f o r c l u s t e r )

    1 2 0 8 8 2 9 7 1 1 4 1 0 1 4

    0 2 0 0 6 3 2 8 4

    1 9 8 7 2 1 0 4 3 2 1 1 0

    8 7 5 0 8 7 4 9 9 5 4 1 1 8

    3 9 0 1 0 8 8 9 9 4 8

    2 3 6 1 0 1 2 3 6 4 2 1 6

    T a b l e 5 . C o n f u s i o n M a t r i x - p = 0 . 3 , ( r o w s f o r p r o t o t y p e , c o l u m s f o r c l u s t e r )

    5 1 1 1 5 9 7 7 3 1 0 3 7 1 5

    0 1 7 2 4 0 9 9 3 5 1 4

    1 5 1 0 9 9 9 6 2 0 4

    1 9 8 5 8 6 6 5 1 9 1

    8 0 9 3 9 9 9 5 6

    9 9 2 5 0 1 1 9 2 0 0 1 0


Recommended