Clustering

INTELLIGNCIA ARTIFICIAL

Beatriz Lpez Curs 2014-15

Descriptive DM 1

Clustsering 2 K-means 2

Clustering jerrquic 3

Contingut

DESCRIPTIVE DM

Slides (with some modifications) provided by Nada Lavra Joef Stefan Institute, Ljubljana, Slovenia, Visiting UdG on course 2007-08

Types of DM tasks

Predictive DM: Classification (learning of rules, decision trees,

...) Prediction and estimation (regression) Predictive relational DM (ILP)

Descriptive DM: description and summarization dependency analysis (association rule learning) discovery of properties and constraints segmentation (clustering) subgroup discovery

+ +

+

- - -

H

x x x

x

+ x x x H

Hypothesis, model

Predictive vs. descriptive induction Predictive induction: Inducing classifiers for solving

classification and prediction tasks, Classification rule learning, Decision tree learning, ... Bayesian classifier, ANN, SVM, ... Data analysis through hypothesis generation and testing

Descriptive induction: Discovering interesting regularities in the data, uncovering patterns, ... for solving KDD tasks Symbolic clustering, Association rule learning, Subgroup discovery,

... Exploratory data analysis

Predictive vs. descriptive induction: A rule learning perspective

Predictive induction: Induces rulesets acting as classifiers for solving classification and prediction tasks

Descriptive induction: Discovers individual rules describing interesting regularities in the data

Therefore: Different goals, different heuristics, different evaluation criteria

Descriptive DM

Often used for preliminary explanatory data analysis User gets feel for the data and its structure Aims at deriving descriptions of characteristics of

the data Visualization and descriptive statistical techniques

can be used

Descriptive DM Description

Data description and summarization: describe elementary and aggregated data characteristics (statistics, )

Dependency analysis: describe associations, dependencies, discovery of properties and constraints

Segmentation Clustering: separate objects into subsets according to distance and/or similarity

(clustering, SOM, visualization, ...) Subgroup discovery: find unusual subgroups that are significantly different from

the majority (deviation detection w.r.t. overall class distribution)

Descriptive DM techniques

Clustering Association rule learning Subgroup discovery

Discovers individual rules describing interesting regularities in the data from labeled examples

CLUSTERING

Slides partially provided by Bianca Innocenti (UdG)

12

Introducci

Els mtodes dagregaci o clustering permeten obtenir una primera aproximaci a lestructura dun domini

Sutilitzen en una situaci de relatiu desconeixement del domini o per trobar patrons no esperats en les dades.

Es tracta dobtenir una descripci inicial que separi grups dobjectes amb caracterstiques semblants, basant-se noms en les dades, sense imposar cap criteri a priori.

13

Representaci grfica:

Cada exemple s un punt en lespai de classificaci.

Els atributs defineixen els eixos de lespai de classificaci.

La distncia permet assimilar el concepte dobjectes semblants i objectes propers.

Un ve s un objecte que es troba a una distncia molt propera en lespai de classificaci

Cas particular n=2: pla

),...,,,(),...,,,(

321

321

n

n

yyyyyxxxxx

=

=

X1

X2 X

Y

14

Tipus de clustering

Basats en la distncia La similitud entre objectes es basa en la distncia (mesures)

Basats en els conceptes La similitud es basa en conceptes comuns entre els

exemples (fitness de descripcions de conceptes)

Els mtodes depenen fortament de la definici de distancia

15

Distncies

Cal distingir Distncies entre valors numrics Distncies entre valors no-numrics Hbrides Per a conjunts difusos Distncies entre estructura de dades complexes

(arbres, ...)

16

Distncies Definici

Una distncia s una funci que pren valors en un espai n-dimensional i que dna com a resultat un valor real positiu.

Propietats

A ms, donats dos punts X1, X2 en un espai n-dimensional, perqu una funci sigui qualificada com a distncia, ha de complir les propietats segents:

Dist(X1, X2) = 0 si, i noms si, X1 = X2. Dist(X1, X2) 0 per a tot X1, X2. Dist(X1, X2) = Dist(X2, X1). Dist(X1, X2) Dist(X1, X3) + Dist(X3, X2).

17

Distncies per a valors numrics (i)

Distncia Euclidea

Distncia de Manhattan (city-block)

=

=n

iii yxyxd

1

2)(),(x

y

=

=n

iii yxyxd

1||),(

x

y

Exercise

Draw a circle in the Euclidean space

18

Draw a circle in the city-block space

Circle: All points are the same distance from the centre.

19

Distncies per a valors numrics (ii)

Minkowski: per d dimensions

d: dimensionalitat Euclidea: p=2 Manhattan: p=1

20

Distncies per a valors numrics (iii)

Distncia de Chebychev

Distncia del cosinus

||max),( ,...,1 iini yxyxd = =

)||||||||

arccos(),(yx

yxyxdT

=

x

y

21

Distncies per a valors numrics (iv)

Distncia de Mahalanobis

)()(),( 1 yxSyxyxd T =

S: matriu de covarincies

22

Distncies numriques: consideracions prvies Normalitzaci dels valors dels atributs

Normalitzaci lineal uniforme

minmaxmin'

=vv

Abans de normalitzar Desprs de normalitzar

23

Distncia per a valors categrics

Distncia de Hamming

On

w: factor de reducci (w=1/n)

=

=m

iii yxyxd

1),(),(

1),( =ii yx

0),( =ii yx

ii yx

ii yx =

24

Distncia per a strings

Distncia entre strings representats com a vectors

||||||),(

yxyxyxyxd

=

25

Consideracions Discretitzaci (pre-procs)

Podem usar mesures categriques per atributs numrics si discretitzem els valors

edat: [0,100] [0, 2] beb (18,35] jove (2,10] nen (35,65] gran (10, 18] adolescent (65,100] vell

edat:{beb,nen,adolescent,jove,gran,vell}

Hi ha molts mtodes de discretitzaci

26

Mesures hbrides

Eixample

=

== K

k

w

kk

K

k

w

k

k

e

yxdeyxd

1

1),(

),(

kw pes de latribut k

>

=

ordenat nodiscret un sk si-1

ordenatdiscret un sk o icontinu sk si

1|)()(|

icontinu sk si)()(

|)()(|

),(

)qlv(y),plv(x kk

k

k

kk

kkk

kk

w

Vyqlvxqlv

wklowervalkupperval

yqtvxqtv

yxd

=

=)()( si0)()( si1

)(),(kk

kkyqlvxqlv yqlvxqlv

yqlvxqlvkk

qtv(xk): valor quantitatiu de latribut k de lexemple x qlv(xk): valor qualitatiu de latribut k de lexmple x upperval(k): valor mxim de latribut k lowerval(k): valor mnim de latribut k

: llindar que diferencia els atributs rellevants del que no ho sn

27

Mtodes dagregaci Clustering exclusiu

k-means Clustering sobreposat (overlapping)

Fuzzy k-means Clustering jerrquic

Clustering jerrquic Clustering probabilstic

EM (Expectation-Maximization) Mapes autorganitzatius

K-MEANS


29

K-means Es basa en la idea dobtenir un nombre k de grups que

es fixa al principi del procs. Per a cada grup, es genera un centroide k Es mesuren les distncies de tots els punts als

centroides, i sassossien els punts al centroide de ms a prop

Es recalcula el centroide Sitera el procs fins que no es produeixien canvis en

els centroides

30

Exemple

31

K-means: Exemple, k = 3

Pas 1: Seleccionar les llavors.

Pas 2: Assignar els objectes als centres ms propers

Pas 3: Recalcular els centroides

Exemple

Imatges danuncis que apareixen en una web

32

Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F

Pas 1. Centroides

Suposem k=2. Agafo a latzar com a centroides C (C1) i F (C2)

33


Pas 2. Distncies

Similitud (1-distncia) Distncia de

Hamming (w=4)

34

Exemple Similitud C1 Similitud C2 A 14

34 B 24

04 C 44

24 D 04

24 E 24

34 F 24

44


Pas 3. Assignaci de centroide

35

Exemple Distncia C1 Distncia C2 A 14

34 B 24

04 C 44

24 D 04

24 E 24

34 F 24

44

Similitud Similitud

Pas 4. Nous centroides C1: a partir de B,C

Geometria: rectangular URL: si Text: no (empat, preferim el del C1) Posici: centre (empat)

C2: A,D,E,F Geometria: quadrada URL: no Text: no (empat, preferim C2) Posici: dalt (majoria)

36

37

K-means. Objectiu

Fi de lalgorisme: minimitzar funci objectiu

2

1 1= =

=k

j

n

ijie cxJ

xi: exemple i cj: centroide j ||?||: mesura de distncia emprada

38

Consideracions

Valors anmals (outliers)

39

Algorisme k-means

1)Seleccionar les k centroides inicials entre tots els punts disponibles.

2)Calcular la distncia dels exemples als centroides

3)Assignar els objectes al centroide ms proper

3)Re-calcular els centroides 4)Repetir 2-3 fins que no hi hagi variaci

entre els grups (no hi hagi cap exemple que se li assigni un centroide diferent en una iteraci)

40

K-means: Avantatges:

Relativament eficient: O(tkn) n s el nombre dexemples, k el nombre de clusters i t el nombre

diteracions. Normalment tk

CLUSTERING JERRQUIC


42

Clustering Jerrquic

Comencen considerant que cada objecte forma un grup per si mateix. Creen un arbre en el qual els punts sn les fulles i els nodes interns revelen lestructura de similitud dels punts.

Llavors avaluen les distncies entre grups i creen per aglomeraci els diversos grups finals.

El comportament de lalgorisme depn de com es defineix la proximitat del parell de clusters.

43

Dendrgram Descompondre les dades en varis nivells de

particions anidades (arbre de clusters) anomenat Dendrgram.

Lagrupaci de les dades sobt tallant el dendrgram al nivell desitjat. Cada component connectat forma un cluster.

44

Enlla senzill: C1 C2

dist (C1, C2) = min { dist (X1, X2 ) : X1C1, X2C2 }

Mtodes Aglomeradors

Enlla complet:

dist (C1, C2) = max { dist (X1, X2 ) : X1C1, X2C2 }

C1 C2

45

Enlla senzill Enlla complet

47

1)Crear un arbre amb un node nic que representi tot el conjunt dobservacions.

2)Mentre no es compleixi criteri de finalitzaci, fer: 3)Anotar quin s el node amb millor qualitat nmax i el segent

en qualitat nmax-1. Aleshores: a)Si en unir nmax i nmax-1 dna un node amb ms qualitat que

Max(qualitat(nmax), qualitat(nmax-1)) llavors es crea un node que resulta de la fusi de nmax i nmax-1.

b)Sin cal considerar si s millor dividir nmax en dos nodes comparant la seva qualitat amb les de les particions resultants.

Per a cada nova Observaci Oi fer Per a cada node nj existent fer Si la qualitat de ni millora incorporant Oi llavors nj=nj U Oi Si no es troba cap node nj que millori llavors es crea un nou node nicament amb Oi fPer fPer

Lalgorisme

48

A B C D

Dist A B C D

A 20 7 2

B 10 25

C 3

D

Matriu de distncies Dades inicials

Clustering Jerrquic

49

A B C D

Dist A B C D

A 20 7 2

B 10 25

C 3

D

Clustering Jerrquic

Matriu de distncies Dades inicials

50

Clusters actuals

Enlla senzill

Dist A B C D

A 20 7 2

B 10 25

C 3

D A B C D 2

Clustering Jerrquic

Matriu de distncies

51

Dist AD B C

AD 20 3

B 10

C

A B C D

Clustering Jerrquic

Matriu de distncies Clusters actuals

Enlla senzill

52

A B C D

Dist AD B C

AD 20 3

B 10

C

Clustering Jerrquic


Enlla senzill

53

Dist AD B C

AD 20 3

B 10

C

A B C D

3

Clustering Jerrquic


Enlla senzill

54

Dist ADC

B

ADC

10

B

A B C D

Clustering Jerrquic


Enlla senzill

55

A B C D

Dist ADC

B

ADC

10

B

Clustering Jerrquic


Enlla senzill

56

Dist ADC

B

ADC

10

B

A B C D

10

Clustering Jerrquic


Enlla senzill

57

A B C D

Dist ADCB

ADCB

Clustering Jerrquic

Matriu de distncies Resultat final

Enlla senzill

58

Clustering Jerrquic Criteri de finalitzaci

Mantenir una distncia determinada entre grups. Continuar fins que hi hagi un sol grup i com que queda enregistrada la fusi que

hi ha hagut, obtenim lhistric del procs i podem veure a quin nivell interessa aturar-se.

Detecci de la proximitat entre grups Parmetre de tall que impedeix el creixement excessiu de larbre. Si una observaci no incrementa suficientment la qualitat del grup no es t en

compte. Qualitat duna agregaci

Una classe rep un valor ms alt quan ms alta sigui la similitud entre les observacions que aplega i com ms baixa sigui respecte a les de les altres classes.

PREGUNTES

INTELLIGNCIA ARTIFICIALContingutDescriptive DMTypes of DM tasks Predictive vs. descriptive inductionPredictive vs. descriptive induction: A rule learning perspectiveDescriptive DMDescriptive DMDescriptive DM techniquesClusteringIntroducciRepresentaci grfica:Tipus de clusteringDistnciesDistnciesDistncies per a valors numrics (i)ExerciseDistncies per a valors numrics (ii)Distncies per a valors numrics (iii)Distncies per a valors numrics (iv)Distncies numriques: consideracions prviesDistncia per a valors categricsDistncia per a stringsConsideracionsMesures hbridesMtodes dagregaciK-meansK-meansExempleK-means: Exemple, k = 3ExemplePas 1. Centroides Pas 2. DistnciesPas 3. Assignaci de centroide Pas 4. Nous centroidesK-means. ObjectiuConsideracions Algorisme k-meansK-means:Clustering JerrquicClustering JerrquicNmero de diapositiva 43Nmero de diapositiva 44Nmero de diapositiva 45Nmero de diapositiva 46LalgorismeNmero de diapositiva 48Nmero de diapositiva 49Nmero de diapositiva 50Nmero de diapositiva 51Nmero de diapositiva 52Nmero de diapositiva 53Nmero de diapositiva 54Nmero de diapositiva 55Nmero de diapositiva 56Nmero de diapositiva 57Clustering JerrquicPreguntes

Date post:	26-Sep-2015
Category:	Documents
Upload:	edu-feliu-baena
View:	9 times
Download:	5 times

Clustering

Documents