+ All Categories
Home > Documents > Clustering

Clustering

Date post: 26-Sep-2015
Category:
Upload: edu-feliu-baena
View: 9 times
Download: 5 times
Share this document with a friend
Description:
Inteligencia artificial, Clustering
Popular Tags:
58
INTEL·LIGÈNCIA ARTIFICIAL Beatriz López Curs 2014-15
Transcript
  • INTELLIGNCIA ARTIFICIAL

    Beatriz Lpez Curs 2014-15

  • Descriptive DM 1

    Clustsering 2 K-means 2

    Clustering jerrquic 3

    Contingut

  • DESCRIPTIVE DM

    Slides (with some modifications) provided by Nada Lavra Joef Stefan Institute, Ljubljana, Slovenia, Visiting UdG on course 2007-08

  • Types of DM tasks

    Predictive DM: Classification (learning of rules, decision trees,

    ...) Prediction and estimation (regression) Predictive relational DM (ILP)

    Descriptive DM: description and summarization dependency analysis (association rule learning) discovery of properties and constraints segmentation (clustering) subgroup discovery

    + +

    +

    - - -

    H

    x x x

    x

    + x x x H

    Hypothesis, model

  • Predictive vs. descriptive induction Predictive induction: Inducing classifiers for solving

    classification and prediction tasks, Classification rule learning, Decision tree learning, ... Bayesian classifier, ANN, SVM, ... Data analysis through hypothesis generation and testing

    Descriptive induction: Discovering interesting regularities in the data, uncovering patterns, ... for solving KDD tasks Symbolic clustering, Association rule learning, Subgroup discovery,

    ... Exploratory data analysis

  • Predictive vs. descriptive induction: A rule learning perspective

    Predictive induction: Induces rulesets acting as classifiers for solving classification and prediction tasks

    Descriptive induction: Discovers individual rules describing interesting regularities in the data

    Therefore: Different goals, different heuristics, different evaluation criteria

  • Descriptive DM

    Often used for preliminary explanatory data analysis User gets feel for the data and its structure Aims at deriving descriptions of characteristics of

    the data Visualization and descriptive statistical techniques

    can be used

  • Descriptive DM Description

    Data description and summarization: describe elementary and aggregated data characteristics (statistics, )

    Dependency analysis: describe associations, dependencies, discovery of properties and constraints

    Segmentation Clustering: separate objects into subsets according to distance and/or similarity

    (clustering, SOM, visualization, ...) Subgroup discovery: find unusual subgroups that are significantly different from

    the majority (deviation detection w.r.t. overall class distribution)

  • Descriptive DM techniques

    Clustering Association rule learning Subgroup discovery

    Discovers individual rules describing interesting regularities in the data from labeled examples

  • CLUSTERING

    Slides partially provided by Bianca Innocenti (UdG)

  • 12

    Introducci

    Els mtodes dagregaci o clustering permeten obtenir una primera aproximaci a lestructura dun domini

    Sutilitzen en una situaci de relatiu desconeixement del domini o per trobar patrons no esperats en les dades.

    Es tracta dobtenir una descripci inicial que separi grups dobjectes amb caracterstiques semblants, basant-se noms en les dades, sense imposar cap criteri a priori.

  • 13

    Representaci grfica:

    Cada exemple s un punt en lespai de classificaci.

    Els atributs defineixen els eixos de lespai de classificaci.

    La distncia permet assimilar el concepte dobjectes semblants i objectes propers.

    Un ve s un objecte que es troba a una distncia molt propera en lespai de classificaci

    Cas particular n=2: pla

    ),...,,,(),...,,,(

    321

    321

    n

    n

    yyyyyxxxxx

    =

    =

    X1

    X2 X

    Y

  • 14

    Tipus de clustering

    Basats en la distncia La similitud entre objectes es basa en la distncia (mesures)

    Basats en els conceptes La similitud es basa en conceptes comuns entre els

    exemples (fitness de descripcions de conceptes)

    Els mtodes depenen fortament de la definici de distancia

  • 15

    Distncies

    Cal distingir Distncies entre valors numrics Distncies entre valors no-numrics Hbrides Per a conjunts difusos Distncies entre estructura de dades complexes

    (arbres, ...)

  • 16

    Distncies Definici

    Una distncia s una funci que pren valors en un espai n-dimensional i que dna com a resultat un valor real positiu.

    Propietats

    A ms, donats dos punts X1, X2 en un espai n-dimensional, perqu una funci sigui qualificada com a distncia, ha de complir les propietats segents:

    Dist(X1, X2) = 0 si, i noms si, X1 = X2. Dist(X1, X2) 0 per a tot X1, X2. Dist(X1, X2) = Dist(X2, X1). Dist(X1, X2) Dist(X1, X3) + Dist(X3, X2).

  • 17

    Distncies per a valors numrics (i)

    Distncia Euclidea

    Distncia de Manhattan (city-block)

    =

    =n

    iii yxyxd

    1

    2)(),(x

    y

    =

    =n

    iii yxyxd

    1||),(

    x

    y

  • Exercise

    Draw a circle in the Euclidean space

    18

    Draw a circle in the city-block space

    Circle: All points are the same distance from the centre.

  • 19

    Distncies per a valors numrics (ii)

    Minkowski: per d dimensions

    d: dimensionalitat Euclidea: p=2 Manhattan: p=1

  • 20

    Distncies per a valors numrics (iii)

    Distncia de Chebychev

    Distncia del cosinus

    ||max),( ,...,1 iini yxyxd = =

    )||||||||

    arccos(),(yx

    yxyxdT

    =

    x

    y

  • 21

    Distncies per a valors numrics (iv)

    Distncia de Mahalanobis

    )()(),( 1 yxSyxyxd T =

    S: matriu de covarincies

  • 22

    Distncies numriques: consideracions prvies Normalitzaci dels valors dels atributs

    Normalitzaci lineal uniforme

    minmaxmin'

    =vv

    Abans de normalitzar Desprs de normalitzar

  • 23

    Distncia per a valors categrics

    Distncia de Hamming

    On

    w: factor de reducci (w=1/n)

    =

    =m

    iii yxyxd

    1),(),(

    1),( =ii yx

    0),( =ii yx

    ii yx

    ii yx =

  • 24

    Distncia per a strings

    Distncia entre strings representats com a vectors

    ||||||),(

    yxyxyxyxd

    =

  • 25

    Consideracions Discretitzaci (pre-procs)

    Podem usar mesures categriques per atributs numrics si discretitzem els valors

    edat: [0,100] [0, 2] beb (18,35] jove (2,10] nen (35,65] gran (10, 18] adolescent (65,100] vell

    edat:{beb,nen,adolescent,jove,gran,vell}

    Hi ha molts mtodes de discretitzaci

  • 26

    Mesures hbrides

    Eixample

    =

    == K

    k

    w

    kk

    K

    k

    w

    k

    k

    e

    yxdeyxd

    1

    1),(

    ),(

    kw pes de latribut k

    >

    =

    ordenat nodiscret un sk si-1

    ordenatdiscret un sk o icontinu sk si

    1|)()(|

    icontinu sk si)()(

    |)()(|

    ),(

    )qlv(y),plv(x kk

    k

    k

    kk

    kkk

    kk

    w

    Vyqlvxqlv

    wklowervalkupperval

    yqtvxqtv

    yxd

    =

    =)()( si0)()( si1

    )(),(kk

    kkyqlvxqlv yqlvxqlv

    yqlvxqlvkk

    qtv(xk): valor quantitatiu de latribut k de lexemple x qlv(xk): valor qualitatiu de latribut k de lexmple x upperval(k): valor mxim de latribut k lowerval(k): valor mnim de latribut k

    : llindar que diferencia els atributs rellevants del que no ho sn

  • 27

    Mtodes dagregaci Clustering exclusiu

    k-means Clustering sobreposat (overlapping)

    Fuzzy k-means Clustering jerrquic

    Clustering jerrquic Clustering probabilstic

    EM (Expectation-Maximization) Mapes autorganitzatius

  • K-MEANS

    Slides partially provided by Bianca Innocenti (UdG)

  • 29

    K-means Es basa en la idea dobtenir un nombre k de grups que

    es fixa al principi del procs. Per a cada grup, es genera un centroide k Es mesuren les distncies de tots els punts als

    centroides, i sassossien els punts al centroide de ms a prop

    Es recalcula el centroide Sitera el procs fins que no es produeixien canvis en

    els centroides

  • 30

    Exemple

  • 31

    K-means: Exemple, k = 3

    Pas 1: Seleccionar les llavors.

    Pas 2: Assignar els objectes als centres ms propers

    Pas 3: Recalcular els centroides

  • Exemple

    Imatges danuncis que apareixen en una web

    32

    Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F

  • Pas 1. Centroides

    Suposem k=2. Agafo a latzar com a centroides C (C1) i F (C2)

    33

    Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F

  • Pas 2. Distncies

    Similitud (1-distncia) Distncia de

    Hamming (w=4)

    34

    Exemple Similitud C1 Similitud C2 A 14

    34 B 24

    04 C 44

    24 D 04

    24 E 24

    34 F 24

    44

    Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F

  • Pas 3. Assignaci de centroide

    35

    Exemple Distncia C1 Distncia C2 A 14

    34 B 24

    04 C 44

    24 D 04

    24 E 24

    34 F 24

    44

    Similitud Similitud

  • Pas 4. Nous centroides C1: a partir de B,C

    Geometria: rectangular URL: si Text: no (empat, preferim el del C1) Posici: centre (empat)

    C2: A,D,E,F Geometria: quadrada URL: no Text: no (empat, preferim C2) Posici: dalt (majoria)

    36

  • 37

    K-means. Objectiu

    Fi de lalgorisme: minimitzar funci objectiu

    2

    1 1= =

    =k

    j

    n

    ijie cxJ

    xi: exemple i cj: centroide j ||?||: mesura de distncia emprada

  • 38

    Consideracions

    Valors anmals (outliers)

  • 39

    Algorisme k-means

    1)Seleccionar les k centroides inicials entre tots els punts disponibles.

    2)Calcular la distncia dels exemples als centroides

    3)Assignar els objectes al centroide ms proper

    3)Re-calcular els centroides 4)Repetir 2-3 fins que no hi hagi variaci

    entre els grups (no hi hagi cap exemple que se li assigni un centroide diferent en una iteraci)

  • 40

    K-means: Avantatges:

    Relativament eficient: O(tkn) n s el nombre dexemples, k el nombre de clusters i t el nombre

    diteracions. Normalment tk

  • CLUSTERING JERRQUIC

    Slides partially provided by Bianca Innocenti (UdG)

  • 42

    Clustering Jerrquic

    Comencen considerant que cada objecte forma un grup per si mateix. Creen un arbre en el qual els punts sn les fulles i els nodes interns revelen lestructura de similitud dels punts.

    Llavors avaluen les distncies entre grups i creen per aglomeraci els diversos grups finals.

    El comportament de lalgorisme depn de com es defineix la proximitat del parell de clusters.

  • 43

    Dendrgram Descompondre les dades en varis nivells de

    particions anidades (arbre de clusters) anomenat Dendrgram.

    Lagrupaci de les dades sobt tallant el dendrgram al nivell desitjat. Cada component connectat forma un cluster.

  • 44

    Enlla senzill: C1 C2

    dist (C1, C2) = min { dist (X1, X2 ) : X1C1, X2C2 }

    Mtodes Aglomeradors

    Enlla complet:

    dist (C1, C2) = max { dist (X1, X2 ) : X1C1, X2C2 }

    C1 C2

  • 45

    Enlla senzill Enlla complet

  • 46

  • 47

    1)Crear un arbre amb un node nic que representi tot el conjunt dobservacions.

    2)Mentre no es compleixi criteri de finalitzaci, fer: 3)Anotar quin s el node amb millor qualitat nmax i el segent

    en qualitat nmax-1. Aleshores: a)Si en unir nmax i nmax-1 dna un node amb ms qualitat que

    Max(qualitat(nmax), qualitat(nmax-1)) llavors es crea un node que resulta de la fusi de nmax i nmax-1.

    b)Sin cal considerar si s millor dividir nmax en dos nodes comparant la seva qualitat amb les de les particions resultants.

    Per a cada nova Observaci Oi fer Per a cada node nj existent fer Si la qualitat de ni millora incorporant Oi llavors nj=nj U Oi Si no es troba cap node nj que millori llavors es crea un nou node nicament amb Oi fPer fPer

    Lalgorisme

  • 48

    A B C D

    Dist A B C D

    A 20 7 2

    B 10 25

    C 3

    D

    Matriu de distncies Dades inicials

    Clustering Jerrquic

  • 49

    A B C D

    Dist A B C D

    A 20 7 2

    B 10 25

    C 3

    D

    Clustering Jerrquic

    Matriu de distncies Dades inicials

  • 50

    Clusters actuals

    Enlla senzill

    Dist A B C D

    A 20 7 2

    B 10 25

    C 3

    D A B C D 2

    Clustering Jerrquic

    Matriu de distncies

  • 51

    Dist AD B C

    AD 20 3

    B 10

    C

    A B C D

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 52

    A B C D

    Dist AD B C

    AD 20 3

    B 10

    C

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 53

    Dist AD B C

    AD 20 3

    B 10

    C

    A B C D

    3

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 54

    Dist ADC

    B

    ADC

    10

    B

    A B C D

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 55

    A B C D

    Dist ADC

    B

    ADC

    10

    B

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 56

    Dist ADC

    B

    ADC

    10

    B

    A B C D

    10

    Clustering Jerrquic

    Matriu de distncies Clusters actuals

    Enlla senzill

  • 57

    A B C D

    Dist ADCB

    ADCB

    Clustering Jerrquic

    Matriu de distncies Resultat final

    Enlla senzill

  • 58

    Clustering Jerrquic Criteri de finalitzaci

    Mantenir una distncia determinada entre grups. Continuar fins que hi hagi un sol grup i com que queda enregistrada la fusi que

    hi ha hagut, obtenim lhistric del procs i podem veure a quin nivell interessa aturar-se.

    Detecci de la proximitat entre grups Parmetre de tall que impedeix el creixement excessiu de larbre. Si una observaci no incrementa suficientment la qualitat del grup no es t en

    compte. Qualitat duna agregaci

    Una classe rep un valor ms alt quan ms alta sigui la similitud entre les observacions que aplega i com ms baixa sigui respecte a les de les altres classes.

  • PREGUNTES

    INTELLIGNCIA ARTIFICIALContingutDescriptive DMTypes of DM tasks Predictive vs. descriptive inductionPredictive vs. descriptive induction: A rule learning perspectiveDescriptive DMDescriptive DMDescriptive DM techniquesClusteringIntroducciRepresentaci grfica:Tipus de clusteringDistnciesDistnciesDistncies per a valors numrics (i)ExerciseDistncies per a valors numrics (ii)Distncies per a valors numrics (iii)Distncies per a valors numrics (iv)Distncies numriques: consideracions prviesDistncia per a valors categricsDistncia per a stringsConsideracionsMesures hbridesMtodes dagregaciK-meansK-meansExempleK-means: Exemple, k = 3ExemplePas 1. Centroides Pas 2. DistnciesPas 3. Assignaci de centroide Pas 4. Nous centroidesK-means. ObjectiuConsideracions Algorisme k-meansK-means:Clustering JerrquicClustering JerrquicNmero de diapositiva 43Nmero de diapositiva 44Nmero de diapositiva 45Nmero de diapositiva 46LalgorismeNmero de diapositiva 48Nmero de diapositiva 49Nmero de diapositiva 50Nmero de diapositiva 51Nmero de diapositiva 52Nmero de diapositiva 53Nmero de diapositiva 54Nmero de diapositiva 55Nmero de diapositiva 56Nmero de diapositiva 57Clustering JerrquicPreguntes


Recommended