Date post: | 26-Sep-2015 |
Category: |
Documents |
Upload: | edu-feliu-baena |
View: | 9 times |
Download: | 5 times |
INTELLIGNCIA ARTIFICIAL
Beatriz Lpez Curs 2014-15
Descriptive DM 1
Clustsering 2 K-means 2
Clustering jerrquic 3
Contingut
DESCRIPTIVE DM
Slides (with some modifications) provided by Nada Lavra Joef Stefan Institute, Ljubljana, Slovenia, Visiting UdG on course 2007-08
Types of DM tasks
Predictive DM: Classification (learning of rules, decision trees,
...) Prediction and estimation (regression) Predictive relational DM (ILP)
Descriptive DM: description and summarization dependency analysis (association rule learning) discovery of properties and constraints segmentation (clustering) subgroup discovery
+ +
+
- - -
H
x x x
x
+ x x x H
Hypothesis, model
Predictive vs. descriptive induction Predictive induction: Inducing classifiers for solving
classification and prediction tasks, Classification rule learning, Decision tree learning, ... Bayesian classifier, ANN, SVM, ... Data analysis through hypothesis generation and testing
Descriptive induction: Discovering interesting regularities in the data, uncovering patterns, ... for solving KDD tasks Symbolic clustering, Association rule learning, Subgroup discovery,
... Exploratory data analysis
Predictive vs. descriptive induction: A rule learning perspective
Predictive induction: Induces rulesets acting as classifiers for solving classification and prediction tasks
Descriptive induction: Discovers individual rules describing interesting regularities in the data
Therefore: Different goals, different heuristics, different evaluation criteria
Descriptive DM
Often used for preliminary explanatory data analysis User gets feel for the data and its structure Aims at deriving descriptions of characteristics of
the data Visualization and descriptive statistical techniques
can be used
Descriptive DM Description
Data description and summarization: describe elementary and aggregated data characteristics (statistics, )
Dependency analysis: describe associations, dependencies, discovery of properties and constraints
Segmentation Clustering: separate objects into subsets according to distance and/or similarity
(clustering, SOM, visualization, ...) Subgroup discovery: find unusual subgroups that are significantly different from
the majority (deviation detection w.r.t. overall class distribution)
Descriptive DM techniques
Clustering Association rule learning Subgroup discovery
Discovers individual rules describing interesting regularities in the data from labeled examples
CLUSTERING
Slides partially provided by Bianca Innocenti (UdG)
12
Introducci
Els mtodes dagregaci o clustering permeten obtenir una primera aproximaci a lestructura dun domini
Sutilitzen en una situaci de relatiu desconeixement del domini o per trobar patrons no esperats en les dades.
Es tracta dobtenir una descripci inicial que separi grups dobjectes amb caracterstiques semblants, basant-se noms en les dades, sense imposar cap criteri a priori.
13
Representaci grfica:
Cada exemple s un punt en lespai de classificaci.
Els atributs defineixen els eixos de lespai de classificaci.
La distncia permet assimilar el concepte dobjectes semblants i objectes propers.
Un ve s un objecte que es troba a una distncia molt propera en lespai de classificaci
Cas particular n=2: pla
),...,,,(),...,,,(
321
321
n
n
yyyyyxxxxx
=
=
X1
X2 X
Y
14
Tipus de clustering
Basats en la distncia La similitud entre objectes es basa en la distncia (mesures)
Basats en els conceptes La similitud es basa en conceptes comuns entre els
exemples (fitness de descripcions de conceptes)
Els mtodes depenen fortament de la definici de distancia
15
Distncies
Cal distingir Distncies entre valors numrics Distncies entre valors no-numrics Hbrides Per a conjunts difusos Distncies entre estructura de dades complexes
(arbres, ...)
16
Distncies Definici
Una distncia s una funci que pren valors en un espai n-dimensional i que dna com a resultat un valor real positiu.
Propietats
A ms, donats dos punts X1, X2 en un espai n-dimensional, perqu una funci sigui qualificada com a distncia, ha de complir les propietats segents:
Dist(X1, X2) = 0 si, i noms si, X1 = X2. Dist(X1, X2) 0 per a tot X1, X2. Dist(X1, X2) = Dist(X2, X1). Dist(X1, X2) Dist(X1, X3) + Dist(X3, X2).
17
Distncies per a valors numrics (i)
Distncia Euclidea
Distncia de Manhattan (city-block)
=
=n
iii yxyxd
1
2)(),(x
y
=
=n
iii yxyxd
1||),(
x
y
Exercise
Draw a circle in the Euclidean space
18
Draw a circle in the city-block space
Circle: All points are the same distance from the centre.
19
Distncies per a valors numrics (ii)
Minkowski: per d dimensions
d: dimensionalitat Euclidea: p=2 Manhattan: p=1
20
Distncies per a valors numrics (iii)
Distncia de Chebychev
Distncia del cosinus
||max),( ,...,1 iini yxyxd = =
)||||||||
arccos(),(yx
yxyxdT
=
x
y
21
Distncies per a valors numrics (iv)
Distncia de Mahalanobis
)()(),( 1 yxSyxyxd T =
S: matriu de covarincies
22
Distncies numriques: consideracions prvies Normalitzaci dels valors dels atributs
Normalitzaci lineal uniforme
minmaxmin'
=vv
Abans de normalitzar Desprs de normalitzar
23
Distncia per a valors categrics
Distncia de Hamming
On
w: factor de reducci (w=1/n)
=
=m
iii yxyxd
1),(),(
1),( =ii yx
0),( =ii yx
ii yx
ii yx =
24
Distncia per a strings
Distncia entre strings representats com a vectors
||||||),(
yxyxyxyxd
=
25
Consideracions Discretitzaci (pre-procs)
Podem usar mesures categriques per atributs numrics si discretitzem els valors
edat: [0,100] [0, 2] beb (18,35] jove (2,10] nen (35,65] gran (10, 18] adolescent (65,100] vell
edat:{beb,nen,adolescent,jove,gran,vell}
Hi ha molts mtodes de discretitzaci
26
Mesures hbrides
Eixample
=
== K
k
w
kk
K
k
w
k
k
e
yxdeyxd
1
1),(
),(
kw pes de latribut k
>
=
ordenat nodiscret un sk si-1
ordenatdiscret un sk o icontinu sk si
1|)()(|
icontinu sk si)()(
|)()(|
),(
)qlv(y),plv(x kk
k
k
kk
kkk
kk
w
Vyqlvxqlv
wklowervalkupperval
yqtvxqtv
yxd
=
=)()( si0)()( si1
)(),(kk
kkyqlvxqlv yqlvxqlv
yqlvxqlvkk
qtv(xk): valor quantitatiu de latribut k de lexemple x qlv(xk): valor qualitatiu de latribut k de lexmple x upperval(k): valor mxim de latribut k lowerval(k): valor mnim de latribut k
: llindar que diferencia els atributs rellevants del que no ho sn
27
Mtodes dagregaci Clustering exclusiu
k-means Clustering sobreposat (overlapping)
Fuzzy k-means Clustering jerrquic
Clustering jerrquic Clustering probabilstic
EM (Expectation-Maximization) Mapes autorganitzatius
K-MEANS
Slides partially provided by Bianca Innocenti (UdG)
29
K-means Es basa en la idea dobtenir un nombre k de grups que
es fixa al principi del procs. Per a cada grup, es genera un centroide k Es mesuren les distncies de tots els punts als
centroides, i sassossien els punts al centroide de ms a prop
Es recalcula el centroide Sitera el procs fins que no es produeixien canvis en
els centroides
30
Exemple
31
K-means: Exemple, k = 3
Pas 1: Seleccionar les llavors.
Pas 2: Assignar els objectes als centres ms propers
Pas 3: Recalcular els centroides
Exemple
Imatges danuncis que apareixen en una web
32
Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F
Pas 1. Centroides
Suposem k=2. Agafo a latzar com a centroides C (C1) i F (C2)
33
Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F
Pas 2. Distncies
Similitud (1-distncia) Distncia de
Hamming (w=4)
34
Exemple Similitud C1 Similitud C2 A 14
34 B 24
04 C 44
24 D 04
24 E 24
34 F 24
44
Geometria de la imatge URL vinculat a la imatge Alt text Posici en la pgina id rectangular no si dalt A rectangular si si baix B rectangular si no centre C quadrada no si dalt D quadrada no no baix E quadrada no no centre F
Pas 3. Assignaci de centroide
35
Exemple Distncia C1 Distncia C2 A 14
34 B 24
04 C 44
24 D 04
24 E 24
34 F 24
44
Similitud Similitud
Pas 4. Nous centroides C1: a partir de B,C
Geometria: rectangular URL: si Text: no (empat, preferim el del C1) Posici: centre (empat)
C2: A,D,E,F Geometria: quadrada URL: no Text: no (empat, preferim C2) Posici: dalt (majoria)
36
37
K-means. Objectiu
Fi de lalgorisme: minimitzar funci objectiu
2
1 1= =
=k
j
n
ijie cxJ
xi: exemple i cj: centroide j ||?||: mesura de distncia emprada
38
Consideracions
Valors anmals (outliers)
39
Algorisme k-means
1)Seleccionar les k centroides inicials entre tots els punts disponibles.
2)Calcular la distncia dels exemples als centroides
3)Assignar els objectes al centroide ms proper
3)Re-calcular els centroides 4)Repetir 2-3 fins que no hi hagi variaci
entre els grups (no hi hagi cap exemple que se li assigni un centroide diferent en una iteraci)
40
K-means: Avantatges:
Relativament eficient: O(tkn) n s el nombre dexemples, k el nombre de clusters i t el nombre
diteracions. Normalment tk
CLUSTERING JERRQUIC
Slides partially provided by Bianca Innocenti (UdG)
42
Clustering Jerrquic
Comencen considerant que cada objecte forma un grup per si mateix. Creen un arbre en el qual els punts sn les fulles i els nodes interns revelen lestructura de similitud dels punts.
Llavors avaluen les distncies entre grups i creen per aglomeraci els diversos grups finals.
El comportament de lalgorisme depn de com es defineix la proximitat del parell de clusters.
43
Dendrgram Descompondre les dades en varis nivells de
particions anidades (arbre de clusters) anomenat Dendrgram.
Lagrupaci de les dades sobt tallant el dendrgram al nivell desitjat. Cada component connectat forma un cluster.
44
Enlla senzill: C1 C2
dist (C1, C2) = min { dist (X1, X2 ) : X1C1, X2C2 }
Mtodes Aglomeradors
Enlla complet:
dist (C1, C2) = max { dist (X1, X2 ) : X1C1, X2C2 }
C1 C2
45
Enlla senzill Enlla complet
46
47
1)Crear un arbre amb un node nic que representi tot el conjunt dobservacions.
2)Mentre no es compleixi criteri de finalitzaci, fer: 3)Anotar quin s el node amb millor qualitat nmax i el segent
en qualitat nmax-1. Aleshores: a)Si en unir nmax i nmax-1 dna un node amb ms qualitat que
Max(qualitat(nmax), qualitat(nmax-1)) llavors es crea un node que resulta de la fusi de nmax i nmax-1.
b)Sin cal considerar si s millor dividir nmax en dos nodes comparant la seva qualitat amb les de les particions resultants.
Per a cada nova Observaci Oi fer Per a cada node nj existent fer Si la qualitat de ni millora incorporant Oi llavors nj=nj U Oi Si no es troba cap node nj que millori llavors es crea un nou node nicament amb Oi fPer fPer
Lalgorisme
48
A B C D
Dist A B C D
A 20 7 2
B 10 25
C 3
D
Matriu de distncies Dades inicials
Clustering Jerrquic
49
A B C D
Dist A B C D
A 20 7 2
B 10 25
C 3
D
Clustering Jerrquic
Matriu de distncies Dades inicials
50
Clusters actuals
Enlla senzill
Dist A B C D
A 20 7 2
B 10 25
C 3
D A B C D 2
Clustering Jerrquic
Matriu de distncies
51
Dist AD B C
AD 20 3
B 10
C
A B C D
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
52
A B C D
Dist AD B C
AD 20 3
B 10
C
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
53
Dist AD B C
AD 20 3
B 10
C
A B C D
3
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
54
Dist ADC
B
ADC
10
B
A B C D
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
55
A B C D
Dist ADC
B
ADC
10
B
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
56
Dist ADC
B
ADC
10
B
A B C D
10
Clustering Jerrquic
Matriu de distncies Clusters actuals
Enlla senzill
57
A B C D
Dist ADCB
ADCB
Clustering Jerrquic
Matriu de distncies Resultat final
Enlla senzill
58
Clustering Jerrquic Criteri de finalitzaci
Mantenir una distncia determinada entre grups. Continuar fins que hi hagi un sol grup i com que queda enregistrada la fusi que
hi ha hagut, obtenim lhistric del procs i podem veure a quin nivell interessa aturar-se.
Detecci de la proximitat entre grups Parmetre de tall que impedeix el creixement excessiu de larbre. Si una observaci no incrementa suficientment la qualitat del grup no es t en
compte. Qualitat duna agregaci
Una classe rep un valor ms alt quan ms alta sigui la similitud entre les observacions que aplega i com ms baixa sigui respecte a les de les altres classes.
PREGUNTES
INTELLIGNCIA ARTIFICIALContingutDescriptive DMTypes of DM tasks Predictive vs. descriptive inductionPredictive vs. descriptive induction: A rule learning perspectiveDescriptive DMDescriptive DMDescriptive DM techniquesClusteringIntroducciRepresentaci grfica:Tipus de clusteringDistnciesDistnciesDistncies per a valors numrics (i)ExerciseDistncies per a valors numrics (ii)Distncies per a valors numrics (iii)Distncies per a valors numrics (iv)Distncies numriques: consideracions prviesDistncia per a valors categricsDistncia per a stringsConsideracionsMesures hbridesMtodes dagregaciK-meansK-meansExempleK-means: Exemple, k = 3ExemplePas 1. Centroides Pas 2. DistnciesPas 3. Assignaci de centroide Pas 4. Nous centroidesK-means. ObjectiuConsideracions Algorisme k-meansK-means:Clustering JerrquicClustering JerrquicNmero de diapositiva 43Nmero de diapositiva 44Nmero de diapositiva 45Nmero de diapositiva 46LalgorismeNmero de diapositiva 48Nmero de diapositiva 49Nmero de diapositiva 50Nmero de diapositiva 51Nmero de diapositiva 52Nmero de diapositiva 53Nmero de diapositiva 54Nmero de diapositiva 55Nmero de diapositiva 56Nmero de diapositiva 57Clustering JerrquicPreguntes