+ All Categories
Home > Documents > Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje...

Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje...

Date post: 29-Oct-2018
Category:
Upload: doanhanh
View: 215 times
Download: 0 times
Share this document with a friend
86
Probabilidad Aprendizaje Bayesiano Clasificador Bayesiano Na¨ ıve Redes Bayesianas Aprendizaje de Redes Bayesianas Aprendizaje Bayesiano Eduardo Morales INAOE (INAOE) 1 / 86
Transcript
Page 1: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Eduardo Morales

INAOE

(INAOE) 1 / 86

Page 2: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Contenido

1 Probabilidad

2 Aprendizaje Bayesiano

3 Clasificador Bayesiano Naıve

4 Redes Bayesianas

5 Aprendizaje de Redes Bayesianas

(INAOE) 2 / 86

Page 3: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Probabilidad

Existen diferentes interpretaciones de probabilidad, las mascomunes son:• Clasica: P(A) = N(A)/N• Frecuencia relativa: P(A) = lımN→∞N(A)/N• Subjetiva: P(A) = “creencia en A” (factor de apuesta)

Definicion: Dado un experimento E y el espacio demuestreo S respectivo, a cada evento A le asociamos unnumero real P(A), el cual es la probabilidad de A y satisfacelas siguientes propiedades:

(INAOE) 3 / 86

Page 4: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Propiedades

1 0 ≤ P(A) ≤ 12 P(S) = 13 P(A ∪ B) = P(A) + P(B) si A y B son mutuamente

exclusivos

Teorema 1: P(∅) = 0Teorema 2: P(A) = 1− P(A)Teorema 3: P(A ∪ B) = P(A) + P(B)− P(A ∩ B)

(INAOE) 4 / 86

Page 5: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Probabilidad Condicional

• Si A y B son dos eventos en S, la probabilidad de queocurra A dado que ocurrio el evento B es la probabilidadcondicional de A dado B, y se denota P(A | B).

• La probabilidad condicional por definicion es:

P(A | B) = P(A ∩ B)/P(B)

dado P(B) > 0• Ejemplo: Para un dado, si se que cayo impar, cual es la

probabilidad de 3?

(INAOE) 5 / 86

Page 6: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Teorema de Bayes

• P(A | B) = P(A ∩ B)/P(B) y similarmenteP(B | A) = P(B ∩ A)/P(A)

• De donde: P(B | A) = P(A | B)P(B)/P(A) ysimilarmente: P(A | B) = P(B | A)P(A)/P(B)Esta expresion se conoce como el Teorema de Bayes

• En su forma mas general es:

P(Bj | Ai) =P(Bj)P(Ai | Bj)∑j P(Ai | Bj)P(Bj)

El denominador se le conoce como el teorema de laprobabilidad total.

(INAOE) 6 / 86

Page 7: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Particion y Eventos Independientes

• Si B1,B2, . . . ,Bk representan una particion (exclusivos,exhaustivos y mayores a cero) de S y A es un eventorespecto a S, entonces la probabilidad de A lapodemos escribir como:

P(A) =∑

j

P(A | Bj)P(Bj)

• Dos eventos, A y B, son independientes si la ocurrenciade uno no tiene que ver con la ocurrencia de otro.A es independiente de B si y solo si:P(A ∩ B) = P(A)P(B)Por lo que: P(A | B) = P(A) y P(B | A) = P(B)

Independientes es diferente a mutuamente exclusivos.

(INAOE) 7 / 86

Page 8: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Independencia condicional

Un evento A es condicionalmente independiente de otro Bdado un tercer evento C, si el conocer C hace que A y Bsean independientes. Esto es: P(A | B,C) = P(A | C)Ejemplo:• A - regar el jardın• B - prediccion del clima• C - lluvia

De la definicıon de probabilidad condicional, podemosobtener una expresion para evaluar la probabilidad conjuntade N eventos:

P(A1,A2, . . . ,An) = P(A1 | A2, . . . ,An)P(A2 | A3, . . . ,An) · · ·P(An)

(INAOE) 8 / 86

Page 9: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Variables Aleatorias

• Si a cada posible evento A le asignamos un valornumerico real, X (A), obtenemos una variable aleatoria

• A cada valor de la variable le corresponde unaprobabilidad, P(X = k).

• Las variables aleatorias pueden ser de dos tipos:discretas y continuas. Nosotros nos enfocaremos avariables discretas.

• Ejemplos (var. discretas): lanzar una moneda, lanzar undado, numero de fallas antes de darle al blanco, etc.

(INAOE) 9 / 86

Page 10: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Funcion acumulativa de probabilidad

Para una variable aleatoria X , se define la funcionacumulativa de probabilidad como la probabilidad de que lavariable aleatoria sea menor a un valor x : F (x) = P{X ≤ x}que corresponde a la sumatoria de la funcion deprobabilidad de −∞ a x : F (x) =

∑x−∞ p(X )

Propiedades:1 0 ≤ F (x) ≤ 12 F (x1) ≤ F (x2) si x1 ≤ x2 (funcion siempre creciente)3 F (−∞) = 04 F (+∞) = 1

(INAOE) 10 / 86

Page 11: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Estadısticas de una variable aleatoria

Valores caracterısticos de una variable aleatoria:• Moda: valor de probabilidad maxima• Media: valor medio (divide el area en 2 partes iguales)

Momentos• Promedio (valor esperado o primer momento):

E{X} = M1(X ) =∑

xiP(xi)

• Valor promedio-cuadrado (segundo momento):M2(X ) =

∑x2

i P(xi)

• Momento N: Mn(X ) =∑

xni P(xi)

Momentos “centrales”• Varianza: σ2(X ) =

∑(xi − E{X})2P(xi)

• Desviacion estandar: σ(x) =√σ2(x)

(INAOE) 11 / 86

Page 12: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Variables Aleatorias de 2-Dimensiones

• Dado un experimento E con espacio de muestreo S. SiX y Y son dos funciones que le asignan numerosreales a cada resultado posible, entonces (X ,Y ) es unavariable aleatoria bidimensional

• Dadas dos variables aleatorias (discretas), X ,Y , debensatisfacer lo siguiente:

1 P(xi , yj) ≥ 02∑

i∑

j P(xi , yj) = 1

• Ejemplos: numero de artıculos terminados en doslıneas de produccion, numero de pacientes con cancery numero de fumadores, etc.

(INAOE) 12 / 86

Page 13: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Probabilidad marginal y condicional

• Probabilidad marginal es la probabilidad particular deuna de las variables dada una variable aleatoriabidimensional, y se define como:P(X ) =

∑j P(xi , yj)

• Dada la probabilidad conjunta y marginal, laprobabilidad condicional se define como:P(X | Y ) = P(X ,Y )/P(Y )

(INAOE) 13 / 86

Page 14: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Dependencia

• Dos variables aleatorias son independientes si suprobabilidad conjunta es igual al producto de lasmarginales, esto es:P(xi , yj) = P(xi)P(yj), ∀(i , j)

• El coeficiente de correlacion (ρ) denota el grado delinearidad entre dos variables aleatorias y se definecomo:ρxy = E{[X − E{X}][Y − E{Y}]}/σxσy

• La correlacion esta dentro del intervalo: ρ ∈ [−1,1],donde un valor de 0 indica no-correlacionadas, y unvalor de -1 o 1 indica una relacion lineal.

• Independencia→ no-correlacion (pero no viceversa)

(INAOE) 14 / 86

Page 15: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Distribucion Binomial

Una distribucion binomial da la probabilidad de observar reventos (e.g., soles) de n muestras independientes con dosposibles resultados (e.g., tirar monedas).

P(r) =n!

r !(n − r)!pr (1− p)(n−r)

• El valor esperado es: E{x} = np• La varianza es: Var(x) = np(1− p)• La desviacion estandar es: σx =

√np(1− p)

Si n es grande, se aproxima a una distribucion Normal

(INAOE) 15 / 86

Page 16: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Probabilidad

Distribucion Normal o Gaussiana

p(x) =1√

2πσ2e−

12 (

x−µσ

)2

• El valor esperado es: E{x} = µ

• La varianza es: Var(x) = σ2

• La desviacion estandar es: σx = σ

El Teorema Central del Lımite dice que la suma de unnumero grande de variables aleatorias independientesidenticamente distribuidas siguen una distribucion Normal.

(INAOE) 16 / 86

Page 17: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Aprendizaje Bayesiano (BL)

Algunas caracterısticas:• Cada nuevo ejemplo puede aumentar o disminuir la

estimacion de una hipotesis (flexibilidad -incrementalidad)

• Conocimiento a priori se puede combinar con datospara determinar la probabilidad de las hipotesis

• Da resultados con probabilidades asociadas• Puede clasificar combinando las predicciones de varias

hipotesis• Sirve de estandar de comparacion de otros algoritmos

(INAOE) 17 / 86

Page 18: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Aprendizaje Bayesiano (BL)

Es importante por:• ser practico• provee un enfoque de comprension (y diseno) de otros

algoritmosProblemas:• Se requieren conocer muchas probabilidades• Es computacionalmente caro (depende linealmente del

numero de hipotesis)

(INAOE) 18 / 86

Page 19: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Aprendizaje Bayesiano (BL)

• Lo que normalmente se quiere saber en aprendizaje escual es la mejor hipotesis (mas probable) dados losdatos

• Si P(D) = probabilidad a priori de los datos (i.e., cualesdatos son mas probables que otros), P(D | h) =probabilidad de los datos dada una hipotesis, lo quequeremos estimar es: P(h | D), la probabilidadposterior de h dados los datos.

• Esto lo podemos estimar con Bayes.

P(h | D) =P(D | h)P(h)

P(D)

(INAOE) 19 / 86

Page 20: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

La Hipotesis mas Probable

Para estimar la hipotesis mas probable o MAP (maximum aposteriori hypothesis):

hMAP = argmaxh∈H (P(h | D))

= argmaxh∈H

(P(D|h)P(h)

P(D)

)≈ argmaxh∈H (P(D | h)P(h))

Ya que P(D) es una constante independiente de h.

Si suponemos que las hipotesis son igualmente probables,nos queda la hipotesis de maxima verosimilitud o ML(maximum likelihood):

hML = argmaxh∈H (P(D | h))

(INAOE) 20 / 86

Page 21: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Ejemplo

• Se tienen dos hipotesis, el paciente tiene cancer o no• Sabemos que solo el 0.008 % de la poblacion tiene ese

tipo de cancer• La prueba sobre cancer no es infalible, nos da

resultados positivos correctos en el 98 % de los casos yresultados negativos correctos en el 97 % de los casos

P(cancer) = 0,008 y P(¬cancer) = 0,992P(⊕|cancer) = 0,98 y P(|cancer) = 0,02P(⊕|¬cancer) = 0,03 y P(|¬cancer) = 0,97

(INAOE) 21 / 86

Page 22: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Ejemplo

• Si a un paciente le dieron un resultado positivo en laprueba:P(cancer |⊕) = P(cancer)P(⊕|cancer) =0,008 ∗ 0,98 = 0,0078P(¬cancer |⊕) = P(¬cancer)P(⊕|¬cancer) =0,992 ∗ 0,03 = 0,0298

• Que al normalizar, nos da:P(cancer |⊕) = 0,21P(¬cancer |⊕) = 0,69

• Por lo que sigue siendo mas probable que no tengacancer

(INAOE) 22 / 86

Page 23: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Diferentes vistas de BL

Al aprendizaje bayesiano lo podemos relacionar condiferentes aspectos de aprendizaje:• Espacio de Versiones• Clases contınuas con ruido• Principio de Longitud de Descripcion Mınima• Clasificador bayesiano optimo• ...

(INAOE) 23 / 86

Page 24: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL y Espacio de Versiones

• Una forma (impractica) de un algoritmo Bayesiano escalcular todas las posibles hipotesisP(h | D) = P(D|h)P(h)

P(D) y quedarse con la de mayorprobabilidad

• Ademas necesitamos especificar los valores para P(h)y para P(D | h)

• Si suponemos que no hay ruido y que todas lashipotesis son igualmente probables (i.e.,P(h) = 1

|H|∀h ∈ H), P(D | h) = 1 sii D es consistentecon h

• Esto es:P(h | D) =

1| VSH,D |

donde, VSH,D es el subconjunto de hipotesis de H quees consistente con D (su espacio de versiones).

(INAOE) 24 / 86

Page 25: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL y Espacio de Versiones

• Por lo mismo, toda hipotesis consistente es unahipotesis MAP

• Cualquier sistema de aprendizaje que nos de hipotesisconsistentes (suponiendo que no hay ruido y que todaslas hipotesis son igualmente probables) nos esta dandohipotesis MAP.

• Un sistema de aprendizaje lo podemos caracterizarsuponiendo que las hipotesis mas generales (oespecıficas) son mas probables que las otras

• En general, podemos caracterizar varios algoritmos deaprendizaje con un enfoque Bayesiano, al caracterizarsus distribuciones de probabilidad P(h) y P(D | h)

(INAOE) 25 / 86

Page 26: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL, Variables Continuas y Ruido

• Los metodos mas usados para buscar funciones convariables continuas a partir de datos con ruido, sonregresiones lıneales, ajustes de polinomios y redesneuronales.

• La idea es aprender funciones h : X → R lo mascercanas a f , en donde los datos estan descritos por:di = f (xi) + ei , donde f (xi) es la funcion sin ruido y eies una variable aleatoria representando el error

• De nuevo lo que queremos es encontrar la hipotesismas probable:

hML = argmaxh∈H (p(D | h))

(INAOE) 26 / 86

Page 27: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL, Variables Continuas y Ruido• Suponiendo que los datos son independientes entre

sı dado h, la probabilidad se puede expresar como elproducto de varias p(di | h) para cada dato:

hML = argmaxh∈H

(m∏

i=1

p(di | h)

)• Si suponemos el ruido con una distribucion Gaussiana

con media cero y varianza σ2, cada di debe de seguir lamisma distribucion centrada alrededor de f (xi).

hML = argmaxh∈H

(m∏

i=1

1√2πσ2

e−1

2σ2 (di−µ)2

)

hML = argmaxh∈H

(m∏

i=1

1√2πσ2

e−1

2σ2 (di−h(xi ))2

)(INAOE) 27 / 86

Page 28: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL, Variables Continuas y Ruido

• Podemos maximizar tomando su logaritmo (dado quees una funcion monotonica creciente):

hML = argmaxh∈H

(m∑

i=1

ln(1√

2πσ2)− 1

2σ2 (di − h(xi))2

)

• Eliminando el primer termino (que no depende de h):

hML = argmaxh∈H

(m∑

i=1

− 12σ2 (di − h(xi))

2

)

(INAOE) 28 / 86

Page 29: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL, Variables Continuas y Ruido

• Que es igual a minimizar lo mismo con el signocontrario. Al cambiar signo y eliminar constantes que nodependen de h nos queda:

hML = argminh∈H

(m∑

i=1

(di − h(xi))2

)• Lo que nos dice que la hipotesis de maxima

verosimilitud es la que minimiza la suma de los erroresal cuadrado entre los datos observados (di ) y los datospredichos (h(xi)), siempre y cuando el error siga unadistribucion Normal con media cero.

• Supone que el error esta unicamente en la meta y noen los atributos

(INAOE) 29 / 86

Page 30: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL y el Principio de Longitud deDescripcion Mınima

• Como el proceso inductivo no es seguro se necesitaalguna medida de calidad

• Normalmente se hace con base en evaluaciones conlos ejemplos de entrenamiento y prueba

• Una alternativa es encontrar la hipotesis mas probabledados los datos

• El MDL esta motivado al interpretar la definicion dehMAP con base en conceptos de teorıa de informacion.

(INAOE) 30 / 86

Page 31: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL y MDL

hMAP = argmaxh∈H (P(D | h)P(h))

= argmaxh∈H (log2(P(D | h)) + log2(P(h)))

= argminh∈H (−log2(P(D | h))− log2(P(h)))

Lo cual puede pensarse como el problema de disenar elmensaje de transmision de informacion mas compacto paratransmitir la hipotesis y los datos dada la hipotesis

(INAOE) 31 / 86

Page 32: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

BL y MDL

• MDL recomienda seleccionar la hipotesis que minimizala suma de estas dos descripciones:

hMDL = argminh∈H (L(h) + L(D | h))

• Si queremos aplicarlo a un arbol de decision, tenemosque buscar una codificacion para los arboles dedecision y una para los ejemplos mal clasificados juntocon su clasificacion

• Permite establecer un balance entre complejidad de lahipotesis (L(h)) y numero de errores o calidad de lahipotesis (L(D | h))

(INAOE) 32 / 86

Page 33: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Clasificador Bayesiano Optimo

• En lugar de la hipotesis mas probable, podemospreguntar, cual es la clasificacion mas probable

• Se puede obtener combinando las clasificaciones detodas las hipotesis aplicables pesadas por suprobabilidad.

P(vj | D) =∑hi∈H

P(vj | D,hi)P(hi | D) =∑hi∈H

P(vj | hi)P(hi | D)

Donde vj es el valor de la clasificacion y la clasificacionoptima sera:

argmaxvj∈V

∑hi∈H

P(vj | hi)P(hi | D)

(INAOE) 33 / 86

Page 34: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Ejemplo

• Tenemos 2 clases y 3 hipotesis (h1,h2,h3), cuyasprobabilidades dados los datos son (0,4,0,3,0,3)

• Un nuevo ejemplo x se clasifica positivo por h1 ynegativo por h2 y h3

• Su clasificacion por la hipotesis MAP serıa positivo,pero considerando todas las hipotesis serıa negativo.

(INAOE) 34 / 86

Page 35: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Ejemplo

P(h1|D) = 0,4,P(|h1) = 0,P(⊕|h1) = 1P(h2|D) = 0,3,P(|h2) = 1,P(⊕|h2) = 0P(h3|D) = 0,3,P(|h3) = 1,P(⊕|h3) = 0∑

hi∈H

P(⊕ | hi)P(hi | D) = 0,4

∑hi∈H

P( | hi)P(hi | D) = 0,6

argmaxvj∈{⊕,}

∑hi∈H

P(vj | hi)P(hi | D)

=

(INAOE) 35 / 86

Page 36: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje Bayesiano

Clasificador Bayesiano Optimo

• Aplicar el clasificador Bayesiano optimo puede ser muycostoso (muchas hipotesis)

• Una posibilidad es seleccionar una hipotesis (h)aleatoriamente de acuerdo con la distribucion deprobabilidad de las probabilidades posteriores de H, yusar h para predecir

• Se puede mostrar que el error esperado es a lo mas eldoble del error esperado del clasificador Bayesianooptimo.

(INAOE) 36 / 86

Page 37: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Naıve Bayes

• Se usa para clasificar una instancia descrita por unconjunto de atributos (ai ’s) en un conjunto finito declases (V )

• Clasifica de acuerdo con el valor mas probable dadoslos valores de sus atributos:

vMAP = argmaxvj∈V(P(vj | a1, . . . ,an)

)• Usando Bayes:

vMAP = argmaxvj∈V

(P(a1,...,an|vj )P(vj )

P(a1,...,an)

)= argmaxvj∈V

(P(a1, . . . ,an | vj)P(vj)

)(INAOE) 37 / 86

Page 38: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Naıve Bayes

• P(vj) se puede estimar con la frecuencia de las clases,pero para P(a1, . . . ,an | vj) tenemos pocos datos

• El clasificador NB supone que los valores de losatributos son condicionalmente independientes entresı dado el valor de la clase:P(a1, . . . ,an | vj) =

∏i P(ai | vj)

• Por lo que:

vNB = argmaxvj∈V

(P(vj)

∏i

P(ai | vj)

)

Los valores P(ai | vj) se estiman con la frecuencia delos datos observados.

Nota: no se hace busqueda de hipotesis, simplemente secuentan frecuencias de ocurrencias.

(INAOE) 38 / 86

Page 39: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Ejemplo

Tomando la tabla de jugar golf, si queremos clasificar elsiguiente ejemplo con un naıve Bayes:Ambiente=soleado, Temperatura=baja, Humedad=alta,Viento=si

vNB = argmaxvj∈{P,N}P(vj)(P(Ambiente = soleado | vj)

P(Temperature = baja | vj)P(Humedad = alta | vj)P(Viento = si | vj)

)

(INAOE) 39 / 86

Page 40: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Aprendizaje Bayesiano

• P(Clase = P) = 9/14 y P(Clase = N) = 5/14• P(Viento = si | P) = 3/9 = 0,33 y

P(Viento = si | N) = 3/5 = 0,60• ...• P(P)P(soleado | P)P(baja | P)P(alta | P)P(si | P) =

0,0053• P(N)P(soleado | N)P(baja | N)P(alta | N)P(si | N) =

0,0206• Normalizando el ultimo nos da: 0,0206

0,0206+0,0053 = 0,795.

(INAOE) 40 / 86

Page 41: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Estimacion de Probabilidades

• Como ya vimos, ademas de estimar por frecuenciasimple: nc

n (malo con pocos ejemplos)• Podemos usar un estimador m (m-estimate):

nc + m ∗ pn + m

donde p es una estimacion a priori de lo que queremosestimar y m es una constante llamada “tamano demuestra equivalente” (equivalent sample size).Una valor tıpico para p es suponer una distribucionuniforme, por lo que: p = 1

k cuando existen k valoresm se usa como estimador de ruido

(INAOE) 41 / 86

Page 42: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Ejemplo: Clasificar Textos

• Los ejemplos son textos asociados con una clase (e.g.,me interesa vs. no me interesa o polıtica, deportes,espectaculos, sociales, etc.)

• Suponemos que las palabras son independientes entresı y de su posicion en el texto

• Vocabulario = todas las palabras distintivas (eliminandopalabras muy comunes y poco distintivas comoartıculos, puntuaciones, etc.)

(INAOE) 42 / 86

Page 43: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Ejemplo: Clasificar Textos

• doc(clase) = subconjunto de textos de esa clase

• P(clase) = |doc(clase)|Ejemplos

• Texto = concatenacion de todos los textos endoc(clase), n = numero de palabras distintas en Texto

• Para cada palabra (w) en Vocabulario: nk = numero deveces que aparece la palabra w en Texto

• P(w |clase) = nk+1n+|Vocabulario|

Se calcula la probabilidad considerando el estimador m,nc+mpn+m con probabilidad uniforme en las clases

(Laplace) y m = |Vocabulario|

(INAOE) 43 / 86

Page 44: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Clasificador Bayesiano Naıve

Ejemplo: Clasificar Textos

Para clasificar un nuevo documento (considerando solo laspalabras en el nuevo documento que tenemos enVocabulario):

vNB = argmaxvj∈V

(P(vj)

∏i

P(ai | vj)

)

(INAOE) 44 / 86

Page 45: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Redes Bayesianas

• Las redes bayesianas o probabilısticas son unarepresentacion grafica de dependencias pararazonamiento probabilıstico

• Es un grafo acıclico dirigido (DAG) en el cual cada nodorepresenta una variable aleatoria y cada arco unadependencia probabilıstica, en la cual se especifica laprobabilidad condicional de cada variable dados suspadres

• La variable a la que apunta el arco es dependiente dela que esta en el origen de este

(INAOE) 45 / 86

Page 46: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Redes Bayesianas

Podemos interpretar a una BN de dos formas:

1 Distribucion de probabilidad: Representa la distribucionde la probabilidad conjunta de las variablesrepresentadas en la red. Por ejemplo:P(A,B,C,D,E ,F ,G) =P(G|D)P(F |C,D)P(E |B)P(D|A,B)P(C|A)P(B)P(A)

2 Base de reglas: Cada arco representa un conjunto dereglas que asocian las variables involucradas, Porejemplo:Si C, D entonces FDichas reglas estan cuantificadas por lasprobabilidades respectivas.

(INAOE) 46 / 86

Page 47: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Redes Bayesianas

• La topologıa o estructura de la red nos da informacionsobre las dependencias probabilısticas entre lasvariables

• La red tambien representa las independenciascondicionales de una variable (o conjunto de variables)dada(s) otra(s) variable(s)

• {E} es cond. indep. de {A,C,D,F,G} dado {B}Esto es: P(E |A,C,D,F ,G,B) = P(E |B)Esto se representa graficamente por el nodo Bseparando al nodo E del resto de las variables.

(INAOE) 47 / 86

Page 48: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Redes Bayesianas

• En general, el conjunto de variables A es independientedel conjunto B dado C si al remover C hace que A y Bse desconecten

• Es decir, NO existe una trayectoria entre A y B en quelas siguientes condiciones sean verdaderas:

1 Todos los nodos con flechas convergentes estan o tienedescendientes en C.

2 Todos los demas nodos estan fuera de C.

• Esto se conoce como Separacion–D

(INAOE) 48 / 86

Page 49: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Redes Bayesianas

• En una BN todas las relaciones de independenciacondicional representadas en el grafo corresponden arelaciones de independencia de la distribucion deprobabilidad

• Dichas independencias simplifican la representaciondel conocimiento (menos parametros) y elrazonamiento (propagacion de las probabilidades)

(INAOE) 49 / 86

Page 50: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion de Probabilidades

• El razonamiento probabilıstico o propagacion deprobabilidades consiste en propagar la evidencia atraves de la red para conocer la probabilidad aposteriori de las variables

• La propagacion consiste en darle valores a ciertasvariables (evidencia), y obtener la probabilidad posteriorde las demas variables dadas las variables conocidas(instanciadas)

• Los algoritmos de propagacion dependen de laestructura de la red:

1 Arboles2 Poliarboles3 Redes multiconectadas

(INAOE) 50 / 86

Page 51: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• Cada nodo corresponde a una variables discreta,A = {A1,A2, . . . ,An}, con su respectiva matriz deprobabilidad condicional, P(A|B) para todos los valoresde A y de su padre B

• Dada cierta evidencia E —representada por lainstanciacion de ciertas variables— la probabilidadposterior de cualquier variable B, por el teorema deBayes: P(Bi |E) = P(Bi)P(E |Bi)/P(E)

• Ya que la estructura de la red es un arbol, el Nodo B lasepara en dos subarboles, por lo que podemos dividir laevidencia en dos grupos:

1 E−: Datos en el arbol que cuya raız es B2 E+: Datos en el resto del arbol

(INAOE) 51 / 86

Page 52: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

Entonces:P(Bi |E) = P(Bi)P(E−,E+|Bi)/P(E)Pero dado que ambos son independientes y aplicandonuevamente Bayes:P(Bi |E) = P(Bi)P(E−|Bi)P(E+|Bi)/P(E)

P(Bi |E) = P(Bi )P(E−|Bi )P(E)

P(E+)P(Bi |E+)P(Bi )

P(Bi |E) = P(E+)P(E) P(Bi |E+)P(E−|Bi)

P(Bi |E) = αP(Bi |E+)P(E−|Bi)Donde α es una constante de normalizacion.

(INAOE) 52 / 86

Page 53: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• Esto separa la evidencia para actualizar la probabilidadde B. Ademas vemos que no requerimos de laprobabilidad a priori, excepto en el caso de la raızdonde:P(Ai |E+) = P(Ai)

• Si definimos los siguientes terminos:λ(Bi) = P(E−|Bi)π(Bi) = P(Bi |E+)

• Entonces:P(Bi |E) = απ(Bi)λ(Bi)

(INAOE) 53 / 86

Page 54: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles• Dado que los hijos son condicionalmente

independientes dado el padre:

λ(Bi) =∏

k

P(E−k |Bi) =∏

k

λk (Bi)

Donde E−k corresponde a la evidencia que proviene delhijo k de B, denotado por Sk .

• Esto es porque la probabilidad conjunta de variablesindependientes es igual al producto de lasprobabilidades.P(E−|Bi) = P(E1,E2, . . . ,Ek |Bi) ==

∏k P(Ek |Bi)

• Condicionando cada termino en la ecuacion anteriorrespecto a todos los posibles valores de cada nodo hijo,obtenemos:

λ(Bi) =∏

k

[∑

j

P(E−k |Bi ,Skj )P(Sk

j |Bi)]

Donde el primer teermino es la probabilidad de E−

dados todos los posibles valores de los hijos de Bi y elsegundo termino es la probablidad de todos losposibles valores de los hijos dado Bi .

(INAOE) 54 / 86

Page 55: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• Dado que B es condicionalmente independiente de laevidencia bajo cada hijo dado este (osea que podemoseliminar Bi ) y usando la definicion de λ nos queda unallamada recursiva:

λ(Bi) =∏

k

[∑

j

P(Skj |Bi)λ(Sk

j )]

(INAOE) 55 / 86

Page 56: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• En forma analoga obtenemos una ecuacion para π.Primero la condicionamos sobre todos los posiblesvalores del padre:

π(Bi) =∑

j

P(Bi |E+,Aj)P(Aj |E+)

• De nuevo usamos:P(A) =

∑j P(A | Bj)P(Bj)

• Podemos eliminar E+ del primer termino dadaindependencia condicional. El segundo terminorepresenta la probabilidad posterior de A sin contar laevidencia de subarbol de B, por lo que podemosexpresarla usando la ecuacion para P(Bi |E) y ladescomposicion de λ.

(INAOE) 56 / 86

Page 57: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• Osea: P(Aj |E+) = αP(Ak |E+)P(E−|Ak ) sobre todoslos hijos de A menos B

• La primera parte corresponde a π(Aj) y la segundacorresponde al producto de todas las P(E−|Ak ) o λ’sdada independencia condicional.

• Por lo que:

π(Bi) =∑

j

P(Bi |Aj)

[απ(Aj)

∏k

λk (Aj)

]

Donde k incluye a todos los hijos de A excepto B.

(INAOE) 57 / 86

Page 58: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Arboles

• Mediante estas ecuaciones se integra un algoritmo depropagacion de probabilidades en arboles

• Cada nodo guarda los valores de los vectores π y λ,ası como las matrices de probabilidad P

• La propagacion se hace por un mecanismo de paso demensajes, en donde cada nodo envıa los mensajescorrespondientes a su padre e hijos

• Al instanciarse ciertos nodos, estos envıan mensajes asus padres e hijos, y se propagan hasta a llegar a laraız u hojas, o hasta encontrar un nodo instanciado

(INAOE) 58 / 86

Page 59: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Poliarboles

• Un poliarbol es una red en la que un nodo puede tenervarios padres, pero sin existir multiples trayectoriasentre nodos

• El algoritmo de propagacion es muy similar al dearboles. La principal diferencia es que se requiere de laprobabilidad conjunta de cada nodo dado todos suspadres: P(Bi |A1, ....An)

• En forma analoga podemos deducir una expresion de laprobabilidad en un nodo cualquiera B en terminos desus padres e hijos:

P(Bi |E) = αP(Bi |E+1 , ...,E

+n )P(E−1 |Bi) · · ·P(E−m |Bi)

• Y a partir de esta ecuacion obtener un mecanismo depropagacion local similar al de arboles

(INAOE) 59 / 86

Page 60: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Redes Bayesianas

Propagacion en Redes Multiconectadas

• Una red multiconectada es un grafo en el que haymultiples trayectorias entre nodos

• Tecnicas:1 Condicionamiento2 Simulacion estocastica3 Agrupamiento

(INAOE) 60 / 86

Page 61: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Redes Bayesianas

Las redes bayesianas son una alternativa para minerıa dedatos, la cual tiene varias ventajas:• Permiten aprender sobre relaciones de dependencia y

causalidad.• Permiten combinar conocimiento con datos.• Evitan el sobre-ajuste de los datos.• Pueden manejar bases de datos incompletas.

(INAOE) 61 / 86

Page 62: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Redes Bayesianas

El obtener una red bayesiana a partir de datos es unproceso de aprendizaje el cual se divide, naturalmente, endos aspectos:

1 Aprendizaje parametrico: dada una estructura,obtener las probabilidades a priori y condicionalesrequeridas.

2 Aprendizaje estructural: obtener la estructura de lared Bayesiana, es decir, las relaciones de dependenciae independencia entre las variables involucradas.

(INAOE) 62 / 86

Page 63: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Redes Bayesianas

• Las tecnicas de aprendizaje estructural dependen deltipo de estructura de red: arboles, poliarboles y redesmulticomectadas

• Una alternativa es combinar conocimiento subjetivo delexperto con aprendizaje. Para ello se parte de laestructura dada por el experto, la cual se valida ymejora utilizando datos estadısticos

(INAOE) 63 / 86

Page 64: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje Parametrico

• Consiste en encontrar los parametros asociados a unaestructura dada de una red bayesiana

• Osea las probabilidades a priori de los nodos raız y lasprobabilidades condicionales de las demas variables,dados sus padres

• Para que se actualizen las probabilidades con cadacaso observado, estas se pueden representar comorazones enteras y actualizarse con cada observacion

(INAOE) 64 / 86

Page 65: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje Parametrico en Arboles

Probabilidades previas:

P(Ai) = (ai + 1)/(s + 1) i = kP(Ai) = ai/(s + 1) i 6= k

Probabilidades condicionales:

P(Bj | Ai) = (bj + 1)/(ai + 1) i = k y j = lP(Bj | Ai) = bj/(ai + 1) i = k y j 6= lP(Bj | Ai) = bj/ai i 6= k

Donde s corresponde al numero de casos totales, i , j losındices de las variables, k , l los ındices de las variablesobservadas.

(INAOE) 65 / 86

Page 66: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Variables no observadas

• En algunos casos, existen variables que sonimportantes para el modelo pero para las cuales no setienen datos (nodos no observables o escondidos)

• Si algunos nodos son parcialmente observables, sepueden estimar de acuerdo a los observables con elsiguiente algoritmo:

1 Instanciar todas las variables observables.2 Propagar su efecto y obtener las probabilidades

posteriores de las no observables3 Para las variables no observables, suponer el valor con

probabilidad mayor como observado4 Actualizar las probabilidades previas y condicionales de

acuerdo a las formulas anteriores.5 Repetir 1 a 4 para cada observacion

(INAOE) 66 / 86

Page 67: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Variables no observadas• Existen otra formas mas sofisticadas en las que las

probabilidades se actualizan dando incrementos nosolo al valor mayor, sino a todos en proporcion de lasprobabilidades posteriores

• El aprendizaje se basa en el gradiente, lo cual esanalogo al aprendizaje del peso en capas ocultas deredes neuronales.

• En este caso, maximizar P(D | h) siguiendo el gradientedel ln(P(D | h)) con respecto a los parametros quedefinen las tablas de probabilidad condicional

• Estos algoritmos suponen que se tienen algunos datos,a partir de los cuales es posible estimar unaprobabilidad (aunque por tener pocos datos se tengaque ajustar)

• Cuando no se tiene ningun valor para un dato, sepuede usar EM el cual vemos dentro de Clustering

(INAOE) 67 / 86

Page 68: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje Estructural

• En el caso de Naıve Bayes solo tenemos que aprenderlos parametros

• Una forma de mejorar la estructura de un NB esanadiendo arcos entre los nodos o atributos que tengancierta dependencia

• Existen dos estructuras basicas:1 TAN: clasificador bayesiano simple aumentado con un

arbol.2 BAN: clasificador bayesiano simple aumentado con una

red.

(INAOE) 68 / 86

Page 69: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje Estructural

Otra forma es realizando operaciones locales hasta que nomejore la prediccion:

1 eliminar un atributo,2 unir dos atributos en una nueva variable combinada,3 introducir un nuevo atributo que haga que dos atributos

dependientes sean independientes (nodo oculto).Se pueden ir probando cada una de las opciones anterioresmidiendo la dependencia de los atributos dada la clase:

I(Xi ,Xj | C) =∑Xi ,Xj

P(Xi ,Xj | C)log(P(Xi ,Xj | C)

P(Xi | C)P(Xj | C))

(INAOE) 69 / 86

Page 70: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje Estructiural

Algoritmo de Mejora Estructural:1 Obtener la informacion mutua condicional (IMC) entre

cada par de atributos.2 Seleccionar el par de atributos de IMC mayor.3 Probar las 3 operaciones basicas (i) eliminacion, (ii)

union, (iii) insercion.4 Evaluar las 3 estructuras alternativas y la original, y

quedarse con la “mejor” opcion.5 Repetir 2–4 hasta que ya no mejore el clasificador.

Para evaluar las estructuras resultantes se pueden usardatos de prueba o una medida basada en MDL.

(INAOE) 70 / 86

Page 71: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo de Chow y Liu

• Aprendizaje estructural de arboles basado en elalgoritmo desarrollado por Chow y Liu (68) paraaproximar una distribucion de probabilidad por unproducto de probabilidades de segundo orden

• La probabilidad conjunta de n variables se puederepresentar (aproximar) como:

P(X1,X2, . . . ,Xn) =n∏

i=1

P(Xi)P(Xi | Xj(i)))

donde Xj(i) es la causa o padre de Xi .

(INAOE) 71 / 86

Page 72: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo de Chow y Liu

• Se plantea el problema como uno de optimizacion y loque se desea es obtener la estructura en forma dearbol que mas se aproxime a la distribucion “real”

• Se utiliza una medida de la diferencia de informacionentre la distribucion real (P) y la aproximada (P∗):

I(P,P∗) =∑

x

P(X)log(P(X)P∗(X)

)

donde el objetivo es minimizar I

(INAOE) 72 / 86

Page 73: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo de Chow y Liu

• Se puede definir dicha diferencia en funcion de lainformacion mutua entre pares de variables, que sedefine como:

I(Xi ,Xj) =∑

x

P(Xi ,Xj)log(P(Xi ,Xj)

P(Xi)P(Xj))

• Se puede demostrar (Chow 68) que la diferencia deinformacion es una funcion del negativo de la suma delas informaciones mutuas (pesos) de todos los pares devariables que consituyen el arbol

• Por lo que encontrar el arbol mas proximo equivale aencontrar el arbol con mayor peso

(INAOE) 73 / 86

Page 74: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algortimo de Chow y Liu

1 Calcular la informacion mutua entre todos los pares devariables (n(n − 1)/2).

2 Ordenar las informaciones mutuas de mayor a menor3 Seleccionar la rama de mayor valor como arbol inicial4 Agregar la siguiente rama mientras no forme un ciclo, si

es ası, desechar5 Repetir (4) hasta que se cubran todas las variables

(n − 1 ramas)

El algoritmo NO provee la direccionalidad de los arcos, porlo que esta se puede asignar en forma arbitraria o utilizandosemantica externa (experto)

(INAOE) 74 / 86

Page 75: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Ejemplo Bayesiano

Para los ejemplos de jugar golf:No. Var 1 Var 2 Info. mutua1 temp. ambiente .28562 juega ambiente .07433 juega humedad .04564 juega viento .00745 humedad ambiente .00606 viento temp. .00527 viento ambiente .00178 juega temp. .00039 humedad temp. 0

10 viento humedad 0

(INAOE) 75 / 86

Page 76: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Poliarboles

• Rebane y Pearl [89] extendieron el algoritmo de Chow yLiu para poliarboles

• Parten del esqueleto obtenido con Chow y Liu ydeterminan las direccion de los arcos utilizandopruebas de dependencia entre tripletas de variables

• Dadas 3 variables, existen 3 casos posibles:1 Arcos divergentes: X ← Y → Z .2 Arcos secuenciales: X → Y → Z .3 Arcos convergentes: X → Y ← Z .

• Los primeros dos casos son indistinguibles, pero eltercero es diferente, ya que las dos variables “padre”son marginalmente independientes

(INAOE) 76 / 86

Page 77: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo para Poliarboles

1 Obtener el esqueleto utilizando Chow y Liu2 Encontrar tripletas de nodos que sean convergentes

(tercer caso) -nodo multipadre-.3 A partir de un nodo multipadre determinar las

direcciones de los arcos utilizando la prueba detripletas hasta donde sea posible (base causal).

4 Repetir 2-3 hasta que ya no se puedan descubrir masdirecciones

5 Si quedan arcos sin direccionar utilizar semanticaexterna para obtener su direccion

Solo para poliarboles, no garantiza obtener todas lasdirecciones y requiere de un umbral

(INAOE) 77 / 86

Page 78: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Redes Generales

• Existen dos clases de metodos para el aprendizajegenerico de redes bayesianas, que incluyen redesmulticonectadas. Estos son:

1 Metodos basados en medidas de ajuste y busqueda.2 Metodos basados en pruebas de independencia.

(INAOE) 78 / 86

Page 79: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Aprendizaje de Redes Basados enBusqueda

• En general se generan diferentes estructuras y seevaluan respecto a los datos utilizando alguna medidade ajuste

• Estos metodos tienen dos aspectos principales:1 Una medida para evaluar que tan buena es cada

estructura respecto a los datos2 Un metodo de busqueda que genere diferentes

estructuras hasta encontrar la optima, de acuerdo a lamedida seleccionada

(INAOE) 79 / 86

Page 80: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Medida Bayesiana

• Estima la probabilidad de la estrutura dado los datos lacual se trata de maximizar

• Busca maximizar la probabilidad de la estructura dadoslos datos, esto es:

P(Es | D)

Donde Es es la estructura y D son los datos• La podemos escribir en terminos relativos al comparar

dos estructuras, i y j como:

P(Esi | D)/P(Esj | D) = P(Esi ,D)/P(Esj ,D)

• Considerando variables discretas y que los datos sonindependientes, las estructuras se pueden comparar enfuncion del numero de ocurrencias (frecuencia) de losdatos predichos por cada estructura

(INAOE) 80 / 86

Page 81: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Medida basada en MDL

• Estima la longitud (tamano en bits) requerida pararepresentar la probabilidad conjunta con ciertaestructura, la cual se compone de dos partes:

1 Representacion de la estructura,2 Representacion del error de la estructura respecto a los

datos

• Hace un compromiso entre exactitud y complejidad• La exactitud se estima midiendo la informacion mutua

entre los atributos y la clase; y la complejidad contandoel numero de parametros

(INAOE) 81 / 86

Page 82: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Busqueda usando MDL

• Se puede hacer un hill-climbing iniciando con unaestructura simple, por ejemplo un arbol construido conChow-Liu (o compleja – altamente conectada),agregando (o eliminando) ligas que mejoren la medidaMDL hasta alcanzar un mınimo local

• Algoritmo - busqueda de la mejor estructura:1 Generar estructura incial - arbol (o multiconectada)2 Calcular medida de calidad de la estructura inicial3 Agregar (eliminar) / invertir un arco en la estructura

actual4 Calcular medida de calidad de nueva estructura5 Si se mejora la calidad conservar el cambio, si no dejar

la estructura anterior6 Repetir 3 a 5 hasta que ya no haya mejoras.

• Tambien se pueden combinar los dos enfoques

(INAOE) 82 / 86

Page 83: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Metodos basados en Pruebas deIndependiencia

• Usa medidas de dependencia local entre subconjuntosde variables

• El caso mas sencillo es el del algoritmo de Chow y Liu(informacion mutua entre pares de variables)

• En general, se hacen pruebas de dependencia entresubconjuntos de variables, normalmente dos o tresvariables

• La desventaja es que pueden generarse muchos arcos“innecesarios”, por lo que se incorporan formas paraluego eliminar arcos

• Hay diferentes variantes de este enfoque queconsideran diferentes medidas de dependencia ydiferentes estrategias para eliminar arcos innecesarios

(INAOE) 83 / 86

Page 84: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo de PC

• PC obtiene el esqueleto (grafo no dirigido) y despueslas orientaciones de los arcos

• Para el esqueleto empieza con un grafo no dirigidocompletamente conectado y determina laindependencia condicional de cada par de variablesdado un subconjunto de otras variables I(X ,Y | S)

• Se puede obtener con una medida de entropiacondicional cruzada y si el valor es menor a un umbralse elimina el arco.

• La direccion se obtiene buscando estructuras de laforma X − Z − Y sin arco en X − Y . Si X ,Y no sonindependientes dado Z , orienta los arcos creando unaestructura “V”: X → Z ← Y .

• Al terminar trata de otientar el resto basado en pruebasde independencia y evitando ciclos

(INAOE) 84 / 86

Page 85: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Algoritmo de PCRequire: Set of variables X, Independence test I

1: Initialize a complete undirected graph G′

2: i=03: repeat4: for X ∈ X do5: for Y ∈ ADJ(X ) do6: for S ⊆ ADJ(X )− {Y}, | S |= i do7: if I(X ,Y | S) then8: Remove the edge X − Y from G′

9: end if10: end for11: end for12: end for13: i=i + 114: until | ADJ(X ) |≤ i , ∀X15: Orient edges in G′

(INAOE) 85 / 86

Page 86: Probabilidad Aprendizaje Clasificador Na¨ıve Aprendizaje Bayesianohugojair/Courses/MachineLearning15/bayes.pdf · Bayesiano Clasificador Bayesiano Na¨ıve Redes Bayesianas Aprendizaje

Probabilidad

AprendizajeBayesiano

ClasificadorBayesianoNaıve

RedesBayesianas

Aprendizajede RedesBayesianas

Aprendizaje de Redes Bayesianas

Otras Estrategias• El encontrar la estructura optima es difıcil, ya que el

espacio de busqueda es muy grande• Por ejemplo, hay mas de 1040 diferentes estructuras

para 10 variables• Una alternativa es combinar conocimiento de expertos

con datos para encontrar la estructura de una redbayesiana (mejora estructural)

• Otra alternativa es obtener una estructura inicial a partirde datos y luego utilizar conocimiento del experto

• Si se require modificar la estructura, se puede hacer losiguiente:

1 Eliminacion de nodo2 Combinacion de nodos3 Creacion de nodo

• Finalmente se puede hacer transfer learning: utilizar loaprendido en un dominio parecido para facilitar elaprendizaje en el dominio actual

(INAOE) 86 / 86


Recommended