Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible...

Post on 09-Jul-2015

184 views 0 download

Tags:

description

Tema: Agrupamento Hierárquico com Restrições Material desenvolvido com livre interpretação do paper de Gilpin and Davidson (2011), publicado na 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

transcript

Incorporating SAT Solvers into HierarchicalClustering Algorithms - An Efficient and Flexible

Approach

Nathan Siegle Hartmann

Núcleo Interinstitucional de Linguística Computacional (NILC),Instituto de Ciências Matemáticas e de Computação (ICMC),

Universidade de São Paulo (USP)

19 de novembro de 2013

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37

Observação

Material desenvolvido com livre interpretação do paper de Gilpinand Davidson (2011), publicado na 17th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 2/37

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 3/37

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 4/37

Contextualização e Motivação

Agrupamento com restrições é o agrupamento "clássico",porém insere restrições na formação dos grupos.Estudos sobre agrupamento restrito se originaram a umadécada atrás.Trabalhos comumente utilizam apenas regras simples(Must-Link, Cannot-Link e Must-Link-Before).2 grandes gaps foram identificados na área.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 5/37

1o Gap da área

Pouco estudo sobre agrupamento hierárquicoutilizando restrições.

Apesar deMais de 50% das aplicações de agrupamento seremhierárquicas.

Agrupamento hierárquico apresenta um sumáriocompreensivo dos dados.Agrupamento hierárquico pode modelar relações temporais.

O uso de agrupamento hierárquico ser bom em áreas comdomínio conhecido por especialistas.

Especialistas podem especificar diversas restrições paramodelar os grupos de interesse.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 6/37

2o Gap da área

Pouco estudo sobre linguagens de programação paramodelagem dessas restrições.

Apesar deModelar restrições com linguagens procedurais ser um grandelimitante

Design de algoritmos para solucionar restrições.Modelar restrições com linguagens declarativas parecer maisconveniente

Modelagem das restrições

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 7/37

Proposta

Os autores propõe a utilização deFormulação de restrições em lógica de primeira ordem comocláusulas de Horn.

Inconsistências são verificadas em tempo polinomial.Resolução de restrições como um problema SAT(satisfiability)

Cláusulas de Horn fazem com que problemas SAT deixem deser NP Completos.

Se todas as restrições são satisfeitas, o modelo pode serinterprestado como um dendograma válido.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 8/37

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 9/37

Regras

Definição 1. together(x,y,i).

Verdadeiro se x e y estão no mesmo grupo no nível iTodos os tipos de restrições podem ser modelados comtogether e expressos com cláusulas de Horn.

Pode-se definir um dendograma utilizandoA relação together.As seguintes propriedades sejam satisfeitas:Reflexividade, Transitividade, Simetria e Inter-Level link.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 10/37

Propriedades

Definição 2. Propriedade de Reflexividade.

∀i , x [together(x , x , i)]

Toda instancia está no mesmo grupo que ela mesma.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 11/37

Propriedades

Definição 3. Propriedade de Simetria.

∀i , x , y [together(x , y , i)→ together(y , x , i)]

Se x está no mesmo grupo que y em um nível i, então y está nomesmo grupo que x no mesmo nível i.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 12/37

Propriedades

Definição 4. Propriedade de Transitividade.

∀i , x , y , z [together(x , y , i)∧

together(y , z , i)→together(x , z , i)]

Se em um nível i, x está no mesmo grupo que y e esse está nomesmo grupo que z, então x está no mesmo grupo que z nessenível i.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 13/37

Propriedades

Definição 5. Propriedade de Inter-Level link.

∀i , x , y [together(x , y , i)→ together(x , y , i + 1)]

Se x e y estão no mesmo grupo em um nível i, eles permanecerãono mesmo grupo em todos os níveis subsequentes da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 14/37

Propriedades

Definição 6. Propriedade de um DendogramaCompleto.

∀x , y [together(x , y , top)]

Para um dendograma ser completo, o último nível de sua hierarquia(top) deve conter apenas um grupo com todos os elementos.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 15/37

Modelando o Dendograma

Aplicando os passos a seguir, todo modelo reconhecido seráinterpretado como um dendograma completo.

1 Aplica a relação together para refletir um grupo em cada nívelda hierarquia.

Requer que as propriedades de transitividade, simetria ereflexividade sejam satisfeitas.

2 Aplica a relação Inter-Level link para cada nível da hierarquia.3 Assegurar um dendograma completo pela Definição 6.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 16/37

Modelando restrições do usuário

Muitos tipos de restrições podem ser inseridas pelo usuárioutilizando apenas cláusulas de Horn.

Restrição de instância.Restrição para instâncias em um nível específico.Restrições Must-Link Before.

Restrições em dois grupos: Globais e Locais.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 17/37

Restrições Globais

Restrições Cannot-Link e Must-LinkOriginalmente formuladas para agrupamento particional.Cada nível de um agrupamento hierárquico pode serinterpretado como uma partição.Logo essas restrições devem obedecer a todos os níveis dahierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 18/37

Restrições Globais

Observação 1. Restrições Globais Must/Cannot-Link.

ML(a, b) ≡ ∀i [together(a, b, i)]CL(a, b) ≡ ∀i [¬together(a, b, i)]

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 19/37

Restrições Globais

Restrição Must-Link-BeforeOriginalmente formuladas para agrupamento hierarquico.Especifica que duas instâncias a e b são mais similares entre sido que a uma terceira instância c.Instâncias a e b estão no mesmo grupo antes de c ser inserido.Se a, b e c estão no mesmo grupo, então a e b já estavam nomesmo grupo em um nível anterior da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 20/37

Restrições Globais

Observação 2. Restrição Global Must-Link-Before.

MLB(a, b, c) ≡∀i [together(a, c, i + 1)→ together(a, b, i)]∀i [together(b, c, i + 1)→ together(a, b, i)]¬together(b, c, 1)¬together(a, c, 1)

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 21/37

Restrições Locais

Atribuir restrições para níveis específicos da hierarquia.

Não são comumente utilizadasRequer conhecimento de domínio sobre a relação de duasinstâncias em um dado nível da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 22/37

Outras restrições

Observação 3. Must-Link-Befored .

must-link-befored(a, b, c) ≡∀i [together(a, c , i + d)→ together(a, b, i)]∀i [together(b, c , i + d)→ together(a, b, i)]

¬together(b, c , 1)...¬together(b, c , d)¬together(a, c , 1)...¬together(a, c , d)

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 23/37

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 24/37

Algoritmo Genérico para solução de restrições

Complexidade O(l2n + n2), ln = literais negativos, n = instâncias

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 25/37

Experimentos

Questões de interesseA incorporação de restrições em algoritmos hierárquicosproduz resultados indesejados?Restrições mais complexas produzem melhores resultados doque as menos complexas?

Must-Link-Befored e Must-Link-Before.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 26/37

Dados de teste

Conjunto de dados de testeArtificial Data SetNewsgroup Data Set

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 27/37

Dados de teste

Artificial Data SetFormado segundo uma distribuição gaussiana.Hierarquia em 5 níveisDataset com 120 instâncias de 5 dimensões

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 28/37

Dados de teste

Newsgroup Data Set

20 Newsgroup data set, coleção de 20 mil documentospertencentes a 20 categorias.Dados organizados em hierarquias.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 29/37

Experimentos

Simulação1 Inicializa com um conjunto vazio de regras.2 Gerar um dendograma com o conjunto de regras.

Single Linkage e Complete Linkage.3 Comparar a saída obtida com a estrutura real do dendograma

(conhecimento prévio)4 Adicionar regras de forma a corrigir erros de merge de pontos

muito cedo no dendograma.Must-Link-Before e Must-Link-Befored .

5 Rodar novamente o experimento a partir do passo 2 com oconjunto de regras atualizado, até que não haja mais erros.

Repetir 10 vezes o experimento.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 30/37

Medidas de Avaliação

F-score ≡ (1+ β2) · P·R(β2·P)+R

Trade-off entre as medidas de precisão e revocação

H-Correlation ≡ SbSt+Sl

Medida desenvolvida para algoritmos hierárquicos.Relação entre acertos em ambas as bases, correta e teste, (Sb)e a soma dos acertos na base correta (St) e na base de teste(Sl).

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 31/37

Experimentos

Resultados para o conjunto de dados gerados artificialmente

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 32/37

ExperimentosResultados para o conjunto de dados gerados a partirda 20 Newsgroup data set

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 33/37

Resultados

A adição de regras Must link befored melhora a qualidade dahierarquia conforme o número de restrições aumenta.Must-Link-Befored superou o Must-Link-Before em ambas asmedidas F-score e H-correlation.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 34/37

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 35/37

Considerações Finais

Lógica é uma boa escolha para especificação de restriçãodevido a sua formalidade.Uma direção de pesquisa é maximizar o número de restriçõessatisfeitas no caso de um conjunto inconsistente de restrições.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 36/37

Referências I

Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchicalclustering algorithms: An efficient and flexible approach. In Proceedings ofthe 17th ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’11, New York, NY, USA, pp. 1136–1144. ACM.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 37/37