+ All Categories
Home > Technology > Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible...

Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible...

Date post: 09-Jul-2015
Category:
Upload: nathan-hartmann
View: 184 times
Download: 0 times
Share this document with a friend
Description:
Tema: Agrupamento Hierárquico com Restrições Material desenvolvido com livre interpretação do paper de Gilpin and Davidson (2011), publicado na 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
Popular Tags:
37
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach Nathan Siegle Hartmann Núcleo Interinstitucional de Linguística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC), Universidade de São Paulo (USP) 19 de novembro de 2013 Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37
Transcript
Page 1: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Incorporating SAT Solvers into HierarchicalClustering Algorithms - An Efficient and Flexible

Approach

Nathan Siegle Hartmann

Núcleo Interinstitucional de Linguística Computacional (NILC),Instituto de Ciências Matemáticas e de Computação (ICMC),

Universidade de São Paulo (USP)

19 de novembro de 2013

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37

Page 2: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Observação

Material desenvolvido com livre interpretação do paper de Gilpinand Davidson (2011), publicado na 17th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 2/37

Page 3: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 3/37

Page 4: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 4/37

Page 5: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Contextualização e Motivação

Agrupamento com restrições é o agrupamento "clássico",porém insere restrições na formação dos grupos.Estudos sobre agrupamento restrito se originaram a umadécada atrás.Trabalhos comumente utilizam apenas regras simples(Must-Link, Cannot-Link e Must-Link-Before).2 grandes gaps foram identificados na área.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 5/37

Page 6: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

1o Gap da área

Pouco estudo sobre agrupamento hierárquicoutilizando restrições.

Apesar deMais de 50% das aplicações de agrupamento seremhierárquicas.

Agrupamento hierárquico apresenta um sumáriocompreensivo dos dados.Agrupamento hierárquico pode modelar relações temporais.

O uso de agrupamento hierárquico ser bom em áreas comdomínio conhecido por especialistas.

Especialistas podem especificar diversas restrições paramodelar os grupos de interesse.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 6/37

Page 7: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

2o Gap da área

Pouco estudo sobre linguagens de programação paramodelagem dessas restrições.

Apesar deModelar restrições com linguagens procedurais ser um grandelimitante

Design de algoritmos para solucionar restrições.Modelar restrições com linguagens declarativas parecer maisconveniente

Modelagem das restrições

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 7/37

Page 8: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Proposta

Os autores propõe a utilização deFormulação de restrições em lógica de primeira ordem comocláusulas de Horn.

Inconsistências são verificadas em tempo polinomial.Resolução de restrições como um problema SAT(satisfiability)

Cláusulas de Horn fazem com que problemas SAT deixem deser NP Completos.

Se todas as restrições são satisfeitas, o modelo pode serinterprestado como um dendograma válido.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 8/37

Page 9: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 9/37

Page 10: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Regras

Definição 1. together(x,y,i).

Verdadeiro se x e y estão no mesmo grupo no nível iTodos os tipos de restrições podem ser modelados comtogether e expressos com cláusulas de Horn.

Pode-se definir um dendograma utilizandoA relação together.As seguintes propriedades sejam satisfeitas:Reflexividade, Transitividade, Simetria e Inter-Level link.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 10/37

Page 11: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Propriedades

Definição 2. Propriedade de Reflexividade.

∀i , x [together(x , x , i)]

Toda instancia está no mesmo grupo que ela mesma.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 11/37

Page 12: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Propriedades

Definição 3. Propriedade de Simetria.

∀i , x , y [together(x , y , i)→ together(y , x , i)]

Se x está no mesmo grupo que y em um nível i, então y está nomesmo grupo que x no mesmo nível i.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 12/37

Page 13: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Propriedades

Definição 4. Propriedade de Transitividade.

∀i , x , y , z [together(x , y , i)∧

together(y , z , i)→together(x , z , i)]

Se em um nível i, x está no mesmo grupo que y e esse está nomesmo grupo que z, então x está no mesmo grupo que z nessenível i.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 13/37

Page 14: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Propriedades

Definição 5. Propriedade de Inter-Level link.

∀i , x , y [together(x , y , i)→ together(x , y , i + 1)]

Se x e y estão no mesmo grupo em um nível i, eles permanecerãono mesmo grupo em todos os níveis subsequentes da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 14/37

Page 15: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Propriedades

Definição 6. Propriedade de um DendogramaCompleto.

∀x , y [together(x , y , top)]

Para um dendograma ser completo, o último nível de sua hierarquia(top) deve conter apenas um grupo com todos os elementos.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 15/37

Page 16: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Modelando o Dendograma

Aplicando os passos a seguir, todo modelo reconhecido seráinterpretado como um dendograma completo.

1 Aplica a relação together para refletir um grupo em cada nívelda hierarquia.

Requer que as propriedades de transitividade, simetria ereflexividade sejam satisfeitas.

2 Aplica a relação Inter-Level link para cada nível da hierarquia.3 Assegurar um dendograma completo pela Definição 6.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 16/37

Page 17: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Modelando restrições do usuário

Muitos tipos de restrições podem ser inseridas pelo usuárioutilizando apenas cláusulas de Horn.

Restrição de instância.Restrição para instâncias em um nível específico.Restrições Must-Link Before.

Restrições em dois grupos: Globais e Locais.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 17/37

Page 18: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Restrições Globais

Restrições Cannot-Link e Must-LinkOriginalmente formuladas para agrupamento particional.Cada nível de um agrupamento hierárquico pode serinterpretado como uma partição.Logo essas restrições devem obedecer a todos os níveis dahierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 18/37

Page 19: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Restrições Globais

Observação 1. Restrições Globais Must/Cannot-Link.

ML(a, b) ≡ ∀i [together(a, b, i)]CL(a, b) ≡ ∀i [¬together(a, b, i)]

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 19/37

Page 20: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Restrições Globais

Restrição Must-Link-BeforeOriginalmente formuladas para agrupamento hierarquico.Especifica que duas instâncias a e b são mais similares entre sido que a uma terceira instância c.Instâncias a e b estão no mesmo grupo antes de c ser inserido.Se a, b e c estão no mesmo grupo, então a e b já estavam nomesmo grupo em um nível anterior da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 20/37

Page 21: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Restrições Globais

Observação 2. Restrição Global Must-Link-Before.

MLB(a, b, c) ≡∀i [together(a, c, i + 1)→ together(a, b, i)]∀i [together(b, c, i + 1)→ together(a, b, i)]¬together(b, c, 1)¬together(a, c, 1)

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 21/37

Page 22: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Restrições Locais

Atribuir restrições para níveis específicos da hierarquia.

Não são comumente utilizadasRequer conhecimento de domínio sobre a relação de duasinstâncias em um dado nível da hierarquia.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 22/37

Page 23: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Outras restrições

Observação 3. Must-Link-Befored .

must-link-befored(a, b, c) ≡∀i [together(a, c , i + d)→ together(a, b, i)]∀i [together(b, c , i + d)→ together(a, b, i)]

¬together(b, c , 1)...¬together(b, c , d)¬together(a, c , 1)...¬together(a, c , d)

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 23/37

Page 24: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 24/37

Page 25: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Algoritmo Genérico para solução de restrições

Complexidade O(l2n + n2), ln = literais negativos, n = instâncias

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 25/37

Page 26: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Experimentos

Questões de interesseA incorporação de restrições em algoritmos hierárquicosproduz resultados indesejados?Restrições mais complexas produzem melhores resultados doque as menos complexas?

Must-Link-Befored e Must-Link-Before.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 26/37

Page 27: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Dados de teste

Conjunto de dados de testeArtificial Data SetNewsgroup Data Set

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 27/37

Page 28: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Dados de teste

Artificial Data SetFormado segundo uma distribuição gaussiana.Hierarquia em 5 níveisDataset com 120 instâncias de 5 dimensões

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 28/37

Page 29: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Dados de teste

Newsgroup Data Set

20 Newsgroup data set, coleção de 20 mil documentospertencentes a 20 categorias.Dados organizados em hierarquias.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 29/37

Page 30: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Experimentos

Simulação1 Inicializa com um conjunto vazio de regras.2 Gerar um dendograma com o conjunto de regras.

Single Linkage e Complete Linkage.3 Comparar a saída obtida com a estrutura real do dendograma

(conhecimento prévio)4 Adicionar regras de forma a corrigir erros de merge de pontos

muito cedo no dendograma.Must-Link-Before e Must-Link-Befored .

5 Rodar novamente o experimento a partir do passo 2 com oconjunto de regras atualizado, até que não haja mais erros.

Repetir 10 vezes o experimento.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 30/37

Page 31: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Medidas de Avaliação

F-score ≡ (1+ β2) · P·R(β2·P)+R

Trade-off entre as medidas de precisão e revocação

H-Correlation ≡ SbSt+Sl

Medida desenvolvida para algoritmos hierárquicos.Relação entre acertos em ambas as bases, correta e teste, (Sb)e a soma dos acertos na base correta (St) e na base de teste(Sl).

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 31/37

Page 32: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Experimentos

Resultados para o conjunto de dados gerados artificialmente

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 32/37

Page 33: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

ExperimentosResultados para o conjunto de dados gerados a partirda 20 Newsgroup data set

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 33/37

Page 34: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Resultados

A adição de regras Must link befored melhora a qualidade dahierarquia conforme o número de restrições aumenta.Must-Link-Befored superou o Must-Link-Before em ambas asmedidas F-score e H-correlation.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 34/37

Page 35: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

IntroduçãoContextualização e MotivaçãoProposta

ModelagemRegrasModelando o dendogramaModelando restrições do usuário

Algoritmo e Experimentos

Considerações Finais

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 35/37

Page 36: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Considerações Finais

Lógica é uma boa escolha para especificação de restriçãodevido a sua formalidade.Uma direção de pesquisa é maximizar o número de restriçõessatisfeitas no caso de um conjunto inconsistente de restrições.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 36/37

Page 37: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach

Referências I

Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchicalclustering algorithms: An efficient and flexible approach. In Proceedings ofthe 17th ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’11, New York, NY, USA, pp. 1136–1144. ACM.

Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 37/37


Recommended