+ All Categories
Home > Documents > Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi...

Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi...

Date post: 29-Aug-2019
Category:
Upload: vodang
View: 214 times
Download: 0 times
Share this document with a friend
187
October 22 to 25, 2018 IBM Research Brazil ao Paulo, SP, Brazil PROCEEDINGS OF THE 6TH SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING Andrea Britto Mattos Lima, Ana Paula Appel, Paulo Cavalin, Ricardo Cerri, Andr´ e Luis Debiaso Rossi (Eds.)
Transcript
Page 1: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

October 22 to 25, 2018IBM Research BrazilSao Paulo, SP, Brazil

PROCEEDINGS OF THE 6TH

SYMPOSIUM ON KNOWLEDGE DISCOVERY,

MINING AND LEARNING

Andrea Britto Mattos Lima, Ana Paula Appel, Paulo Cavalin, RicardoCerri, Andre Luis Debiaso Rossi (Eds.)

Page 2: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6th SYMPOSIUM ON KNOWLEDGE DISCOVERY,MINING AND LEARNING

October 22 to 25, 2018Sao Paulo – SP – Brazil

PROCEEDINGS

OrganizationIBM Research Brazil

Local Organization ChairsAndrea Britto Mattos Lima, IBM Research BrazilAna Paula Appel, IBM Research BrazilPaulo Cavalin, IBM Research Brazil

Program Committee ChairsRicardo Cerri, UFSCarAndre Luis Debiaso Rossi, UNESP

Steering Committee ChairAlexandre Plastino, UFF

SupportBrazilian Computer Society – SBC

ISSN: 2318-1060

Page 3: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Ficha catalográfica elaborada pelo DePT da Biblioteca comunitária da UFSCar

S989k

III Symposium on knowledge discovery, mining and learning (KDMiLe) (6. : 2018 : São Paulo, SP, Brazil)

Proceedings [do] 6th Symposium on knowledge Discovery, mining and learning (KDMiLe), October, 23rd a 24th, 2018, São Paulo, São Paulo; organizadores: IBM Research Brazil. - São Paulo: SBC, 2018. 187 p. Modo de acesso: https://bracis2018.mybluemix.net/KDMILE.html

1. Computação - Congressos. 2. Mineração de dados (Computação) - Congressos. 3. Aprendizado do computador – Congressos. I. Título.

CDD – 681.3(061.3)

Page 4: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Editorial

The Symposium on Knowledge Discovery, Mining and Learning (KDMiLe) aims atintegrating researchers, practitioners, developers, students and users to present theirsresearch results, to discuss ideas, and to exchange techniques, tools, and practicalexperiences – related to Data Mining and Machine Learning areas.

KDMiLe is organized alternatively in conjunction with the Brazilian Conference onIntelligent Systems (BRACIS) and the Brazilian Symposium on Databases (SBBD).In its sixth edition, KDMiLe is held in IBM Research Brazil, at Sao Paulo/SP, fromOctober 23th to 24th in conjunction with BRACIS.

This year’s edition of KDMiLe features technical sessions, one invited talk (amongother talks co-organized with BRACIS), one panel, and a data mining competition.We invited Dr. Eduardo de Paula Costa (Corteva Agriscience) to present a talk on“Machine learning applied to breeding programs of plants and animals”. The panel wasorganized in conjunction with BRACIS and features the participation of researchersand developers from Universities, Research Centers, and Industries. The 2nd Brazi-lian Knowledge Discovery in Databases competition (2nd KDD-BR) was organized inconjunction with SBBD and BRACIS and aims to provide a dataset together with adata mining task and to encourage competitors to develop interesting solutions for theproblem. The best works are invited to be presented during the event.

In 2018, KDMiLe received a total of 53 manuscripts, of which 22 were selected for oralpresentation after a rigorous reviewing process. This corresponds to an acceptance rateof 41.5%. The papers are distributed into five technical sessions, where authors willpresent and discuss their work with the audience.

We thank the BRACIS Organization Committee for hosting KDMiLe at IBM ResearchBrazil and also our sponsors for their valuable support. We are also grateful to theProgram Committee members for carefully evaluating the submitted papers. Finally,we give our special thanks to all the authors who submitted their research work toKDMiLe and contributed to a yet another high quality edition of this ever growingevent in Data Mining and Machine Learning.

Sao Paulo, October 22, 2018

Andrea Britto Mattos Lima, IBM Research BrazilKDMiLe 2018 Local Organization Chair

Ricardo Cerri, UFSCarKDMiLe 2018 Program Committee Chair

Andre Luis Debiaso Rossi, UNESPKDMiLe 2018 Program Committee Co-Chair

Page 5: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6th Symposium on Knowledge Discovery,

Mining and Learning

October 22-25, 2018Sao Paulo – SP – Brazil

Organization

IBM Research Brazil

Support

Brazilian Computer Society – SBC

KDMiLe Steering Committee

Alexandre Plastino, UFFAndre Ponce de Leon F. de Carvalho, ICMC-USPLuiz Merschmann, UFLAWagner Meira Jr., UFMG

KDMiLe 2018 Committee

Local Organization ChairsAndrea Britto Mattos Lima, IBM Research BrazilAna Paula Appel, IBM Research BrazilPaulo Cavalin, IBM Research Brazil

Program Committee ChairsRicardo Cerri, UFSCarAndre Luis Debiaso Rossi, UNESP

Steering Committee ChairAlexandre Plastino, UFF

Page 6: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe Program Committee

Alexandre Plastino (Universidade Federal Fluminense)Aline Paes (Universidade Federal Fluminense)Ana Carolina Lorena (Universidade Federal de Sao Paulo)Andre L. D. Rossi (Universidade Estadual Paulista Julio de Mesquita Filho)Aurora Pozo (Federal University of Parana)Bruno Feres de Souza (Universidade Federal do Maranhao)Bruno M. Nogueira (Federal University of Mato Grosso do Sul)Carlos N. Silla Jr. (Pontifical Catholic University of Parana (PUCPR)Claudia Galarda Varassin (UFES)Daniela Godoy (ISISTAN Research Institute)Dimas C. Nascimento (Federal Rural University of Pernambuco)Elaine Sousa (University of Sao Paulo - ICMC/USP)Fabio Cozman (Universidade de Sao Paulo)Fernando Otero (University of Kent)Flavia Bernardini (Universidade Federal Fluminense)Francisco de A. T. de Carvalho (Centro de Informatica - CIn/UFPE)Frederico Durao (Federal University of Bahia)Gisele Pappa (UFMG)Helena Caseli (Federal University of Sao Carlos - UFSCar)Heloisa Camargo (Universidade Federal de Sao Carlos)Humberto Luiz Razente (Universidade Federal de Uberlandia - UFU)Joao Paulo Papa (UNESP - Universidade Estadual Paulista)Jonathan de Andrade Silva (University of Mato Grosso do Sul)Jonice Oliveira (UFRJ)Jose Alfredo Ferreira Costa (Federal University - UFRN)Julio Cesar Nievola (Pontifıcia Universidade Catolica do Parana - PUCPR)Karin Becker (UFRGS)Kate Revoredo (UNIRIO)Leandro Balby Marinho (Federal University of Campina Grande - UFCG)Leonardo Rocha (Federal University of Sao Joao Del Rei)Luis Zarate (PUC-MG)Luiz Martins (Universidade Federal de Uberlandia)Luiz Merschmann (Federal University of Lavras)Maira Gatti de Bayser (IBM Research)Marcelino Pereira (Universidade do Estado do Rio Grande do Norte - UERN)Marcelo Albertini (Federal University of Uberlandia)Marcio Basgalupp (ICT-UNIFESP)Marcos Goncalves (Federal University of Minas Gerais)Marcos Quiles (Federal University of Sao Paulo)Maria Camila Nardini Barioni (Universidade Federal de Uberlandia)Murillo Guimaraes Carneiro (Federal University of Uberlandia)Murilo Naldi (Universidade Federal de Sao Carlos)Paulo H. R. Gabriel (Universidade Federal de Uberlandia)Rafael Gomes Mantovani (University of Sao Paulo)Renato Tinos (USP)

Page 7: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Ricardo Cerri (Federal University of Sao Carlos)Ricardo Prudencio (Informatics Center - UFPE)Rodrigo Barros (PUCRS)Ronaldo Prati (Universidade Federal do ABC - UFABC)Solange Rezende (Universidade de Sao Paulo)

External Reviewers

Allan Sales da Costa MeloCaio Santos Bezerra NobregaDiogo NolascoGabriel DamascenoJonnathan CarvalhoLuiz F. A. BritoPablo N. Da SilvaVictor Alexandre Padilha

Page 8: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Table of Contents

Deteccao de discurso de odio em portugues usando CNN combinado a vetores de pala-vras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Samuel Silva (Universidade Estadual Paulista) and Adriane Serapiao (UniversidadeEstadual Paulista)

Analise Formal de Conceitos Triadicos atraves da utilizacao de Diagramas Binarios deDecisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20Kaio Ananias (PUC-MG), Julio Neves (PUC-MG), Luis Zarate (PUC-MG), and MarkSong (PUC-MG)

Investigacao da relacao entre empresas atraves da analise topologica de uma rede naBolsa de Valores do Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28Carlos Barbosa (Universidade Federal de Sao Joao del-Rei), Lucas Felix (UniversidadeFederal de Sao Joao del-Rei), Carolina Xavier (Universidade Federal de Sao Joao del-Rei), and Vinıcius Vieira (Universidade Federal de Sao Joao del-Rei)

Selecao de caracterısticas utilizando Algoritmo Genetico multiobjetivo e k-NN parapredicao de funcao de proteına . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36Bruno C. Santos (PUC-MG), Cora Silberschneider (PUC-MG), Marcos W. Rodrigues(PUC-MG), Cristiane N. Nobre (PUC-MG), and Luis E. Zarate (PUC-MG)

Classificando perfis de longevidade de bases de dados longitudinais usando FlorestaAleatoria, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44Giovanna Riqueti (PUC-MG), Caio Ribeiro (University of Kent), and Luis Zarate(PUC-MG)

Conditional density estimation using Fourier series and neural networks, . . . . . . . . . . 52Marco Inacio (Universidade Federal de Sao Carlos / Universidade de Sao Paulo) andRafael Izbicki (Universidade Federal de Sao Carlos)

Avaliacao Automatica de Conteudo de Aplicacoes de Reclamacao Online, . . . . . . . . . 60Lucas Felix (Universidade Federal de Sao Joao del-Rei), Joao Victor Silveira (Univer-sidade Federal de Sao Joao del-Rei), Washington Luiz (Universidade Federal de MinasGerais), Diego Dias (Universidade Federal de Sao Joao del-Rei), and Leonardo Rocha(Universidade Federal de Sao Joao del-Rei)

Page 9: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificacao de Interacoes Sociais Dinamicas a partir de seusAtributos, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Thiago Silva (Universidade Federal de Minas Gerais) and Alberto Laender (Universi-dade Federal de Minas Gerais)

Automatic Generation of Links in Patent Documents, . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76Cinthia Souza (PUC-MG), Matheus Santos (PUC-MG), and Magali Meireles (PUC-MG)

Uma Abordagem para Classificacao de Fadiga Mental baseada em Sinais de Eletroen-cefalografia (EEG), . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .84Mylena Ferreira (Universidade Federal do Para / Instituto Senai de Inovacao), AnaCarolina Quintao Siravenha (Instituto Senai de Inovacao), Schubert Carvalho (Insti-tuto Tecnologico Vale), Bruno Duarte Gomes (Universidade Federal do Para), RonaldoFreitas Zampolo (Universidade Federal do Para), Agostinho Castro (Universidade Fe-deral do Para), and Adriana Castro (Universidade Federal do Para)

Analise da Evolucao dos Discursos de Pre-candidatos a Presidente por meio de Repre-sentacoes Linguısticas Vetoriais, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92Kid Valeriano (Universidade Federal Fluminense), Aline Paes (Universidade FederalFluminense), and Daniel de Oliveira (Universidade Federal Fluminense)

Can I make a wish?: a competition on detecting meteors in images, . . . . . . . . . . . . . 100Ana Carolina Lorena (Instituto Tecnologico de Aeronautica), Daniel Kaster (Univer-sidade Estadual de Londrina), Ricardo Cerri (Universidade Federal de Sao Carlos),Elaine Faria (Universidade Federal de Uberlandia), and Vinicius Melo (UniversidadeFederal de Sao Paulo)

Identification of the Brazilian academic roots through mining advisor-advisee relati-onships, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108Rafael Jeferson Pezzuto Damaceno (Universidade Federal do ABC), Luciano Rossi(Universidade Federal do ABC), and Jesus Pacual Mena-Chalco (Universidade Federaldo ABC)

Analise do impacto das copas do mundo no mercado de transacoes de jogadores defutebol e da globalizacao do futebol utilizando tecnicas de redes complexas, . . . . . .116Lucas Gabriel Felix (Universidade Federal de Sao Joao del-Rei), Carlos Magno Barbosa(Universidade Federal de Sao Joao del-Rei), Vinıcius Da Fonseca Vieira (UniversidadeFederal de Sao Joao del-Rei), and Carolina Ribeiro Xavier (Universidade Federal deSao Joao del-Rei)

Page 10: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Busca Ordenada Branch-and-Bound para solucao do Problema de InferenciaTransdutiva usando Maquinas de Vetores Suporte, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124Hygor Xavier Araujo (Universidade Federal de Juiz de Fora), Raul Fonseca Neto (Uni-versidade Federal de Juiz de Fora), and Saulo Moraes Villela (Universidade Federal deJuiz de Fora)

Entendendo a evolucao das habilidades de jogadores de futebol atraves das pontuacoesdo jogo eletronico FIFA, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132Ivan Soares (Universidade Federal de Minas Gerais), Renato Assuncao (UniversidadeFederal de Minas Gerais), and Pedro Vaz de Melo (Universidade Federal de Minas Ge-rais)

Caracterizacao da Mortalidade Infantil de Santa Catarina e do Amapa Utilizando Mi-neracao de Dados, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140Wanderson Luiz Gomes Soares (PUC-MG), Cristiane Neri Nobre (PUC-MG), MarkAlan Junho Song (PUC-MG), Patrıcia Ferreira Lima (PUC-MG), and Luis EnriqueZarate (PUC-MG)

A Biased Random-key Genetic Algorithm with Local Search Applied to UnsupervisedClustering of Cultural Data, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148Alexandre Aono (Universidade Federal de Sao Paulo), Rudinei Oliveira (Universidadedo Estado de Minas Gerais), Bruno Franchi (Universidade Federal de Sao Paulo), Ja-mes Nagai (Universidade Federal de Sao Paulo), Herio Sousa (Universidade Federal deSao Paulo), Antonio Chaves (Universidade Federal de Sao Paulo), and Camila Martins(Universidade Federal de Sao Paulo)

Agrupamento Fuzzy para Fluxo Contınuo de Dados - Um Estudo de Algoritmos Base-ados em Blocos, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156Rodolfo Krambeck Asbahr (Universidade Federal de Sao Paulo), Priscilla de Abreu Lo-pes (Itera), and Heloisa de Arruda Camargo (Universidade Federal de Sao Paulo)

Agrupamento Hierarquico e Multivisao de Eventos por meio de Grafos de Consistencia,164Paulo Henrique Lima (Universidade Federal de Mato Grosso do Sul), Westerley SilvaReis (Universidade Federal de Mato Grosso do Sul), Solange Oliveira Rezende (Uni-versidade de Sao Paulo), and Ricardo Marcondes Marcacin (Universidade Federal deMato Grosso do Sul)

Classificacao Multirrotulo com Mapas de Kohonen e Vizinhancas Vencedoras, . . . 172Joao Barbirato (Universidade Federal de Sao Carlos) and Ricardo Cerri (UniversidadeFederal de Sao Carlos)

Page 11: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

HR Analytics e Mineracao de Dados para Selecao de Pessoas, . . . . . . . . . . . . . . . . . . . 180Italo Alberto Do Nascimento Sousa (Universidade de Sao Paulo) and Edison Spina(Universidade de Sao Paulo)

Page 12: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Detecção de discurso de ódio em português usando CNNcombinada a vetores de palavras

Samuel C. Silva e Adriane B. S. Serapião

Universidade Estadual Paulista (UNESP) - IGCE/[email protected], [email protected]

Abstract. The current work has proposed to study and to implement a convolutional neural network (CNN) allied topre-trained (Wang2Vec and GloVe) and trainable word embeddings for hate speech detection in Portuguese. For sake ofcomparison, the implementation used different gradient descent optimizer functions (RMSprop, Adagrad, Adadelta andAdam), aiming to contrast the performance at each function. For such task, it were used three datasets of comments inPortuguese, annotated as offensive or not offensive. We have concluded that using this proposed approach the resultswere superior to those from the baseline, achieving higher F-score and accuracy measures.

Categories and Subject Descriptors: I.2.6 [Artificial Intelligence]: Learning

Keywords: convolutional neural networks, hate speech, natural language processing

1. INTRODUÇÃO

Aprendizado Profundo de Máquina ou Deep Learning (DL) [LeCun et al. 2015] é uma nova área depesquisa baseada no conceito de redes neurais artificiais, cujas recentes descobertas contribuíram comsua popularização e permitiram que antigos problemas computacionais fossem novamente abordados,tornando possível atingir bons resultados na resolução desses problemas em comparação com outrastécnicas tradicionais de Inteligência Artificial. A combinação das técnicas de DL nas tarefas deProcessamento de Linguagem Natural (PLN), por exemplo, têm se mostrado relevantes no sentido demelhorar os resultados em tarefas como sumarização de documentos, reconhecimento de fala, análisede sentimento e sistemas de pergunta-resposta.

Em PLN, a detecção de discurso de ódio tem se convertido em um tópico de interesse científico esocial recentemente devido à grande audiência e influência que as mídias sociais exercem na sociedadeatual [Almeida et al. 2017]. As redes sociais virtuais têm se tornado cada vez mais presentes nasociedade moderna e cada vez mais as pessoas fazem uso dessas plataformas de convívio virtual parase expressarem e comunicarem-se. O excessivo uso dessas plataformas, como principalmente o Face-book, o Instagram, o Twitter e o WhatsApp, permitem análises sociais relevantes para a comunidadecientífica, permitindo, num certo grau, um retrato bastante preciso da realidade das pessoas. Dessemodo, a disseminação de discursos ofensivos dirigidos à minorias e grupos políticos é frequente nesteambiente virtual e difícil de ser tratada ou até mesmo evitada.

Segundo Cohen-Almagor [2011], um discurso de ódio se caracteriza por ser um discurso malicioso,enviesado, hostil e preconceituoso dirigido a grupos específicos por conta de gênero, etnia, religião,nacionalidade, deficiência física ou mental, orientação sexual e condicionamento físico. Uma mensa-gem com discurso de ódio é definida assim ao possuir palavras de ódio. O discurso de ódio envolveenormes perigos para a sociedade, uma vez que textos online altamente raivosos podem ser usados

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

12

Page 13: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Samuel C. Silva e Adriane B. S. Serapião

para ataques pessoais, assédio online e comportamentos de bullying. Em decorrência, a comunidadecientífica tem realizado tentativas nos últimos anos de identificar um modelo eficiente para a previsãodesses comentários [Georgakopoulos et al. 2018]. No entanto, esses estudos ainda carecem de no-vas abordagens e estruturas, no sentido de se aumentar a corretude desses modelos na identificaçãoautomática de discursos de ódio, isso é ainda mais evidente tratando-se da língua portuguesa.

A quantidade de trabalhos relativos ao idioma português em tarefas de PLN, como detecção dediscurso de ódio, é baixa, sendo a maioria das pesquisas realizadas em inglês. Entre os estudos emportuguês, são poucos os pesquisadores que disponibilizam seus conjuntos de dados à comunidadecientífica. Por isso, é importante que haja contribuição através de scripts, algoritmos ou conjuntos dedados públicos em português para que a pesquisa em PLN nesta língua também possa se desenvolver[Almeida et al. 2017].

Neste sentido, o presente trabalho buscou explorar conjuntos de dados públicos em português,com o objetivo de contribuir para a detecção de discurso de ódio neste idioma, que foi o 5o maisutilizado na internet global em 20171. Como abordagem para tratar o problema, utilizou-se um modelode DL, as convolutional neural networks (CNN) [LeCun et al. 2015]. Essas foram primeiramenteusadas em aplicações em processamento de imagens devido às suas características inerentes de extrairpropriedades estatísticas de estrutura e caracterização de imagens, porém, mais recentemente elas têmsido utilizadas em tarefas de PLN [Lopez and Kalita 2017].

O artigo está organizado como segue. A Seção 2 apresenta alguns trabalhos correlatos sobre o mesmotema, a Seção 3 indica os procedimentos metodológicos utilizados, a Seção 4 exibe os resultados obtidose a Seção 5 termina com as considerações finais e conclusões sobre o trabalho.

2. TRABALHOS RELACIONADOS

Entre os trabalhos relacionados à tarefa de detecção de discurso de ódio, poucos são aqueles que tra-balham com conjuntos de dados em português e aqueles que assim o fizeram, geraram seus própriosconjuntos de dados. Pelle and Moreira [2017] recolheram comentários do site de notícias brasileirog1.com.br e realizaram a detecção de discurso de ódio através de métodos de aprendizado supervisio-nado clássicos como Support Vector Machines (SVM) e Naive Bayes (NB). O método SVM foi o quepermitiu obter maior F-score. Fortuna [2017] coletou tuítes em português da plataforma do Twittera fim de realizar a detecção de discurso de ódio por meio de um sistema de classificação hierárquica,através de SVMs modificadas (SVMLinear), com o objetivo de captar melhor as nuances que compõemo discurso discriminatório.

Kim [2014] propõe o uso de técnicas de DL para a tarefa de classificação de sentenças, alcançandoresultados consideravelmente bons em conjuntos de dados na língua inglesa. Almeida et al. [2017]realizam a detecção de ódio por meio de técnicas de Teoria da Informação (entropia e divergência).Nobata et al. [2016], a partir da detecção de discurso de ódio, disponibilizaram um corpus de palavrasabusivas em inglês; segundo os autores, os primeiros a proporem tal estratégia. Zhang et al. [2018]arquitetaram uma CNN somada a uma rede neural recorrente para detecção do discurso de ódio eapesar dos resultados obtidos, este estudo não foi comparado a Zhang et al. [2018] devido às diferençasnos modelos e pelo uso de conjuntos de dados distintos. Pitsilis et al. [2018] aplicaram redes neuraisrecorrentes à essa tarefa. Malmasi and Zampieri [2017] identificaram discurso de ódio em mídiassociais utilizando SVM. Schmidt and Wiegand [2017] também realizaram estudos sobre técnicas dedetecção de discurso de ódio com tuítes.

Nosso trabalho se destaca dos demais por (i) aplicar CNN na classificação de conjuntos de dadosem língua portuguesa e (ii) comparar resultados entre diferentes configurações do modelo de CNNutilizado.

1Disponível em: https://www.statista.com/statistics/262946/share-of-the-most-common-languages-on-the-internet/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

13

Page 14: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 3

3. METODOLOGIA

No presente trabalho aplicou-se dois modos de treinamento da rede neural: (i) CNN com vetoresde palavras pré-treinados e (ii) CNN sem vetores de palavras pré-treinados. Os vetores de palavraspré-treinados utilizados tinham dimensões distintas, que contribuíram para a análise da melhor con-figuração para essa arquitetura. De cada conjunto de dados foram extraídos 10% de seus comentários(sentenças) para o conjunto de teste. O treinamento ocorreu em 10 dobras (folds) com validaçãocruzada, usando o embaralhamento em mini-batch e gradiente descendente com diferentes funções deotimização. Os modelos aqui treinados estão disponível em https://drive.google.com/open?id=17XlVuFSdB-J8-PhYOBKl5mAgbHJLeYrn.

3.1 Conjuntos de dados

Pelle and Moreira [2017] propuseram dois conjuntos de dados contendo comentários ofensivos (e nãoofensivos) de um portal de notícias brasileiros, o OffComBr2. O processo de anotação dos comentáriosse deu através de três juízes humanos que permitiram a geração de dois conjuntos. Apesar do processode coleta dos comentários ter obtido 10.366 comentários, os autores o limitaram a 1.250 amostrasaleatórias. Esses comentários selecionados foram categorizados entre as classes “racismo”, “sexismo”,“homofobia”, “xenofobia”, “intolerância religiosa”, “xingamento” e “não ofensivo”. Embora os autorestenham realizado essa rotulação multi-classe, o formato do conjunto de dados disponibilizado pelosmesmos possui rotulação binária, identificando apenas "ofensivo"e "não ofensivo". A partir dessaanálise, gerou-se o OffComBr-2, que contém 1.250 comentários que foram anotados como ofensivos ounão ofensivos por no mínimo dois juízes. Enquanto que o OffComBr-3 contém 1.033 comentários, queforam anotados pelos três juízes. Ao todo, o OffComBr-2 possui 419 comentários identificados comoofensivos, 33,5% do total de seus comentários, e o OffComBr-3 possui 202 comentários identificadoscomo ofensivos, 19,5% do total.

Fortuna [2017] propôs o Hate Speech Dataset3 (HSD), um conjunto de dados anotado hierarqui-camente composto por tuítes em português que foram extraídos da plataforma do Twitter atravésde (i) perfis de usuários específicos e (ii) palavra-chaves. Em (i), foram listados perfis conhecidospor postarem tuítes ofensivos sobre diferentes assuntos. Segundo o autor, esses perfis foram listadosatravés de buscas pelas palavra-chaves “hate”, “hate speech” ou “offensive”. Em (ii), foram listadaspalavra-chaves comumente relacionadas ao discurso de ódio pela literatura, de modo a obter hashtags,perfis e outras palavra-chaves que se relacionassem ao discurso de ódio. Obtiveram-se 42.390 tuítes aofinal do processo, mas o conjunto de dados foi reduzido para 5.668 tuítes após o pré-processamento.Este conjunto de dados foi anotado por dois juízes humanos. Dos tuítes totais que compõem o HSD,1.228 são classificados como discurso de ódio, 22% do conjunto de dados. Apesar do HSD ter sidoanotado com as classes de ódio (“sexismo”, “homofobia”, “racismo”, entre outros), para facilitar o tra-balho e a detecção do discurso de ódio neste estudo, foi adotada uma rotulação binária para todos ostuítes deste conjunto de dados, passando a considerar apenas “ofensivo” ou “não ofensivo”, ao invés daclasse de ódio específica. Essa abordagem torna a comparação entre o HSD e os OffComBrs similar,de modo a permitir a classificação binária entre todos os conjuntos de dados.

3.2 Arquitetura da CNN

Kim [2014] realizou a implementação de CNN aliada a vetores de palavras pré-treinados (Word2Vec)para classificação de documentos. Seu trabalho classificou diversos conjuntos de dados em inglês eobteve resultados significativos. Yin et al. [2017] realizaram um estudo comparativo entre CNNe modelos de redes neurais recorrentes em tarefas de PLN, seus resultados mostraram que houve

2Disponível em: https://github.com/rogersdepelle/OffComBR3Disponível em: https://rdm.inesctec.pt/dataset/cs-2017-008

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

14

Page 15: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Samuel C. Silva e Adriane B. S. Serapião

Fig. 1. Modelo de CNN para classificação de sentenças em língua portuguesa.

pouco ganho em tarefas de classificação de texto quando se alterou o modelo de CNN para o de redesneurais recorrentes. Entretanto, [Zhang and Wallace 2015] sinalizaram que esse modelo é sensível aoshiperparâmetros (regularizadores, dimensão de filtros, entre outros).

A Figura 1 ilustra o modelo de CNN aqui utilizado, o qual diferencia-se de Zhang por usar dimensõesde filtros e hiperparâmetros diferentes. Seja uma sentença s formada por tokens, s = t1⊕t2⊕t3⊕· · ·⊕tn,a camada de entrada é um texto (sentença) tokenizado e transformado em matriz sentencial, Sn,d,onde n é a quantidade de tokens que compõe essa sentença e d é a dimensionalidade do maior tokenem s. Cada linha em S é um vetor de palavra (embed), que é uma representação numérica para cadatoken. Tendo-se S construída é possível lhes aplicar filtros de convoluções, os quais possuem a mesmadimensão que o embed, uma vez que devem capturar todo o vetor de palavra de um token. Varia-sea “altura” dos filtros convolucionais, de modo a cobrir regiões diferentes da sentença. Usa-se filtrossobrepostos numa mesma região, a fim de se descobrir características complementares no local, umavez que sentenças são um tipo de dados notadamente sequenciais e muito dependentes das vizinhanças.

As operações de convolução são divididas em três regiões, tendo 100 filtros de “alturas” (3, 4, 5)para suas respectivas regiões. Cada convolução possui a função ReLU como ativadora, sendo aplicadaum pooling em cada uma das regiões, de modo que sejam extraídas somente as características maissignificativas. Por fim, as características extraídas dessas convoluções são concatenadas, formandoum vetor de características final; nessa última matriz é aplicada a função Dropout = 50% e depois afunção Softmax para que ocorra a classificação.

3.3 Vetores de palavras

Vetores de palavras (word embeddings) são representações numéricas de uma palavra (token) dentrode um universo léxico (corpus), onde os valores numéricos representam o grau de similaridade do tokencom os demais tokens desse corpus.

A utilização de vetores de palavras em tarefas de PLN tem sido frequente devido à sua capacidadede representar de uma maneira bastante significativa a similaridade entre tokens. Por isso, o usodesses vetores de palavras podem auxiliar significativamente na construção da matrix S, anteriormentecitada. Os algoritmos para obtenção de vetores de palavras mais populares devido o desempenhosão: Word2Vec, Wang2Vec, Glove e FastText. Segundo Hartmann et al. [2017] esses embeddings secaracterizam por:

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

15

Page 16: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 5

—Word2Vec: é um método amplamente utilizado em PLN e possui duas estratégias populares: (i)Continuous Bag-Of-Words (CBOW), onde ao modelo é oferecido uma sequência de palavras faltandoa palavra do meio e o modelo tenta predizer qual a palavra faltante e (ii) Skip-Gram, onde ao modeloé dado uma palavra e esse tenta predizer quais as palavras vizinhas.

—Wang2Vec: é uma variação do Word2Vec, que busca suprir a falta de ordem das palavras noWord2Vec.

—Glove: consiste numa matriz , onde cada elemento é a probabilidade de um token estar próximo aum outro token.

—FastText: consiste em representar os vetores de palavras como n-grams, sendo as palavras repre-sentadas pela soma dessas representações.

Hartmann et al. [2017] realizaram um trabalho de compilação de 31 vetores de palavras exclusiva-mente em língua portuguesa. Os autores coletaram corpus de diferentes fontes, indiferentes à variedadedo português (brasileiro ou europeu), pois a quantidade de elementos num corpus influencia em suarobustez. Com isso, geraram embeddings com 50, 100, 300, 600 e 1000 dimensões. No presente traba-lho optou-se por utilizar 50, 100 e 300 dimensões para os algoritmos GloVe e Wang2Vec em português,pois foram os que obtiveram melhor desempenho nos experimentos dos autores supracitados.

Quando esses vetores pré-treinados não foram utilizados nos experimentos deste trabalho, treinou-seconjuntamente à rede um novo vetor de palavras (embedding não pré-treinado), de modo que além dospesos da rede, os valores numéricos neste embedding também fossem aprendidos durante o treinamento.Essa abordagem se justificou na tentativa de verificar se apenas a CNN era capaz de, além de ajustaros pesos, criar um embedding para um dado conjunto de dados.

3.4 Funções otimizadoras do gradiente de descida

Como evidenciado por Zhang and Wallace [2015], os hiperparâmetros influenciam sensivelmente odesempenho desde modelo de CNN, com isso, é proposto confrontar o desempenho do modelo aquiapresentado com quatro diferentes métodos de otimização (RMSprop, Adagrad, Adadelta e Adam)[Ruder 2016] no gradiente descendente. Esses métodos são assim descritos:

—RMSprop é um método de taxa de aprendizagem adaptável. Divide a taxa de aprendizagem poruma média de gradientes quadrados exponencialmente descendente.

—Adagrad é baseado em gradiente que adapta a taxa de aprendizado aos parâmetros, executandoatualizações maiores para atualizações pouco frequentes e menores para parâmetros frequentes.Por esse motivo, é bem adequado para lidar com dados esparsos.

—Adadelta é uma extensão do Adagrad que procura reduzir sua taxa de aprendizado agressiva emonotônicamente. Em vez de acumular todos os gradientes do passado, este método restringe ajanela de gradientes acumulados anteriores a um tamanho fixo w.

—Adam (Adaptive Moment Estimation) também calcula as taxas de aprendizagem adaptativa paracada parâmetro. Além de armazenar uma média dos gradientes quadrados exponencialmente des-cendentes passados, também mantém uma média dos gradientes exponencialmente descendentespassados, semelhante ao momento.

3.5 Protocolo experimental

Todos os experimentos foram executados de acordo com os mesmos hiperparâmetros da Tabela I.Os treinamentos foram implementados no TensorFlow 1.8 e executados em CPU. Esses experimentosforam executados em 84 cenários, cada um com configuração única, combinando-se os conjuntos dedados com os distintos vetores de palavras pré-treinados (ou não) com diferentes tamanhos de palavrase com as diferentes funções de otimização para o treinamento da CNN.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

16

Page 17: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Samuel C. Silva e Adriane B. S. Serapião

Table I. Hiperparâmetros usados no treinamento da rede.Hiperparâmetro ValorTaxa de aprendizagem (learning_rate) 0,001Tamanho do mini-batch (batch_size) 50Número total de épocas (hm_epochs) 50Número total de dobras (K_epochs) 10Quantidade de filtros de convolução (num_filters) 100"Altura"dos filtros para cada camada de convolução (filter_size) [3, 4, 5]

Table II. Resultados obtidos pelos trabalhos de referênciaAutor Conjunto de dados Algoritmo F-score AcuráciaPelle e Moreira (2017) OffComBr-2 SVM 0,77 -Pelle e Moreira (2017) OffComBr-3 SVM 0,82 -Fortuna (2017) HSD SVMLinear 0,76 78,3%

4. RESULTADOS

O critério utilizado para validar a classificação foi o F-score, o qual consiste em verificar a corretudedas predições num conjunto desarmonicamente distribuído. Essa medida foi amplamente utilizada nostrabalhos relacionados [Pelle and Moreira 2017], [Pitsilis et al. 2018], [Almeida et al. 2017], [Nobataet al. 2016] e [Fortuna 2017]. Além disso, calculou-se também a acurácia da classificação, que é ahabilidade que o modelo possui de predizer corretamente a classe de uma nova instância, a qual foiusada nos trabalhos de [Malmasi and Zampieri 2017] e [Fortuna 2017]. Os cálculos dessas medidaspode ser encontrado em [Aggarwal 2015].

Nos trabalhos de Pelle and Moreira [2017] e Fortuna [2017], usados como referência para o presenteestudo, os resultados encontrados com a utilização de SVM para classificação dos conjuntos de dadossão expressos na Tabela II. Nas Tabelas III, IV e V é possível visualizar todas as configuraçõesutilizadas para o treinamento e seus respectivos resultados em termos de F-score e acurácia para cadaum dos conjuntos de dados avaliados. Valores em negrito representam o melhor resultado obtidodentre os experimentos em cada conjunto de dados.

Dos vetores de palavras utilizados, os pré-treinados obtiveram ganhos consideráveis na classificaçãoem relação ao uso de um vetor de palavras treinado durante o treinamento da CNN. A variaçãonas dimensões desses embeddings pré-treinados não necessariamente implicaram num aumento dasmétricas de avaliação. Entretanto, a variação entre as funções otimizadoras causou impacto sobre otreinamento do modelo, sendo o Wang2Vec o word embedding que permitiu as maiores métricas.

Das funções otimizadoras usadas, a RMSprop obteve a maior média de classificação, com F-scoremédio de 0,90, acurácia de teste média de 83,35% e um desvio padrão de 0,038 em 21 cenários deconfigurações. Já a função Adadelta obteve as mais baixas médias, com F-score de 0,63 e acurácia deteste de 59,91%, com um desvio padrão de 0,114 em 21 cenários de configurações. A Figura 2 ilustragraficamente o desempenho dos vetores de palavras de acordo com suas dimensões, exibindo a perdade treinamento nas 50 épocas.

A composição de cada conjunto de dados e a forma como estão anotados os comentários podeminfluenciar a detecção de discurso de ódio. Os F-scores mais altos para o OffComBr-3 indicam quehá um padrão mais bem definido entre seus comentários anotados como ofensivos, em comparaçãocom o OffComBr-2, uma vez que o OffComBR-3 é anotado pela unanimidade de seus três juízes. Odesempenho na classificação, portanto, também está relacionado ao modo como os dados de treina-mento/teste estão anotados, de modo que, aqueles conjuntos de dados que apresentam um padrão maiscoeso, tornam o processo de treinamento menos complexo para a CNN. Considerando-se o F-score,os ganhos relativos ao trabalho de base (ver Tabela II) para o OffComBr-2 e OffComBr-3 foram de,respectivamente, +15,58% e +17,07%. Para o HSD, o ganho foi de +25,65%.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

17

Page 18: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 7

Fig. 2. O desempenho do GloVe e do Wang2Vec de acordo com suas dimensões.

Table III. Resultados do teste da CNN no treinamento do conjunto OffComBr-3 em várias configurações.

OffComBr-3

Vetor de palavras RMSprop Adagrad Adadelta AdamF-score Acurácia F-score Acurácia F-score Acurácia F-score Acurácia

Treinável 0,87 77,67% 0,88 78,64% 0,70 66,50% 0,88 78,64%Wang2Vec 50 dim. 0,91 84,08% 0,92 85,34% 0,49 50,58% 0,92 85,83%GloVe 50 dim. 0,94 88,93% 0,90 82,43% 0,62 58,35% 0,93 88,45%Wang2Vec 100 dim. 0,88 81,84% 0,80 67,12% 0,59 56,02% 0,89 82,64%GloVe 100 dim. 0,88 81,12% 0,84 73,84% 0,76 69,71% 0,83 75,84%Wang2Vec 300 dim 0,86 78,40% 0,75 64,00% 0,72 66,41% 0,96 92,82%GloVe 300 dim 0,92 85,83% 0,93 86,99% 0,68 60,87% 0,94 88,54%

Table IV. Resultados do teste da CNN no treinamento do conjunto OffComBr-2 em várias configurações.

OffComBr-2

Vetor de palavras RMSprop Adagrad Adadelta AdamF-score Acurácia F-score Acurácia F-score Acurácia F-score Acurácia

Treinável 0,83 70,96% 0,83 70,40% 0,60 56,56% 0,79 64,80%Wang2Vec 50 dim. 0,87 80,32% 0,84 72,24% 0,76 68,16% 0,86 79,52%GloVe 50 dim. 0,84 78,64% 0,77 63,36% 0,41 44,08% 0,86 78,08%Wang2Vec 100 dim. 0,88 81,84% 0,80 67,12% 0,61 55,84% 0,89 82,64%GloVe 100 dim. 0,88 81,12% 0,84 73,84% 0,47 50,16% 0,83 75,84%Wang2Vec 300 dim 0,86 78,40% 0,75 64,00% 0,57 55,52% 0,88 80,88%GloVe 300 dim 0,88 82,40% 0,87 78,64% 0,57 55,28% 0,85 78,40%

Table V. Resultados do teste da CNN no treinamento do conjunto HSD em várias configurações.

HSD

Vetor de palavras RMSprop Adagrad Adadelta AdamF-score Acurácia F-score Acurácia F-score Acurácia F-score Acurácia

Treinável 0,87 76,88% 0,89 80,11% 0,80 73,76% 0,90 81,72%Wang2Vec 50 dim. 0,93 88,98% 0,89 80,00% 0,55 53,92% 0,93 88,01%GloVe 50 dim. 0,95 91,02% 0,91 83,39% 0,70 62,04% 0,93 87,63%Wang2Vec 100 dim. 0,96 92,74% 0,86 76,45% 0,54 52,69% 0,95 92,10%GloVe 100 dim. 0,95 91,99% 0,90 81,99% 0,52 53,60% 0,94 88,92%Wang2Vec 300 dim 0,94 89,62% 0,91 83,55% 0,61 56,13% 0,95 91,61%GloVe 300 dim 0,93 87,63% 0,91 83,71% 0,85 76,18% 0,92 87,53%

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

18

Page 19: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Samuel C. Silva e Adriane B. S. Serapião

5. CONCLUSÕES E TRABALHOS FUTUROS

Com base nos resultados obtidos, foi possível verificar empiricamente a capacidade que as técnicas deDL, especificamente as CNN, possuem de permitir ganhos significativos quando comparadas a méto-dos clássicos nesta tarefa de classificação em PLN. O uso do modelo neural aqui proposto, apesar desimples, foi superior aos modelos utilizados pelos trabalhos de referência e contemplou as expectati-vas, permitindo tornar público este modelo treinado, onde espera-se que essa seja uma contribuiçãorelevante para a detecção de discursos de ódio em língua portuguesa.

As funções otimizadoras permitiram verificar e reforçar a sensibilidade do modelo. Espera-se quea função Adadelta seja capaz de melhorar seu desempenho através de um número maior de épocas,uma vez que a convergência não foi atingida por ela nos experimentos aqui propostos. Outros hi-perparâmetros também são passíveis de alteração, como a quantidade e o tamanho dos filtros deconvolução.

Os modelos possuíam uma quantidade de comentários relativamente baixa para os conjuntos detreinamento/validação/teste da CNN, mas espera-se que o desempenho dessa rede continue a sersatisfatório, mesmo com o aumento no tamanho dos conjuntos de dados. Assim, aspira-se que futura-mente haja maior contribuição da comunidade científica no sentido de se fornecer publicamente maisconjuntos de dados anotados de grandes volumes em língua portuguesa.

Além disso, dois pontos se tornam relevantes para trabalhos futuros nesta área: a classificação não-binária (multi-label classification) do discurso de ódio e o uso de ontologias que permitam enriquecere atribuir valor semântico para as classificações obtidas através desses modelos de CNN.

REFERENCES

Aggarwal, C. C. Data Mining: The Textbook. Springer Publishing Company, Incorporated, 2015.Almeida, T. G., Nakamura, F. G., and Nakamura, E. F. Uma abordagem para identificar e monitorar haters em

redes sociais online, 2017.Cohen-Almagor, R. Fighting hate and bigotry on the internet. Policy & Internet 3 (3): 1–26, 2011.Fortuna, P. C. T. Automatic detection of hate speech in text: an overview of the topic and dataset annotation with

hierarchical classes, 2017.Georgakopoulos, S. V., Tasoulis, S. K., Vrahatis, A. G., and Plagianakos, V. P. Convolutional neural

networks for toxic comment classification. arXiv preprint arXiv:1802.09957 , 2018.Hartmann, N., Fonseca, E., Shulby, C., Treviso, M., Rodrigues, J., and Aluisio, S. Portuguese word embed-

dings: Evaluating on word analogies and natural language tasks. arXiv preprint arXiv:1708.06025 , 2017.Kim, Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882 , 2014.LeCun, Y., Bengio, Y., and Hinton, G. Deep learning. Nature 521 (7553): 436–444, 5, 2015.Lopez, M. M. and Kalita, J. Deep learning applied to nlp. CoRR vol. abs/1703.03091, 2017.Malmasi, S. and Zampieri, M. Detecting hate speech in social media. arXiv preprint arXiv:1712.06427 , 2017.Nobata, C., Tetreault, J., Thomas, A., Mehdad, Y., and Chang, Y. Abusive language detection in online user

content. In Proceedings of the 25th international conference on world wide web. International World Wide WebConferences Steering Committee, pp. 145–153, 2016.

Pelle, R. and Moreira, V. Offensive comments in the brazilian web: a dataset and baselines results. In Proc. of the6th Brazilian Workshop on Social Network Analysis and Mining. pp. 1–160, 2017.

Pitsilis, G. K., Ramampiaro, H., and Langseth, H. Detecting offensive language in tweets using deep learning.arXiv preprint arXiv:1801.04433 , 2018.

Ruder, S. An overview of gradient descent optimisation algorithms. arXiv preprint arXiv:1609.04747 , 2016.Schmidt, A. and Wiegand, M. A survey on hate speech detection using natural language processing. In Proceedings

of the Fifth International Workshop on Natural Language Processing for Social Media. pp. 1–10, 2017.Yin, W., Kann, K., Yu, M., and Schütze, H. Comparative study of cnn and rnn for natural language processing.

arXiv preprint arXiv:1702.01923 , 2017.Zhang, Y. and Wallace, B. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for

sentence classification. arXiv preprint arXiv:1510.03820 , 2015.Zhang, Z., Robinson, D., and Tepper, J. Detecting hate speech on twitter using a convolution-gru based deep

neural network. In European Semantic Web Conference. Springer, pp. 745–760, 2018.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

19

Page 20: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise Formal de Conceitos Triádicos através da utilizaçãode Diagramas Binários de Decisão

Kaio H. A. Ananias1, Julio C. V. Neves1, Luis E. Zárate1, Mark A. J. Song1

Pontifícia Universidade Católica de Minas Gerais (PUC-MG), [email protected], [email protected], [email protected], [email protected]

Abstract. Formal Concept Analysis (FCA) is an approach based on the mathematization and hierarchy of formal con-cepts. Nowadays, with the increasing of social network for personal and professional usage, more and more applicationsof data analysis on environments with high dimensionality (Big Data) have been discussed in the literature. Throughthe Formal Concept Analysis and Triadic Concept Analysis, it is possible to extract database knowledge in a hierarchicaland systematized respresentation. It is common that the data set transforms the extraction of this knowledge into aproblem of high computational cost. Therefore, this work has an objective to evaluate the behavior of the algorithmfor extraction in order to extract triadic concepts using TRIAS with high dimensional contexts. It was used a syntheticgenerator known as SCGaz (Synthetic Context Generator a-z). After the analisys, it was proposed a representation oftriadic contexts using a structure known as Binary Decision Diagram (BDD).

Categories and Subject Descriptors: H.2.8 [Database Applications]: Data Mining

Keywords: Formal Concept Analysis, Triadic Concept Analisys, Data Mining, Binary Decision Diagram

1. INTRODUÇÃO

A descoberta de informação válida, tácita, compreensível e útil é o objetivo de diversas áreas deconhecimento na Ciência da Computação. A dificuldade em atingir essa meta se agrava conformeessas bases se tornam cada vez maiores. Dentre os desafios está o problema de encontrar relações eregras que descrevam o comportamento dos elementos presentes. Tome, como exemplo, a crescentepopularização das redes sociais e o volume de dados produzidos por seus usuários. Esta é umaaplicação que cria uma demanda por técnicas para a extração de conhecimento de forma a explicitaras interações entre usuários e definir padrões que representem o comportamento da rede.

Uma possível solução para o problema é a utilização da Análise Formal de Conceitos (AFC) queé uma técnica baseada na matematização da noção de conceitos e na estruturação destes em umahierarquia conceitual. Com o uso da AFC é possível a análise dos dados através de associações edependências de objetos e atributos formalmente descritos a partir de um conjunto de dados real ousintético [Wille 1982] [Ganter and Wille 1999]. A representação do conhecimento contido na basese faz via descrição dos objetos, atributos e das relações de incidência entre os mesmos denominadacontexto formal. Nesta abordagem tradicional, denominada diádica, representa-se a informação pormeio de uma tripla (G, M, I), em que G é o conjunto de objetos, M o conjunto de atributos e I arelação binária de incidência entre G e M.

Em diversas situações, entretanto, é necessário descrever a condição que estabelece a relação entreos diferentes objetos e seus atributos. Uma extensão da AFC clássica (diádica), denominada AnáliseFormal de Conceitos Triádicos (TCA) foi proposta com o objetivo de lidar com este problema [Leh-mann and Wille 1995]. Apesar de oriunda da AFC a abordagem triádica é mais complexa por lidar

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

20

Page 21: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Kaio Ananias, Julio Neves, Luis Zárate and Mark Song

com dados tridimensionais. A TCA é baseada na relação triádica entre objetos, atributos e condiçõesdefinida pela quádrupla (K1, K2, K3, Y ) em que K1, K2 e K3 são, respectivamente, os conjuntos deobjetos, atributos e condições e Y a relação ternária entre os mesmos.

Assim como na AFC, a abordagem triádica tem que lidar com problemas em que as bases de dadossão de alta dimensionalidade. Embora diversos algoritmos tenham sido propostos na literatura comintuito de extrair informação de conceitos triádicos, nenhum ataca diretamente o problema de altadimensionalidade [Jaschke et al. 2006] [Cerf and Besson 2009] [Trabelsi et al. 2012].

Desta forma, o objetivo deste trabalho consistiu em: 1) avaliar o comportamento de algoritmo embases triádicas de alta dimensionalidade (especificamente o TRIAS [Jaschke et al. 2006]); 2) propormodificações no gerador sintético de contextos diádicos SCGaz para que o mesmo seja utilizado nageração de contextos triádicos [Rimsa et al. 2013]; 3) gerar contextos sintéticos que possibilitassema análise do comportamento do algoritmo TRIAS para extração de conceitos triádicos (buscou-secompreender o comportamento deste algoritmo quando submetido ao processamento de bases de dadosde alta dimensionalidade) e, 4) representar contextos triádicos utilizando BDDs (Binary DecisionDiagram) para armazenar e manipular de forma eficiente contextos de alta dimensionalidade [Akers1978]. Neste caso implementou-se um conjunto de operações booleanas para a recuperação de objetos,atributos e condições.

O artigo está assim dividido: a seção seguinte apresenta a fundamentação teórica, a seção 3 ostrabalhos relacionados, a seção 4 a abordagem, os testes e análises, e por fim a seção 5, as conclusõese trabalhos futuros.

2. FUNDAMENTAÇÃO TEÓRICA

Desenvolvida por Rudolf Wille na década de 80, a Análise Formal de Conceitos (AFC) é um ramo damatemática aplicada baseada na matematização do conceito e da hierarquia conceitual [Wille 1982][Ganter and Wille 1999]. A AFC considera os conceitos como meios de compreensão intersubjetivaem situações de ação orientada para o propósito. A formalização dos conceitos deve ser transparentee simples, mas também abrangente, de modo que os aspectos principais de um conceito possam tersuas referências explícitas no modelo formal [Lehmann and Wille 1995].

A abordagem diádica se baseia na noção primitiva de um contexto formal que é uma tripla (G, M, I),em que G é o conjunto de objetos, M o conjunto de atributos e I a relação binária de incidência entreG e M, indicando que um objeto g de G possui um certo atributo m de M. A Tabela I representa umcontexto diádico. Conceitos formais e regras de implicação podem ser extraídos de contextos diádicos.

Table I. Contexto Diádico representado por uma tabela cruzadaG/M m1 m2 m3g1 × ×g2 × ×g3 ×

Um conceito formal de um contexto formal (G, M, I) é definido por um par (A, B) em que A ⊆G, B ⊆ M. O par (A, B) que define o conceito segue as condições A = B’ e B = A’ definida pelooperador de derivação (′): A’ = g ∈ G | gIm ∀ m ∈ B e B’ = m ∈ M | gIm ∀ g ∈ G - a extensãoA contém cada objeto de G que possui todos os atributos de B, e a intensão B contém todos atributosde M pertencentes a todos objetos de A.

2.1 Análise Formal de Conceitos Triádicos (TCA)

A TCA introduzida por Lehmann and Wille [Lehmann and Wille 1995], estende a AFC clássica coma inserção de uma nova dimensão. A noção primitiva de um contexto formal triádico é definida poruma quádrupla (K1, K2, K3, Y ) em que K1, K2 e K3 são conjuntos e Y a relação ternária entre K1,K2 e K3. Os elementos de K1, K2 e K3 são chamados objetos, atributos e condição respectivamente e

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

21

Page 22: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 3

(o1, a2, c3) ∈ Y é interpretado como o objeto o1 que possui o atributo a2 sob a condição c3 [Lehmannand Wille 1995] [Wille 1995]. A Tabela II apresenta um contexto triádico onde as incidências sãorepresentadas através da relação entre os objetos oi, atributos ai e conceitos ci do contexto, marcadasou não, com por uma cruz.

Table II. Contexto Triádico representado por uma tabela cruzadaK1/K2-K3 c1 c2 c3

a1 a2 a3 a1 a2 a3 a1 a2 a3o1 × × × ×o2 × × × ×o3 × × ×

Um conceito formal triádico é definido por uma tripla (A1, A2, A3), tal que A1 ⊆ K1, A2 ⊆ K2 eA3 ⊆ K3 e A1 × A2 × A3 ⊆ Y. Os conjuntos A1, A2, A3 são chamados objetos, atributos e modo,respectivamente [Lehmann and Wille 1995]. O conjunto de todos os conceitos de um contexto triádicoparcialmente ordenado formam um reticulado completo denominado reticulado conceitual [Missaouiand Kwuida 2011].

2.2 Gerador Sintético SCGaz

Utilizar base de dados sintéticas para geração de contextos formais torna-se interessante devido acomplexidade das bases de dados obtidas a partir de cenários reais. Bases de dados reais geralmentenecessitam de um pré-processamento, tarefa esta que pode, se não for efetuada corretamente, interferirdiretamente nos resultados.

A ferramenta SCGaz proposta em [Rimsa et al. 2013] é um gerador sintético randômico de contextosformais diádicos irredutíveis com controle de densidade. Através do SCGaz é possível especificar aquantidade de objetos e atributos desejados em um contexto formal, bem como a densidade, para ageração de contextos.

2.3 Algoritmo TRIAS

Em [Jaschke et al. 2006] os autores definem o problema de minerar todos os conceitos triádicosmais frequentes de um contexto formal e propõe uma solução chamada TRIAS baseada em projeçõesdiádicas para resolução. Os autores adaptam a noção diádica de minerar todos os itemsets de umcontexto formal diádico, definida em [Pei et al. 2000], para o caso triádico. Seja K = (U, T, R, Y)um contexto formal triádico e u-mimsup, t-mimsup e r-mimsup ∈ [0, 1]. O problema de extrair todosos conceitos triádicos frequentes de um contexto consiste em determinar todas as triplas (A, B, C)do contexto K tal que |A||U | ≥ u-minsup, |B||T | ≥ t-minsup e |C||R| ≥ r-minsup.

Em [Jaschke et al. 2006] os autores introduzem o algoritmo TRIAS para computar todos os con-ceitos triádicos frequentes de um contexto formal/folksonomia. Seja K = (U, T, R, Y) um contextotriádico, o algoritmo TRIAS primeiro constrói um contexto diádico L = (U, T × R, Y1) onde suascolunas correspondem a pares de elementos pertencentes a T e R e via projeção, extraí todos os con-ceitos formais. O segundo passo consiste em, para cada conceito formal, checar se estes são fechadosem relação a U. A característica principal do algoritmo está em explorar os subconjuntos de conceitostriádicos recém computados para verificar se estes são novos conceitos.

2.4 Diagrama Binário de Decisão

Introduzido por [Akers 1978] e desenvolvido posteriormente por [Bryant 1986], os diagramas binários dedecisão (BDD) fornecem uma representação canônica para fórmulas booleanas muito mais compactasque formas normais conjuntivas e disjuntivas além de proporcionarem eficiência em sua manipulação.É possível obter um BDD a partir de uma árvore de decisão binária, em que os traços pontilhadosrepresentam transições nulas, ou seja com valor 0 e os traços contínuos representam transições positivas

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

22

Page 23: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Kaio Ananias, Julio Neves, Luis Zárate and Mark Song

com valor 1 - exemplo na Figura 1. A ideia principal dos diagramas binários de decisão está emmesclar subárvores da árvore binária de decisão e eliminar nós idênticos (redundantes) resultando emrepresentação canônica. O resultado das otimizações nos fornece um grafo acíclico direcionado.

3. TRABALHOS RELACIONADOS

Diversos trabalhos usam BDDs com diferentes objetivos. Em [Salleb et al. 2002] os BDDs foramusados para armazenar logs de transação como uma tabela de verdade e encontrar padrões frequentesem grandes conjuntos de dados transacionais. O uso de BDDs permitiu que os autores carregassemtodas as transações em memória principal, evitando processamento da base de dados em disco.

Em [Neto et al. 2018] os autores utilizam o diagrama binário de decisão para lidar com contextosdiádicos de alta dimensionalidade na extração de conceitos formais diádicos. Os autores propõemmodificações nos algoritmos NextClosure e In-Close2 através de BDD para a manipulação dos objetosde um contexto diádico. Para os testes foram utilizados o algoritmo NextClosure e contextos diádicoscom até 50.000 objetos e 25 atributos, gerados por meio da ferramenta SCGaz. Os autores obtiveramganhos significativos com o uso de BDD, obtendo resultados de até 4 vezes melhor que a implementaçãooriginal. Além disso, o uso dos diagramas permitiu que os autores explorassem contextos com maiordimensionalidade, como 50.000 objetos, 20 atributos com 70% de densidade. Os autores tambémexploraram o algoritmo In-Close2 com uso de BDD. Mais uma vez a abordagem se mostrou eficienteem diversos casos. Os autores obtiveram speedup de até 2 em contextos com 500.000 objetos e máximadensidade. Em diversas situações a versão com BDD foi capaz de gerar conceitos enquanto o algoritmooriginal encerrava a execução devido a estouro de memória.

Em [Santos et al. 2018] os autores propõem modificações no algoritmo de extração de implicaçõespróprias diádicas ProperIm, adicionando BDDs para manipulação e extração das regras em contextosdiádicos. O algoritmo ProperImplicBDD apresenta tempos de execução significativamente melhores.Os testes variaram a quantidade de atributos e densidade dos mesmos para um total de 120.000objetos. Os resultados mostraram que a versão utilizando BDD gerou ganhos significativos no tempode execução, chegando a ser 4 vezes mais rápido que a versão original. Além de ganho de performance,os autores conseguiram explorar contextos, por exemplo, com 150 atributos e densidades de 30%,50% e 70% (maior dimensionalidade) que a versão original do algoritmo não era capaz de processar,expandindo o horizonte de aplicações.

4. A ABORDAGEM, TESTES E ANÁLISES

Este trabalho teve por objetivo analisar o comportamento do algoritmo TRIAS em contextos triádicosde alta dimensionalidade gerados a partir de uma ferramenta sintética (SCGaz ) para geração decontextos triádicos. Foi proposta também uma representação de contextos triádicos com uso deBDDs. Tal abordagem pode ser utilizada em trabalhos futuros como estrutura principal de algoritmostriádicos como TRIAS, conforme explicitado em seções anteriores.

Modificações no gerador de contextos sintético diádicos SCGaz foram realizadas para geração deconceitos triádicos adicionando uma terceira dimensão, não computada pela ferramenta. As regras deredutibilidade definidas em [Rimsa et al. 2013] são mantidas para os contextos triádicos. Uma terceiradimensão escolhida pelo usuário é adicionada e os objetos do contexto diádico são então replicadospara o contexto triádico sujeitos às condições previamente definidas.

A partir das modificações anteriores, avaliações sobre o comportamento do algoritmo TRIAS foramrealizadas utilizando-se dos contextos anteriormente gerados pelo SCGaz. Tempo médio de execução,quantidade de conceitos encontrados, dimensões e densidade, são avaliadas nos testes iniciais destetrabalho com intuito de encontrar os limites do algoritmo. Através de projeções do contexto triádicoem diádico, funções booleanas são geradas a partir do contexto e em seguida o BDD é construído.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

23

Page 24: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 5

4.1 Contextos Triádicos usando SCGaz

O gerador sintético SCGaz proposto em [Rimsa et al. 2013] fornece uma abordagem diádica parageração de contextos randômicos. Contudo, a abordagem triádica TCA, possui uma terceira dimensãocomumente chamada de Condições. Esta dimensão fornece uma maior caracterização de objetos, umavez que estes agora estão relacionados com um determinado atributo sob uma condição.

Neste trabalho, estendeu-se a ferramenta SCGaz adicionando a dimensão de condições nos contextosgerados. A quantidade de condições é definida pelo usuário. Dado um contexto formal irredutível (G,M, I), gerado por meio do SCGaz, uma incidência diádica é definida por gIm ⊆ I, em que g ∈ G em ∈ M. Um contexto triádico (K1, K2, K3, Y) é gerado em que K1 = G e cada atributo ai ∈ K2 édefinido por:

ai = mi mod |K3|

Dada uma incidência gIm ∈ I, em que g ∈ G e m ∈ M, do contexto formal irredutível (G, M, I),obtido por meio do SCGaz, um contexto triádico (K1, K2, K3, Y ) é gerado, e a regra que adiciona aincidência gIm atrelada à condição ci é definida por:

ci =mi

|K3|

4.2 Avaliação do Algoritmo TRIAS

A partir do gerador sintético randômico SCGaz, diversos contextos foram gerados a fim de avaliaro comportamento do algoritmo de extração de conceitos triádicos TRIAS. Contextos triádicos sin-téticos com número arbitrário de dimensões e densidade foram gerados com o intuito de entender ocomportamento do algoritmo.

Inicialmente, fixou-se a quantidade de atributos e condições, maximizando a quantidade de objetoscom intuito de obter um maior número de incidências. Contextos com 500, 1.500, 3.000, 5.000 e 10.000objetos foram gerados com 15 atributos e 5 condições. A densidade foi fixada em 30% para todos oscontextos pois, o principal objetivo era compreender as dimensões limites para o algoritmo TRIAS (aquantidade de atributos, objetos e condições suportadas).

Os testes foram executados em um Intel Core i7-4790 3.60GHz com 4 cores, 8 threads 32Gb dememória RAM e um sistema operacional Ubuntu 14.04 LTS. A Tabela III apresenta os resultadosconsiderando inicialmente contextos com dimensões reduzidas segundo [Old and Priss 2006]. É pos-sível notar que mesmo com um número reduzido de objetos, atributos e condições, o algoritmo levaaproximadamente 40 minutos para computar todos os conceitos do primeiro contexto sintético. Ob-serve que o teste com 10.000 objetos, 15 atributos e 5 condições demandou um tempo superior a 7dias e não foi devidamente computado conforme mostrado.

Table III. Resultados do Algoritmo TRIAS para contextos menoresContexto(Objetos X Atributos X Condições Incidências TRIAS

(Minutos)500 x 15 x 5 13500 42.681500 x 15 x 5 33750 212.43000 x 15 x 5 67500 376.25000 x 15 x 5 112500 768.810000 x 15 x 5 225000 -

É interessante notar que as características de alta dimensionalidade em aplicações triádicas podemdiferir das mesmas diádicas investigadas. Em 2006 a edição do International Conference on FormalConcept Analysis (ICFCA) em Desdren [Old and Priss 2006] discutiu os principais desafios da análiseformal, dentre eles, a necessidade de lidar com contextos formais densos e de alta dimensionalidade,por exemplo, 120.000 objetos e 70.000 atributos, estes consideravelmente maior que os testes aquiobservados.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

24

Page 25: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Kaio Ananias, Julio Neves, Luis Zárate and Mark Song

Novos testes foram realizados, com contextos caracterizados de alta dimensionalidade. A Tabela IVmostra os resultados obtidos com contextos de 120.000 objetos, variando atributos e condições respec-tivamente. É possível notar que em nenhum dos casos de alta dimensionalidade conseguiu-se chegarao fim da execução do algoritmo, mantendo-o executando por mais de 7 dias sem nenhuma conclusão.

Os resultados obtidos na execução do TRIAS evidenciam o custo computacional elevado da extraçãode conhecimento de contextos triádicos. É notória a inviabilidade de se utilizar TCA com bases dedados de alta dimensionalidade. Este fato certamente demanda uma maior investigação e novaspropostas para viabilizar o uso de algoritmos de TCA neste contexto.

Table IV. Resultados do Algoritmo TRIAS para contextos de alta dimensionalidadeContexto

(Objetos X Atributos X Condições Incidências TRIAS(Dias)

120.000 x 15 x 5 2.999.984 >7120.000 x 10 x 5 1.776.769 >7120.000 x 5 x 10 1.776.769 >7

4.3 Contextos Triádicos usando BDD

Algumas aplicações de AFC utilizam BDD como estruturas principais para armazenamento e mani-pulação de objetos de forma eficiente [Salleb et al. 2002] [Neto et al. 2018] [Santos et al. 2018].Desta forma, este trabalho propõe uma representação triádica de contextos usando BDDs com intuitode tirar proveito da eficiência e economia proporcionada por estes diagramas.

Dado um contexto formal triádico (K1, K2, K3, Y) em que K1, K2 e K3 são chamados objetos,atributos e condição respectivamente e Y a relação ternária entre K1, K2 e K3, uma projeção podeser realizada no contexto triádico (Tabela V) resultando em um contexto diádico (K1, K2 × K3, Y)(Tabela VI). A projeção resulta da combinação dos atributos e condições, de forma que cada atributo

Table V. Contexto Triádico (K1, K2, K3, Y )K1/K2-K3 c1 c2 c3

a1 a2 a1 a2 a1 a2o1 × × ×o1 × × ×o3 × × × ×

seja renomeado de acordo com a condição a qual pertence. A recuperação e manipulação dos atributose condições podem ser feitas a partir do label atribuído a cada atributo. No contexto representadopela Tabela VI a incidência diádica dada pela tupla (o1, a1c1) é equivalente a incidência triádicadada pela tripla (o1, a1, c1) do contexto representado na Tabela V. Uma vez projetado, o contexto

Table VI. Projeção Diádica do Contexto (K1, K2 × K3, Y)K1/K2×K3 a1c1 a2c1 a1c2 a2c2 a1c3 a2c3

o1 × × ×o2 × × ×o3 × × × ×

triádico agora descrito por um contexto diádico pode ser representado por um diagrama binário dedecisão convertendo o contexto para uma fórmula booleana usada para gerar o BDD correspondente.A Tabela VI descreve o contexto triádico projetado em um contexto diádico e a através de operaçõesconjuntivas e disjuntivas entre os atributos do contexto o mesmo é representado pela Equação 1, ondeos símbolos acentuados por uma barra representam a negação do atributo.

f(a1c1, a2c1, a1c2, a2c2, a1c3, a2c3) = a1c1 · ¯a2c1 · ¯a1c2 · a2c2 · a1c3 · ¯a2c3+

a1c1 · ¯a2c1 · ¯a1c2 · a2c2 · a1c3 · ¯a2c3 + a1c1 · ¯a2c1 · ¯a1c2 · a2c2 · a1c3 · ¯a2c3(1)

A Figura 1 representa a projeção diádica do contexto triádico definido anteriormente, onde os nósincididos por arestas pontilhadas significam uma transição nula, ou seja, o objeto não possui o atributorepresentado pelo nó. Tal abordagem permite manipular contextos triádicos utilizando um BDD.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

25

Page 26: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 7

Fig. 1. Contexto (K1, K2 × K3, Y ) representada por um BDD.

Dado um contexto triádico projetado e representado por um BDD, é interessante prover técnicaspara recuperação de objetos, atributos e condições, uma vez que qualquer aplicação que faça uso destarepresentação necessitará de meios que permitam a recuperação e alteração eficiente destes elementos.

Considere o contexto representando na Tabela V, a recuperação de objetos pode ser feita, porexemplo, a partir de operações lógicas AND ou OR sob a Equação 1 do contexto. Caso seja necessárioobter todos os objetos do contexto representado na Tabela VI que possuam o atributo a1c2, pode-secriar um objeto BDD que represente tal atributo e aplicar uma operação lógica AND entre os BDDs.

Em algumas situações, caso seja necessário recuperar todos os objetos que possuam, por exemplo,os atributos a1c1 e a1c3 do contexto representado na Tabela VI, um BDD com ambos atributos deveser criado e a operação lógica AND entre este novo BDD com o BDD do contexto deve ser efetuada.Isto retornará apenas os objetos de interesse. A Figura 2 ilustra tal operação.

Fig. 2. Operação lógica entre o atributo a1c1 e a1c3 e o BDD Contexto.

5. CONCLUSÕES E TRABALHOS FUTUROS

A tarefa de extrair os conceitos de um contexto triádico mostra-se mais complexa do que na abordagemclássica da FCA. A representação dos dados em três dimensões acarreta na maior dimensionalidadedas bases de dados, de forma que com o crescimento dos contextos, técnicas como o algoritmo TRIASse tornam ineficientes na extração de informação como mostrado. Como intuito de melhorar o desem-penho destes algoritmos, a representação de contextos por meio de estruturas como BDD se mostrouuma alternativa interessante e eficiente na recuperação de informação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

26

Page 27: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Kaio Ananias, Julio Neves, Luis Zárate and Mark Song

Através do estudo realizado, percebe-se que o problema de alta dimensionalidade em contextostriádicos acontece com um reduzido número de objetos, atributos (e condições) quando comparadoà abordagem diádica. Os testes efetuados mostraram que o algoritmo TRIAS, por exemplo, nãoconsegue lidar com as dimensões caracterizadas como de alta dimensionalidade diádicas e se mostrouineficiente quando utilizado com contexto de maior dimensão para a abordagem triádica.

Por sua vez, a representação triádica de contextos por meio de BDDs aqui proposta mostrou-se eficiente na recuperação das informações relevantes de um contexto tornando-se uma abordageminteressante para aplicações triádicas. A aplicação desta técnica se torna interessante não apenas paraprolongar o uso dos algoritmos triádicos em contextos de alta dimensionalidade, mas também paraprover eficiência na manipulação de objetos, atributos e condições.

Como trabalho futuro, pretende-se implementar uma versão BDD do algoritmo TRIAS. O objetivoé reduzir o tempo das consultas realizadas a fim de classificar o subconjunto de conceitos recémdescobertos e consequentemente aumentar o poder de extração de conceitos triádicos mais frequentesem um contexto triádico. Espera-se também reduzir o tempo de execução tendo em vista que osresultados apresentados na Tabela IV se mostraram inviáveis.

6. AGRADECIMENTOS

Os autores agradecem o suporte financeiro da CAPES, FAPEMIG e CNPq.

REFERENCES

Akers, S. B. (1978). Binary decision diagrams. IEEE Transactions on Computers, C-27(6):509–516.Bryant, R. E. (1986). Graph-based algorithms for boolean function manipulation. Computers, IEEE Transactions on,

100(8):677–691.Cerf, L. and Besson, J.and Robardet, C. B. J. (2009). Closed patterns meet n-ary relations. pages 1–36.Ganter, B. and Wille, R. (1999). Formal concept analysis: mathematical foundations.Jaschke, R., Hotho, A., Schmitz, C., Ganter, B., and Stumme, G. (2006). Trias–an algorithm for mining iceberg

tri-lattices. In Data Mining, 2006. ICDM’06. Sixth International Conference on, pages 907–911. IEEE.Lehmann, F. and Wille, R. (1995). A triadic approach to formal concept analysis. Conceptual structures: applications,implementation and theory, pages 32–43.

Missaoui, R. and Kwuida, L. (2011). Mining triadic association rules from ternary relations. Formal Concept Analysis,pages 204–218.

Neto, S. M., Zárate, L. E., and Song, M. A. (2018). Handling high dimensionality contexts in formal concept analysisvia binary decision diagrams. Information Sciences, 429:361–376.

Old, J. and Priss, U. (2006). Some open problems in formal concept analysis. problems presented at internationalconference on formal concept analysis (icfca).

Pei, J., Han, J., Mao, R., et al. (2000). Closet: An efficient algorithm for mining frequent closed itemsets. In ACMSIGMOD workshop on research issues in data mining and knowledge discovery, volume 4, pages 21–30.

Rimsa, A., Song, M. A., and Zárate, L. E. (2013). Scgaz-a synthetic formal context generator with density controlfor test and evaluation of fca algorithms. In Systems, Man, and Cybernetics (SMC), 2013 IEEE InternationalConference on, pages 3464–3470. IEEE.

Salleb, A., Maazouzi, Z., and Vrain, C. (2002). Mining maximal frequent itemsets by a boolean based approach. InEuropean Conf. on Artificial Intelligence, Lyon France (July 2002), pages 285–289.

Santos, P., Neves, J., Silva, P., Dias, S. M., Zárate, L., and Song, M. (2018). An approach to extract proper implicationsset from high-dimension formal contexts using binary decision diagram.

Trabelsi, C., Jelassi, N., and Yahia, S. B. (2012). Scalable mining of frequent tri-concepts from folksonomies. InPacific-Asia Conference on Knowledge Discovery and Data Mining, pages 231–242. Springer.

Wille, R. (1982). Restructuring lattice thoery: An approach based on hierarchies of concepts. pages 445–470.Wille, R. (1995). The basic theorem of triadic concept analysis. Order, 12(2):149–158.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

27

Page 28: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Investigação da relação entre empresas através da análisetopológica de uma rede na Bolsa de Valores do Brasil

Carlos Magno G. Barbosa, Lucas Gabriel da S. Felix, Carolina R. Xavier, Vinícius da F. Vieira

Universidade Federal de São João del-Rei, [email protected]

Abstract. B3 (Brasil, Bolsa, Balcão) is the official stock exchange in Brazil and plays a key role in the world financialmarket. Stock exchange allows people and companies to relate through the shareholding and the purchase and sale ofshares. The study of the relationship between people and companies can reveal valuable information about the operationof the stock exchange and, consequently, the financial market as a whole. In this work, the relations in B3 are modeledthrough a network, in which the vertices represent companies and people and the edges represent shareholdings. Fromthe built network, several analyzes are performed with the objective of understanding and characterizing the patternsfound in relationships. Investigation on the topology of the network is performed under different perspectives, such asthe centrality of the vertices, organization of vertices in communities, the robustness and the diffusion of influence.

Categories and Subject Descriptors: E.1 [Data]: Graphs and networks; H.2.8 [Database Applications]]: Data Mining

Keywords: Graph Mining, data mining, stock exchange, B3

1. INTRODUÇÃO

A modelagem de sistemas complexos através de redes, onde os nós representam elementos e as arestasrepresentam suas relações, pode trazer informações reveladoras e valiosas em diversos contextos, comosociologia, biologia, transportes e economia. Diversos trabalhos podem ser encontrados na literaturacom o objetivo de investigar redes no mercado de ações, a maioria deles com foco na análise da redegerada a partir da correlação do preço de ações [Huang et al. 2009; Xia et al. 2018; Tabak et al. 2010].Huang et al. [2009] apresentam uma abordagem estatística para construir uma rede de correlaçãodo preço de ações. Huang et al. [2009] também apresentam uma análise topológica e estatística domercado de ações em um trabalho em que é analisado o mercado de ações da China com objetivo deidentificar o comportamento da rede e a robustez da mesma. Já Tabak et al. [2010], utilizam umaárvore geradora mínima para encontrar os setores mais importantes do mercado de ações.

Considerando a grande importância do mercado de ações brasileiro na América Latina e sua in-fluência no crescimento da economia [Caporale et al. 2004], o presente trabalho utiliza como base aB3, bolsa de valores oficial do Brasil. Este trabalho apresenta a construção de uma rede ponderadadirecionada considerando as relações acionárias da classe ordinária na bolsa de valores. A utilizaçãodas ações da classe ordinária, isto é, ações cujos detentores deliberam sobre a atividade da companhia[Sarlo Neto et al. 2005] se justifica devido ao fato de que ações desta classe permitem uma possívelinfluência nas decisões da empresa, ao contrário de ações de classe preferencial, cujos detentores têmprioridade no recebimento de dividendos.

O objetivo geral deste trabalho é investigar padrões e oferecer uma melhor compreensão das relaçõesentre empresas e acionistas na B3. Para isso, são utilizadas diversas ferramentas da teoria de redescomplexas, como análise da centralidade dos vértices, da organização da rede em comunidades e da

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

28

Page 29: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Carlos M. G. Barbosa et al.

influência dos vértices da rede. Diferentes abordagens para a definição da importância dos vértices sãoconsideradas, algumas clássicas e outras mais alinhadas ao contexto do presente trabalho (extensão eativos). Além disso, considera-se as definições de poder, influência e barganha exploradas por Veronaet al. [2017]. As medidas de centralidade são utilizadas para simular a propagação da influência entreos elementos, considerando o modelo de difusão Independent Cascade Model (ICM).

2. CONCEITOS BÁSICOS

Esta seção apresenta alguns conceitos básicos necessários para uma melhor compreensão do presentetrabalho.

2.1 Comunidades

Uma das propriedades topológicas mais importantes em uma rede é a organização de seus nós emcomunidades, uma divisão dos nós em grupos com alta densidade interna e baixa densidade externa.A investigação de comunidades tem um papel fundamental em diversos contextos, como sociologia,economia e marketing. A noção de comunidade fica mais evidente à medida em que a diferença entreo número de arestas internas e externas aumentaFrequentemente, a qualidade de uma estrutura decomunidade é medida através da modularidade (Q), proposta por Newman and Girvan [2004], definidapor

Q =1

2m

ij

(Aij − kikj

2m

)δ(ci, cj), (1)

onde k é o vetor de graus de uma rede de interesse, m é o número de arestas dessa rede, c(i) representaa comunidade do vértice i e δ(., .) é o delta de Kronecker, que retorna 1 se os operandos são iguais e0, caso contrário.

Neste trabalho, utiliza-se o método de Newman and Girvan [2004], mais especificamente, utiliza-se uma implementação de alto desempenho do método de Newman que utiliza estruturas de dadoseficientes e reduz operações desnecessárias no método, como proposto por Vieira et al. [2014].

2.2 Centralidade e influência

Uma questão importante que surge na análise da estrutura topológica das redes é: quais os nós maisimportantes - ou centrais - em uma rede? A definição de centralidade pode ser considerada sobdiferentes perspectivas [Moore and Newman 2000]. As medidas grau, PageRank, HITS e Betweennes,utilizadas neste trabalho, são apresentadas a seguir de maneira sucinta.

O grau é possivelmente a medida mais básica para avaliar a centralidade dos vértices de uma redee leva em conta o seu número de vizinhos· Já o PageRank, proposto por Brin and Page [1998], éuma extensão do grau que considera não apenas o número de conexões de um vértice, mas tambéma qualidade dessas ligações. Assim, um vértice terá um PageRank alto se estiver ligado a outrosvértices de PageRank alto. Também visando considerar a importância das ligações na definição dacentralidade, o HITS foi proposto por Kleinberg [1998], utilizando dois componentes para definir aimportância de um nó: Authorities e Hubs, de forma que bons Hubs são apontados por bons Authoritiese bons Authorities apontam bons Hubs. Em uma linha diferente, a medida de Betweennes define acentralidade de um vértice como a capacidade de ligar os demais vértices de uma rede. Os vértices demaior centralidade são aqueles que interligam muitos outros em um menor caminho.

Além das medidas clássicas de centralidade, este trabalho considera a medida de poder sob aperspectiva proposta por Verona et al. [2017], que agrega as medidas de influência e barganha. Notrabalho em que propõem a medida de poder em redes, Verona et al. [2017] avaliam relações noCongresso Nacional através de uma rede que representa o financiamento de campanha no SenadoFederal. Para isso, as autoras definem a relação de poder como a diferença entre duas medidas:influência e barganha. Considerando que W é uma matriz, que representa os pesos das arestas emuma rede direcionada, da qual um elemento wij indica o peso de uma aresta (i, j), kout é o vetor que

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

29

Page 30: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Investigação da relação entre empresas na Bolsa de Valores do Brasil · 3

representa os graus de saída dos vértices da rede e kin é o vetor que representa os graus de entradados vértices da rede, as medidas de influência e barganha entre dois vértices i e j podem ser definidas,respectivamente por

influenciaij =Wij

kinb, (2)

barganhaji =Wij

kouta

. (3)

O poder pode, então, ser definido como a diferença entre a influência e a barganha:poderij = influenciaij − barganhaji. (4)

Uma relação de poder, conforme discutido por Verona et al., torna-se mais evidente a partir dodesequilíbrio entre a influência e a barganha em uma relação.

Pode-se esperar que a abordagem proposta por Verona et al. [2017] para a definição de influêncianas relações do Congresso Nacional seja bastante adequada para a definição de relações na bolsa devalores, justificando sua adoção no presente trabalho. Entretanto, tradicionalmente na literatura, anoção de influência em redes tem uma conotação um distinta da apresentada pelas autoras, sendomais frequentemente associada à ideia da capacidade de um vértice de difundir algo pela rede. Nessesentido, o presente trabalho realiza uma comparação das noções de centralidade e influência relacionalcom a noção tradicional da literatura da influência.

Diversos modelos para simular o processo de difusão em redes podem ser encontrados na literatura.Neste trabalho, a propagação da influência é modelada através do Independent Cascade Model, pro-posto por Goldenberg et al. [2001]. O ICM é baseado na ativação de nós e na propagação de energia apartir de vértices e pode ser brevemente descrito da seguinte maneira. Parte-se de um conjunto inicialde vértices ativos, denominados sementes, escolhidos segundo algum critério conveniente. Se no tempot um vértice i torna-se ativo, ele tem uma única possibilidade de tentar influenciar cada um de seusvizinhos j, até então inativos, no tempo t+1. O sucesso da ativação de j tem uma probabilidade pi,j .Além disso, se vários vizinhos de j se tornarem ativos no tempo t, suas tentativas para ativar j sãosequenciadas em uma ordem arbitrária e, se um deles obtiver sucesso no tempo t, então j se tornaráativo no tempo t+ 1; no entanto, sendo i bem-sucedido ou não, ele não poderá fazer mais tentativasnos passos de tempo seguintes. O processo termina quando não há mais ativações possíveis.

3. METODOLOGIA DE CONSTRUÇÃO DA REDE

Neste trabalho, a análise das relações de empresas que operam na B3, bolsa de valores oficial doBrasil, é feita sob a perspectiva de um modelo de redes. Para isso, considera-se que cada vérticerepresenta uma entidade, pessoa física ou jurídica, que é detentora de ações da classe ordinária nabolsa de valores. As arestas representam as participações acionárias entre as entidades. Como arelação é unidirecional, as arestas são direcionadas. Os pesos representam o volume da participaçãoacionária. A rede foi gerada utilizando a listagem de composição acionária disponível no site da b31

em dezembro de 2017 e o histórico de cotações entre agosto e dezembro de 2017.

A porcentagem de participação, considerada para a definição dos pesos das arestas, foi ponderadapela média de cotações das ações da empresa no período observado, visando considerar a magnitudedo volume financeiro negociado. Nos casos em que o histórico de cotações não estava disponível foidefinido um peso arbitrário de valor muito pequeno para indicar que a relação entre os acionistasexiste.

Optou-se pela utilização dos papeis da classe ordinária, representados pelo código 3 na bolsa devalores, devido ao fato de que detentores de papeis dessa classe podem participar de decisões relevantes

1http://www.bmfbovespa.com.br/pt_br/produtos/listados-a-vista-e-derivativos/renda-variavel/empresas-listadas.htm

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

30

Page 31: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Carlos M. G. Barbosa et al.

na empresa. As participações preferenciais foram desconsideradas devido ao fato de que na maioriadas corporações ações dessa classe não influenciam diretamente nas decisões da mesma.

Os pesos utilizados para quantificar as relações entre as empresas e acionistas foram gerados combase em três termos: a) Total de ações ordinárias emitidas; b) Porcentagem de ações ordináriascontrolada; e c) média da cotação do período coletado. A Equação 5 descreve o peso Wij de umarelação entre os vértices i e j:

Wij =

(P onij

100∗ totalonj

)∗ cotacaoonj , (5)

onde P onij indica a porcentagem de ações ordinárias controladas pelo acionista i na empresa j, totalonj

indica a quantidade máxima de ações ordinárias emitidas e cotacaoonj indica a cotação média das açõesda empresa j no período observado.

3.1 Poder, influência e barganha como medidas de avaliação de vértices

Conforme discutido por Verona et al. [2017], o poder é uma definição que se aplica a cada relação, ouseja, cada relação entre dois elementos i e j pode ser caracterizada pela influência que i exerce sobrej e pela barganha que j tem com i. O poder pode ser observado através da análise da diferença entrea influência e a barganha nessa relação. Por outro lado, o presente trabalho tem sua metodologia deanálise baseada nos vértices, que representam os detentores de ações na bolsa de valores. A análisesobre as relações é feita de maneira indireta, a partir da observação de padrões de comportamentodos elementos. Por isso, as medidas de poder, influência e barganha foram adaptadas de forma quepossam ser aplicadas sobre os vértices.

No contexto do presente trabalho, as medidas de influência e barganha de uma relação entre umacionista i e uma empresa j podem ser interpretadas, respectivamente, como a influência de umacionista sobre a empresa e a barganha da empresa sobre um acionista. Na análise da rede da bolsade valores, a medida de influência de cada vértice foi tratada como a influência que um vértice possuiem todas as suas relações. Assim, pode ser interpretada como a influência que um elemento possui nabolsa de valores como um todo. De maneira análoga, a barganha de um indivíduo específico foi tratadacomo a média das barganha que outros indivíduos têm com ele. Para uma empresa, pode, então, serinterpretada como a barganha dos conselhos em relação à empresa. O poder continua sendo calculadocomo a diferença entre influência e barganha, mas pode ser interpretado como o desequilíbrio entre ainfluência do acionista e a barganha dos conselhos na rede como um todo.

3.2 Outras medidas para avaliação de vértices

Além das medidas clássicas (grau, PageRank, HITS e betweenness) e das medidas de poder, influência ebarganha, foram consideradas neste trabalho outras medidas, mais específicas ao contexto investigado:valor de ativos e extensão.

O valor de ativo quantifica a importância de um vértice com base no valor de mercado dos papéis declasse ordinária negociados para essa empresa. O valor de mercado de um vértice é, então, calculadoatravés da multiplicação da cotação média pelo total de ações controlada pelo acionista.

A extensão tem como objetivo avaliar a capilaridade das relação das organizações presentes nabolsa de valores e reflete o tamanho do fecho de um vértice, ou seja, o número de vértices atingidosdireta ou indiretamente por ele. A aplicação desta medida foi motivada pelo desejo de investigar onúmero de vértices potencialmente atingidos por uma possível decisão ou transferência de recursosem uma empresa, representada como um nó da rede. Pode ser também utilizada para identificar aprofundidade das relações de uma empresa dentro da bolsa, ou seja, o quão profundo são as suas raízesfinanceiras dentro do mercado de ações.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

31

Page 32: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Investigação da relação entre empresas na Bolsa de Valores do Brasil · 5

4. EXPERIMENTOS E DISCUSSÃO

Esta seção apresenta uma série de experimentos realizados com o objetivo de analisar a relação dasempresas que operam na B3 através de uma rede construída a partir da metodologia apresentada naSeção 3 e discussões a partir dos resultados obtidos. Após uma descrição das características geraisda rede construída, as medidas de importância são comparadas através de uma análise de correlação.Em seguida, realiza-se um estudo da estrutura de comunidades identificada para os nós da rede.Considerando diferentes medidas de centralidade, são gerados ranks, utilizados como base para aanálise da robustez da rede e para um estudo sobre a propagação de influência, utilizando um modelode difusão.

4.1 Descrição geral da rede

A rede construída para modelar as relações acionárias na B3 é direcionada e com peso. Tomando comobase a rede completa, é possível observar, como número de vértices e de arestas, respectivamente,n = 2438 e m = 2347. A rede possui 186 componentes conectadas e, com o objetivo de tornar aanálise e as conclusões obtidas mais significativas, considera-se, no restante do trabalho, apenas acomponente gigante, ou seja, a componente com o maior número de vértices.

A componente gigante, tratada no restante do trabalho como a rede B3, possui n = 1142 vérticese m = 1239 arestas, com grau médio k = 1.08. Assim, uma característica bastante marcante da redeB3 é a sua alta esparsidade e a ausência de ciclos, fazendo que a rede possa ser enxergada como umaárvore, caso as direções das arestas sejam ignoradas. A ausência de ciclos indica ausência de referênciaacionária cruzada, ou seja, não existe uma situação na qual uma Empresa i é acionista da Empresa je a Empresa j é acionista da Empresa i. Uma possível explicação para esse efeito é o fato de que essescruzamentos são, na prática, realizados por meio da utilização de empresas subsidiarias que possuemnomes e composição acionária diferentes.

Realizando uma análise mais detalhada nos graus dos vértices, descobre-se que a rede B3 possuicomo grau máximo de entrada kinmax = 51 e como grau máximo de saída koutmax = 34.

4.2 Análise da estrutura de comunidades da rede B3

Para analisar a estrutura de comunidades da rede B3, as arestas direcionadas foram transformadas emarestas não-direcionadas, apenas eliminando sua direções. A estrutura de comunidades foi identificadapelo método espectral de Newman and Girvan [2004], mais especificamente, utilizando a metodologiadesenvolvida por Vieira et al. [Vieira et al. 2014]. Foram identificadas 34 comunidades, que seorganizam de maneira bastante modular, com a modularidade Q = 0.8556. A Figura 1 apresenta umarepresentação gráfica das comunidades encontradas.

Nota-se que há um padrão bastante claro na organização das comunidades, com alguns nós maiscentrais e outros mais periféricos, que se relacionam com os nós centrais. Com o objetivo de permitiruma análise mais aprofundada da estrutura de comunidades na rede B3, a Figura 2 apresenta recortesmais aproximados de duas comunidades arbitrárias isoladas, com anotações dos nomes das empresase detentores de ações.

Na comunidade representada pela Figura 2(a), o BNDES pode ser identificado como um importanteelemento, servindo como centro. Outras empresas, como Petrobras, JBS e a própria União Federalorbitam em torno do BNDES e são subcentros de suas respectivas periferias. Na comunidade repre-sentada pela Figura 2(b), observa-se uma bipolarização dos centros, que fica dividida entre ITAUSAe DURATEX, posicionados na mesma comunidade devido a um elevado número de acionistas em co-mum. Destaca-se, também, o vértice que representa a ALPARGATAS e possui uma série de vérticesem torno de si.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

32

Page 33: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Carlos M. G. Barbosa et al.

Fig. 1. Divisão da rede B3 em comunida-des.

(a) Comunidade isolada 1. (b) Comunidade isolada 2.

Fig. 2. Exemplos de comunidades de rede B3.

4.3 Caracterização da importância de vértices na rede

A importância dos vértices na rede B3, que representam empresas e detentores de ações de empresas,foi aferida utilizando cada uma das medidas apresentadas na Seção 3. Alguns dos resultados maisrelevantes obtidos a partir dessa análise são apresentados e discutidos nessa seção.

Considerando a concentração de ativos financeiros, observou-se que as organizações financeirasseguidas do governo federal e empresas estatais são as que mais se destacam. Dentre elas, o BancoItaú Unibanco possui um valor de ativo superior R$ 100 Bi e a União com valor de ativo superior aR$ 140 Bi.

Quando leva-se em conta as relações, a maneira mais direta de avaliar a importância de um vérticeé através de seu grau. Na direção de entrada, destaca-se a CEDRO, do setor têxtil, que tem entre seus51 acionistas, 50 pessoas físicas. A CTC, por outro lado, tem como a maioria dos seus 43 acionistas,empresas ligadas ao agronegócio. Na direção de saída, o topo do rank é dominado por empresas ligadasao mercado financeiro. Um claro destaque é o BNDES que detém ações de 34 empresas, incluindoalgumas de grande relevância, como JBS, Petrobras, Eletrobras e Oi.

Em relação ao PageRank, observa-se que as empresas que mais se destacaram foram empresas doramo financeiro como ITAUSA, ITAUUNIBANCO, MONT ARANHA seguidas de empresas do setorde logística e agroaçucareira. Essas empresas, além de receberem um grande volume de investimentos,recebem investimentos de empresas também importantes. O fato de empresas do ramo financeiro serembem classificadas segundo o PageRank é bastante coerente com a noção intuitiva que o investimentoem empresas desse tipo pode ser estrategicamente fundamental para outras empresas financeiras eempresas de outros ramos, como mineração. O forte investimento recebido por empresas do ramologístico também é bastante razoável, quando observa-se o forte interesse de empresas dos mais variadossetores.

A aplicação do HITS origina duas medidas: hub e authority. Analisando os resultados obtidos,nota-se que as primeiras posições do rank de melhores hubs são basicamente dominadas por empresasdo ramo financeiro, como IUPAR, ITAUSA e Companhia Ligna de Investimentos, o que é bastanterazoável quando considera-se a natureza de atuação das empresas e o mecanismo de funcionamentoda medida. Já as primeiras posições do rank de melhores authorities apresentam empresas comoDuratex, Alpargatas e TOTVS, voltadas para o setor produtivo.

O rank de betweenness apresentou, no topo, empresas do setor financeiro, de energia e de logística.Com a utilização dessa medida, foi possível observar, também, uma grande participação de organi-zações estatais e de capital misto, entre as quais aparecem ELETROBRAS, BNDESPAR e CEMIG.Isso indica que tais empresas podem ser consideradas boas pontes na rede B3.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

33

Page 34: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Investigação da relação entre empresas na Bolsa de Valores do Brasil · 7

Além disso, a observação da capilaridade das empresas, quantificada pela medida de extensão,revelou que bancos de investimentos, organizações financeiras e a própria União são as organizaçõescom maior alcance dentro da bolsa de valores.

Algumas observações podem ser feitas apartir dos ranks de poder, influência e barganha. Primei-ramente, nota-se que a Companhia Paulista de Força e Luz é a que mais se destaca em influência ebarganha. Quando a medida de influência é considerada isoladamente, destacam-se outras empresasrelacionadas a energia, como a Light, e os Estados de MG e ES, evidenciando que medidas tomadaspor estes agentes tem um enorme potencial de causar grande impacto na rede. Por outro lado, o rankde barganha tem, em suas primeiras colocações, empresas de ramos bastante diversificados, como aBIOSEV (agronegócios), IOCHPE-MAXION (equipamentos automotivos), MULTIPLAN (shoppingcenters) e PRUMO (logística). Já as primeiras posições do rank de poder são dominadas pela COSANe COSAN LTD, com atuação diversificada nas áreas de logística, energia, financeira e infraestrutura.

Os ranks gerados são bastante distintos, embora alguns ramos de atuação de empresas sejam recor-rentes nas primeiras posições dos ranks, principalmente financeiro, energia e logística. Com o objetivode comparar as medidas de centralidade na rede B3, a Figura 3 apresenta uma matriz de correlaçãoentre os ranks gerados para as diferentes medidas. Para a construção da matriz, foi considerado ocoeficiente de Spearman, bastante adequado para a comparação de ranks. Os valores em cada posiçãoda matriz indicam o coeficiente de Spearman obtido para cada par de ranks.

Fig. 3. Correlação das medidas de centralidade investigadas. Fig. 4. Análise de influência na rede B3.

De fato, a maior parte dos pares de ranks apresenta correlação bastante fraca. A correlação maisforte observada na Figura 3 ocorre entre as medidas PageRank e Hub (0.73), mas um resultado maisinteressante pode ser observado na comparação entre a medida de barganha e as medidas PageRanke hub (0.55 e 0.59). Essas correlações, mesmo não sendo muito fortes, indicam que um vértice queaponta para vértices importantes tem uma boa barganha nas relações, possivelmente por diversificarsuas atuações, o que é bastante coerente com a noção intuitiva que se pode ter do cenário estudado.

4.4 Análise de influência na rede B3

A centralidade foi utilizada como critério para a seleção de sementes em um modelo de propagaçãode influência, no sentido de um problema de difusão: o Independent Cascade Model (ICM). Assim,cada medida pode ser avaliada pelo seu potencial em espalhar algum elemento, seja uma injeção decapital, valorização em ações ou adoção de medidas estratégicas. A Figura 4 apresenta um resumodos resultados obtidos nesta etapa da análise. O eixo-x representa o número de sementes consideradaspara ativação no ICM. O eixo-y representa o número de nós atingidos em cada execução. Cada linharepresenta o resultado considerando um critério. Como se trata de um algoritmo não-determinístico,o ICM foi executado 100 vezes para cada critério de escolha e cada número de sementes. Também é

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

34

Page 35: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Carlos M. G. Barbosa et al.

importante dizer que o parâmetro que controla a probabilidade de ativação de um nó i em um nó jfoi definido como o peso da aresta (i, j), ou seja, da participação acionária de i em j.

A Figura 4 mostra que, para uma porcentagem de sementes próxima de 10, hub e barganha sãoeficientes em definir boas sementes. Além disso, a medida de influência é bastante eficiente para adefinição de boas sementes, corroborando as observações de Verona et al. [2017] para sua definição.

5. CONCLUSÕES E TRABALHOS FUTUROS

Este trabalho apresenta uma investigação das relações entre empresas e detentores de ações na bolsade valores do Brasil. A análise foi realizada sob o ponto de vista de redes complexas, sendo os elemen-tos (empresas e detentores de ações) representados através de vértices e as participações acionáriasrepresentados através de arestas. As relações ocorridas na rede B3 foram investigadas sob diferentespontos de vista, considerando a comparação direta entre diversos ranks de centralidade, a estruturade comunidades, a robustez e a propagação de influência. Os resultados obtidos mostram que há,nabolsa de valores, uma enorme importância de fundos de investimento, qualquer que seja a perspectivautilizada para a definição dessa importância. Nota-se também que a indicação dos elementos princi-pais na rede B3 é muito sensível à definição que se adota para defini-la. Além disso, percebe-se umaforte estrutura de comunidades na rede B3, com um padrão de formação bastante pronunciado: al-guns poucos elementos centrais e diversos outros elementos orbitando em torno deles. Como trabalhosfuturos, pretende-se investigar mais a fundo a atuação das empresas no mercado, com o objetivo demelhor compreender o impacto de suas decisões na economia do país. Pretende-se, também, relaci-onar a atuação de congressistas brasileiros com a rede B3 a fim de compreender como votações noCongresso Nacional podem influenciar e ser influenciadas pelo mercado de ações.

Agradecimentos

Os autores agradecem às agências FAPEMIG e CNPq pelo auxílio financeiro.

REFERENCES

Brin, S. and Page, L. The anatomy of a large-scale hypertextual web search engine. Comput. Netw. ISDN Syst. 30 (1-7): 107–117, Apr., 1998.

Caporale, G., Howells, G., Soliman, A. M., et al. Stock market development and economic growth: the causallinkage. Journal of economic development 29 (1): 33–50, 2004.

Goldenberg, J., Libai, B., and Muller, E. Talk of the network: A complex systems look at the underlying processof word-of-mouth. Marketing Letters, 2001.

Huang, W.-Q., Zhuang, X.-T., and Yao, S. A network analysis of the chinese stock market. Phys A: StatisticalMechanics and its Applications 388 (14): 2956 – 2964, 2009.

Kleinberg, J. M. Authoritative sources in a hyperlinked environment. In In Proceedings of the ACM-SIAM Sympo-sium on Discrete Algorithms, 1998.

Moore, C. and Newman, M. E. J. Epidemics and percolation in small-world networks. Phys. Rev. E vol. 61, pp.5678–5682, 2000.

Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E:Statistical, nonlinear and soft matter physics 69 (2), Feb., 2004.

Sarlo Neto, A., Teixeira, A. J. C., Loss, L., and Lopes, A. B. O diferencial no impacto dos resultados contábeisnas ações ordinárias e preferenciais no mercado brasileiro. Revista Contabilidade & Finanças 16 (37): 46–58, 2005.

Tabak, B. M., Serra, T. R., and Cajueiro, D. O. Topological properties of stock market networks: The case ofbrazil. Physica A: Statistical Mechanics and its Applications 389 (16): 3240 – 3249, 2010.

Verona, L. V., Oliveira, J. O., and Campos, M. L. Métricas para aná lise de poder em redes sociais e sua aplicaçãonas doaçõ es de campanha para o senado federal brasileiro. In Congresso da Soc. Brasileira de Computação, 2017.

Vieira, V., Xavier, C., Ebecken, N., and Evsukoff, A. Performance evaluation of modularity based communitydetection algorithms in large scale networks. Mathematical Problems in Engineering vol. 2014, pp. 1–15, Dec., 2014.

Xia, L., You, D., Jiang, X., and Guo, Q. Comparison between global financial crisis and local stock disaster ontop of chinese stock network. Physica A: Statistical Mechanics and its Applications vol. 490, pp. 222 – 230, 2018.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

35

Page 36: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Seleção de características utilizando Algoritmo Genéticomultiobjetivo e k -NN para predição de função de proteína

Bruno C. Santos, Cora Silberschneider, Marcos W. Rodrigues, Cristiane N. Nobre, Luis E. Zárate

Pontifícia Universidade Católica de Minas Gerais, [email protected], [email protected], [email protected],

nobre,[email protected]

Abstract. The knowledge of a protein function is essential in many areas, such as bioinformatics, agriculture, andothers. Therefore, it is necessary to provide efficient computational models that aim to find the function of a protein.Currently, there is a wealth of available information about protein, such as data from primary, secondary, tertiary andquaternary structures. One of the repositories that provide this information is the Sting DB, which has physicochemicalinformation of the proteins, used by several authors. Our work proposes a methodology using the multiobjective geneticalgorithm with non-parametric method k-NN during its genetic evolution, aiming to search the best subset of physical-chemical characteristics for the identification of protein classes. After that, we added new variables and applied PCA tothe identified subset, to improve the classification process. In this step, we use the SVM due to its better performancewith high dimensionalities data. The proposed methodology demonstrated accuracy values of 72.9% and an f-measureof 68.3%; also we gained about 90% efficiency in processing our approach compared to the previous model, allowing toadd new attributes in an attempt to improve the prediction of protein function for future works.

Categories and Subject Descriptors: H.2.8 [Database Applications]: Data Mining; I.2.6 [Artificial Intelligence]:Learning; J.3 [Life and Medical Sciences]: Biology and genetics

Keywords: Feature Selection, k-Nearest Neighbor, Multi-Objective Genetic Algorithm, Protein Prediction

1. INTRODUÇÃO

As proteínas são macromoléculas que existem abundantemente de formas variadas nas células. Sãoformadas por cadeias polipeptídicas da combinação de aminoácidos e desempenham um papel funda-mental no corpo humano, tendo funções construtoras e reparadoras do organismo, além de participarda formação dos hormônios, enzimas e anticorpos. Devido a esta importância, o conhecimento de suafunção é fundamental para compreender os processos biológicos dos seres vivos.

Com o avanço das técnicas de sequenciamento genômico, o número de sequências de proteínasdisponíveis para análise tem aumentado de forma significativa. No trabalho de Nadzirin and Firdaus-Raih [2012], os autores constataram que das proteínas que são descobertas, conhecemos a função deapenas 5% destas, cenário que persiste atualmente. Assim, é necessário o desenvolvimento de métodoscomputacionais para automatização e facilitação do processo de identificação da função proteica. At-ualmente, existe uma quantidade considerável de métodos experimentais e computacionais para preveras funções de proteínas. No entanto, abordagens computacionais ainda não são capazes de predizercom precisão a função de uma extensa variedade de proteínas. Desse modo, o problema de prediçãode função da proteína permanece como um desafio para a biologia molecular e a bioinformática.

Uma proteína pode ser dividida em quatro níveis de acordo com sua estrutura, que são: 1) es-trutura primária, composta por resíduos de aminoácidos unidos por ligações peptídicas; 2) estrutura

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

36

Page 37: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Santos and Silberschneider and Rodrigues and Nobre and Zárate

secundária que corresponde ao arranjo espacial de resíduos adjacentes em um segmento da cadeiapolipeptídica; 3) estrutura terciária que ocorre quando resíduos distantes na cadeia polipeptídica seligam após o enovelamento da proteína; e 4) estrutura quaternária a qual corresponde ao arranjoformado quando as proteínas possuem duas ou mais cadeias de aminoácidos [Lehninger et al. 2004].Uma proteína também pode ser dividida de acordo com a função que desempenha, as funções são:regulatórias, transportadoras, contráteis e móveis, estruturais, protetoras e catalisadoras. Neste tra-balho, optamos por utilizar as catalisadoras, a fim de comparar com outros trabalhos que tambémutilizaram esse mesmo tipo de proteínas. Essas desempenham tarefas de acelerar os processos biológi-cos e facilitar as reações químicas. As enzimas são um exemplo desta classe, correspondendo à maiorclasse de proteína, sendo conhecidas mais de 2000 tipos.

Este trabalho utiliza um conjunto de enzimas classificadas de forma hierárquica, em seis diferentesclasses, de acordo com a reação química que catalisam. Essas enzimas recebem um identificadornumérico chamado E.C (Enzyme Commission) criado pela IUBMB (International Union of Biochem-istry and Molecular Biology). O número E.C é composto por quatro níveis (1.2.3.4), sendo que oprimeiro nível (1) informa qual das seis classes a enzima pertence: Oxidorredutases (E.C 1), Trans-ferases (E.C 2), Hidrolases (E.C 3), Liases (E.C 4), Isomerases (E.C 5) e Ligases (E.C 6).

Inspirados nestes problemas da predição de função de proteína, apresentamos uma metodologiapara seleção de características físico-químicas baseado em Algoritmo Genético (AG) multiobjetivoutilizando o classificador k-NN (k-Nearest Neighbor) durante a sua evolução genética e, posteriormente,enriquecendo o modelo com outras características. Por fim, utilizamos o método estatístico PCA(Principal Component Analysis) para a redução de dimensionalidade, em seguida a aplicação doclassificador SVM (Support Vector Machine), e finalmente, a validação dos resultados encontrados.

O restante desse texto está organizado da seguinte forma: a Seção 2 traz os principais trabalhosrelacionados à predição de proteínas. A Seção 3 descreve a metodologia, trazendo a descrição da basede dados, as etapas de pré-processamento e os métodos utilizados. A Seção 4 apresenta os resultadose discussões e, finalmente, a Seção 5 discute as conclusões finais do trabalho.

2. TRABALHOS RELACIONADOS

Em Yao and Ruzzo [2006] foi utilizado um framework, baseado no classificador k-NN, para prediçãoda função de genes em dados heterogêneos. O autor afirma que o desempenho do k-NN está sujeitoao ajuste da métrica de similaridade. Para solucionar isso, o autor aplica métodos de regressão a fimde auxiliar na localização dos vizinhos mais prováveis de pertencerem à classe alvo. Além disso, oautor aplica o classificador SVM para integrar o dado heterogêneo, e afirma que ele possui melhordesempenho para encontrar genes que estão próximos dos limites de suas classes. Em comparação àSVM, o classificador k-NN possui vantagens de ter implementação mais simples, é computacionalmenteeficiente, e produz informações adicionais que ajudam na interpretabilidade dos resultados.

Em Leijoto et al. [2014], os autores utilizaram um algoritmo genético mono objetivo para sele-cionar 11 características físico-químicas da base STING DB. Os valores de cada uma das variáveis(características físico-químicas) foram normalizados e aplicou-se a Transformada Discreta do Cosseno(TDC), considerando os 75 primeiros coeficientes. Para validar a abordagem, os autores utilizaramo classificador SVM com Grid search para ajustar os parâmetros Cost e γ do classificador. Foramrealizados experimentos adicionando a frequência de cada aminoácido aos valores dos coeficientes daTDC, aumentando a sensibilidade e a precisão média do classificador para 68% e 71%, respectiva-mente. Como apontado pelos autores, o algoritmo genético teve limitação de processamento de 50gerações e 10 indivíduos, devido à demanda do alto custo de processamento computacional.

Em Santos [2016], é feita uma avaliação das diferentes informações das quatro estruturas da pro-teína (primária, secundária, terciária e quaternária), os quais foram obtidas as seguintes informações:físico-químicas, potencial eletrostático, hidrofobicidade, frequência de aminoácidos, distâncias entre

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

37

Page 38: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 3

carbonos α e peso molecular. Os valores das variáveis foram normalizados e a TDC considerou os 10primeiros valores baseados em vários experimentos. Para a validação, o autor utilizou o classificadorSVM com a abordagem Grid search ajustando os parâmetros Cost e γ. A metodologia proposta obtevevalores médios de precisão de 78, 4% e sensibilidade de 74, 3%. O autor comparou diferentes modelosbaseados em SVM e conclui que todas as informações são relevantes para melhorar o desempenhodo classificador. No entanto, o modelo considerou somente 10 de 344 características físico-químicasapontadas inicialmente por Mancini et al. [2004].

Em Santos et al. [2018] foi proposta uma metodologia utilizando algoritmo genético multiobjetivopara encontrar o subconjunto de características da base STING DB que melhor identifica as classesde enzimas. Após a seleção de atributos, realizou-se o enriquecimento da base com novas variáveis,de modo a construir um modelo baseado no classificador SVM. A metodologia proposta usando o AGobteve precisão de 77, 3% e F-Measure de 72, 7%. Porém, toda a execução do AG utilizou o classificadorSVM, o qual requer ajustes de parâmetros, tornando o seu processo oneroso computacionalmente. Comisso, os autores optaram por não realizar os ajustes de parâmetros durante a evolução do AG.

Neste trabalho, propomos uma metodologia utilizando o AG multiobjetivo para encontrar o sub-conjunto de características com o classificador k-NN, a fim de contornar o problema de ajustes deparâmetros do trabalho de Santos et al. [2018], e que melhor contribua para identificação das classesde enzimas estudadas. Após a seleção de atributos, adicionamos o enriquecimento com novas variáveis.

3. METODOLOGIA

Esta seção descreve a metodologia utilizada nesse trabalho. As etapas para a construção do modelode predição de função de proteína baseado no classificador k-NN podem ser vistas na Figura 1.

Fig. 1. Metodologia adotada.

3.1 Base de Dados

O conjunto de dados é formado pela base STING DB [Mancini et al. 2004], o qual permite extrair asprincipais características das seis enzimas investigadas neste trabalho, são elas: Hidrolase, Isomerase,Liase, Ligase, Oxidorredutase e Transferase. Tais enzimas foram usadas nos trabalhos de [Dobson andDoig 2004], [Borro et al. 2006], [Leijoto et al. 2014], [Santos 2016] e [Santos et al. 2018].

A base STING DB é um repositório desenvolvido pelo laboratório de Biologia Computacional daEmbrapa Informática, o qual possui um conjunto de softwares e dados para visualizar e analisar aestrutura de macromoléculas. A base de dados possui um total de 490 cadeias de proteínas, distribuídasnas seis classes estudadas. Cada cadeia de proteína possui um total de 334 características provenientesdo módulo Java Protein Dossier [Neshich et al. 2004]. Este módulo contém informações relativas àspropriedades físico-químicas da proteína. Na Tabela I é possível observar o número de enzimas e

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

38

Page 39: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Santos and Silberschneider and Rodrigues and Nobre and Zárate

cadeias de proteínas utilizadas em nossa abordagem. Podemos observar que o número de proteínas édiferente do número de cadeias, pois uma mesma proteína pode ter duas ou mais cadeias polipeptídicas.

Tabela I. Classe e número de enzimasProteínas usadas por Dobson and Doig Proteínas após processo de limpeza

Classe Proteína Cadeia Proteína CadeiaHidrolase 160 312 122 162Isomerase 51 89 35 56

Liase 60 131 43 61Ligase 20 22 15 16

Oxidorredutase 79 124 52 78Transferase 128 162 82 117

Total 498 840 349 490

No trabalho de Santos [2016], os autores utilizaram essa mesma base de dados, o qual passou porum processo de limpeza, onde as enzimas com uma pontuação (score1) inferior a 0,3 foram eliminadas.As enzimas foram comparadas com as informações contidas no PDB (Protein Data Bank2) [Bermanet al. 2000], o que permitiu observar que algumas destas enzimas foram classificadas em uma novaclasse e, portanto, foram reorganizadas. Enzimas identificadas como obsoletas3 no PDB não foramincluídas neste estudo. Isto resultou em uma redução no número de enzimas utilizadas nesta pesquisa,como é exibido nas últimas colunas da Tabela I.

3.2 Pré Processamento

Com o objetivo de aprimorar a qualidade das informações disponíveis, foi realizado o pré processa-mento dos dados, conforme a Figura 2. Inicialmente, foi realizada uma análise das característicasselecionadas, constatando-se a existência de dados redundantes, os quais foram removidos, restandoum total de 291 características. Uma análise preliminar mostrou o alto custo computacional ao pro-cessar o conjunto de dados com 291 características, resultando em

∑291i=1 C

291i = 291!

i!(291−i)! combinaçõespossíveis. Para reduzir a alta dimensionalidade do conjunto de dados, foi utilizada a técnica decorrelação de Pearson. Com isso, notamos um grande número de características fortemente correla-cionadas, e assim, optamos por eliminar as características que apresentaram correlação acima de 0.90,totalizando 69 características.

Fig. 2. Pré processamento dos dados

3.3 Transformada Discreta de Cosseno

Para que o uso de um classificador seja possível, o tamanho dos vetores de entrada deve ser o mesmo.No entanto, devido à diferença da quantidade de aminoácidos de cada cadeia de proteína, os vetoresde entrada possuem tamanhos diferentes. Para contornar este problema, foi utilizada a técnica daTransformada Discreta do Cosseno (TDC) [Ahmed et al. 1974], o qual foi aplicada nas características

1https://scop.berkeley.edu/astral/spaci/ver=2.042http://www.rcsb.org/pdb/home/home.do3Quando existe mudança nas coordenadas ou composição química de alguma proteína do PDB, esta é marcada comoobsoleta e substituída por uma nova entrada e um novo identificador.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

39

Page 40: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 5

físico-químicas de todos os aminoácidos presentes na cadeia de aminoácidos que compõem a proteína.Foi escolhida a TDC por ela ser uma transformação que preserva nos valores iniciais dos coeficientesmais significativos, e nos restantes os valores que carregam pouca informação (Equação 1).

Tk = αk

N−1∑Xn cos

N

(n+

1

2

)k

], n > 0 (1)

onde αk = 1√N∀k = 0 ou αk =

√2N ∀k = 1...N , e N é número de aminoácidos de cada cadeia Aij .

Com base em testes experimentais, foram definidos os k = 10 primeiros coeficientes da TDC porserem mais relevantes. Esse valor trouxe a melhor média para as medidas de precisão e sensibilidade,apontados em Santos [2016]. Com a aplicação da TDC todas as características físico-químicas dascadeias de proteínas possuem a mesma quantidade de registros de entrada, o que correspondente àTk = 10 coeficientes. Logo, temos um conjunto final de dados com 490 cadeias de proteínas, ondecada uma delas possui um total de 69 atributos, representados cada um deles por 10 registros.

3.4 Algoritmo Genético Multiobjetivo

Após o processo de transformada dos dados, aplicamos o AG multiobjetivo NSGA-II (Non-dominatedSorting Genetic Algorithm II ) a fim de buscar o melhor subconjunto de características com o menorpercentual de erro do classificador, e usando o menor número de atributos para reduzir a complexidadedo modelo. A sua escolha foi motivada por envolver diversos objetivos. A implementação foi nalinguagem Python utilizando a biblioteca DEAP, disponível pela Université Laval [Fortin et al. 2012].

3.4.1 Representação do indivíduo. O indivíduo do AG representa uma possível solução para oproblema a ser resolvido. Assim, cada indivíduo é representado por um vetor que possui 69 posiçõesbinárias, em que cada posição pode assumir valores entre 0 ou 1, indicando a presença ou ausênciadaquela determinada característica. Cada posição desse vetor representa uma característica extraídado STING DB, e para cada característica têm-se 10 coeficientes obtidos pela TDC.

3.4.2 Função objetivo. Dois aspectos foram considerados no processo de predição de função deproteína: 1) o modelo deve ter um percentual de erro baixo, de modo a aumentar a sua confiabilidadee, 2) o modelo deve ter um subconjunto pequeno de atributos para uma simplificação do modelogerado. É importante notar que durante o processo de avaliação da função fitness, o critério dedesempate de dois indivíduos foram: a) ter precisão mais alta, e b) o menor número de características.Para o cálculo da precisão utilizamos a técnica Cross-Validation com 10 partições. Estes critérios sãodetalhados a seguir:

—Menor percentual de erro médio de precisão do classificador k-NN, onde Precisão = V PV P+FP ,

conforme Equação 2.

ePrec = 1−

m∑i=1

n∑j=1

Precisaoij

mn(2)

sendo m = 6 o número de classes de enzimas, e n = 10 o número de partições no cross-validation;—Menor subconjunto de atributos dentre os 69 candidatos que melhor separa as classes de proteínas.

3.4.3 Definição do tamanho da população. De acordo com o trabalho de Santos et al. [2018], osmelhores parâmetros encontrados durante a execução do AG multiobjetivo foram: População = 500,Gerações = 200, Cruzamento = 0, 70% e Mutação = 0, 01%.

Com base nestes dados, realizamos vários experimentos para encontrar o subconjunto de caracterís-ticas. Estes foram realizados com 5 sementes diferentes para cada parâmetro escolhido do AG, a fim

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

40

Page 41: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Santos and Silberschneider and Rodrigues and Nobre and Zárate

de garantir a confiabilidade dos resultados encontrados. Foram realizados 30 experimentos no total,de acordo com os intervalos de parâmetros estipulados e o número de sementes aleatórias, que sãoapresentados na Tabela II.

Tabela II. Parâmetros dos experimentosInicialização da população : Aleatória Tamanho da população : 500Representação : Binária Número de gerações : 200, 300Cruzamento : Dois pontos Seleção Cruzamento : Torneio = 2Cruzamento (Pc) : 70%, 80%, 90% Nova Geração : Não dominadosMutação : Um ponto Critério de parada : Número de geraçõesMutação (Pm) : 1%

3.5 Características Selecionadas

Após a execução dos experimentos, o AG encontrou um total de 26 características físico-químicas dabase STING DB. Estas características podem ser vistas na Tabela III. A descrição detalhada destascaracterísticas pode ser encontrada em Moraes et al. [2014].

Tabela III. Características selecionadas pelo AG3DEntropyINT(6) 3DEntropyINT(9) 3DEntropyLHAsw(3,3)

ACCC() Chi(0) DensityCA(3)DistanceC() DistanceN() EnergyDensityIFR(1)

EnergyDensityLHAsw(3,3) EPsurface() IFRSpongeCA(5)InterfaceContactsEnergy(true,true) InterfaceContactsEnergy(false,true) InternalContactsEnergy(true,true)

NumberOfHBondPLC() NumberofIFRContacts(2) NumberofIFRContacts(3)NumberofIFRContacts(9) NumberofIFRContacts(11) NumberofIFRContacts(13)NumberofINTContacts(2) NumberofINTContacts(3) NumberofINTContacts(10)NumberofINTContacts(12) NumberofINTContacts(13)

3.6 Enriquecimento e Aplicação do PCA e SVM

Os trabalhos de Santos [2016] e Santos et al. [2018] demonstraram que apenas as características físico-químicas da base STING DB não são suficientes para separar as 6 classes de enzimas. Portanto,utilizamos informações biológicas adicionais, visando melhorar os resultados. Estes atributos foramadicionados ao final da execução do AG, conforme descrito a seguir:

(1) Frequência de aminoácidos: para cada uma das cadeias consideradas, contabilizou-se a frequênciacom que cada um dos 20 aminoácidos aparece (20 características);

(2) Frequência do carbono alpha: padrão de distribuição da distância Euclidiana entre os carbonos αdos resíduos ao longo da cadeia (151 características) [Pires et al. 2011];

(3) Extração de dados estatísticos da estrutura primária: informações estatísticas sobre as sequênciasdos aminoácidos (31 características).

Com isso, obtivemos um total de 202 atributos adicionais para auxiliar na separação das seis classesde enzimas. Entretanto, observa-se que as características encontradas pelo AG, associadas às infor-mações adicionais, possuem uma alta dimensionalidade: 462 atributos4. Com base nisto, aplicamosa Análise de Componentes Principais (PCA) para a reduzir o tamanho das entradas para o classifi-cador, o que resultou em 117 componentes principais. Em seguida, aplicamos o classificador SVM. Valeressaltar que, em testes preliminares, notou-se que o classificador k-NN, sobre o conjunto final, obteve

4Como o AG encontrou 26 características e cada uma das características é representada por 10 valores, temos: 26∗10 =

260. Acrescentando os atributos do enriquecimento, têm-se 260 + 202 = 462 atributos.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

41

Page 42: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 7

uma baixa precisão. No entanto, o uso do k-NN durante o processamento do AG é recomendáveldevido ao seu desempenho computacional ser superior ao do SVM.

4. RESULTADOS

De acordo com o conjunto de características encontrados pelo AG com adição do enriquecimentoda base, foi possível fixar os parâmetros Cost = 4.0 e γ = 0.001953125 fornecidos pelo algoritmoGrid search na execução da SVM, considerando as métricas de avaliação Precisão, Sensibilidade eF-Measure simples, como pode ser visto na Figura 3.

Fig. 3. Gráficos de Precisão, Sensibilidade e F-Measure

É possível observar uma variação de 4.4, 3.8 e 4.4 pontos percentuais menor nas médias de Precisão,Sensibilidade e F-Measure em relação ao trabalho de Santos et al. [2018]. No entanto, a redução nestasmédias é devido ao fato de que o classificador k-NN não foi capaz de ajustar adequadamente o modelo,que manuseia uma base de dados de alta dimensão. Apesar disso, o tempo computacional utilizandok-NN diminuiu consideravelmente em relação ao uso do SVM. Com isso, houve um ganho e eficiênciacomputacional no nosso modelo.

O uso do k-NN para seleção das melhores características, trouxe um benefício significante em relaçãoao tempo de execução dos testes. No trabalho de Santos et al. [2018] a otimização dos parâmetros doSVM demandaria um tempo computacional adicional de 30min, em média, para cada indivíduo, jácom nossa abordagem não é necessário o ajuste de parâmetros. Com isso, cada geração do algoritmogenético demanda em média cerca de 1min5, o que diminuiu em aproximadamente 90% o tempo deexecução do modelo de predição em relação ao proposto por Santos et al. [2018].

5. CONCLUSÃO

Esse trabalho apresentou uma metodologia para a predição da função de proteína baseado no trabalhode Santos et al. [2018]. O modelo proposto utiliza o classificador supervisionado k-NN associado aoAG, a fim de selecionar os melhores atributos para a predição de função de proteínas. O objetivoprincipal foi obter melhores resultados, ou muito próximos dos resultados encontrados em Santos et al.[2018], porém, com um ganho significativo no tempo de processamento do modelo.

5Tempo gasto com uma População de 500 indivíduos. (Ex. P = 500, G = 200 x 1min = 200 min aproximadamente)

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

42

Page 43: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Santos and Silberschneider and Rodrigues and Nobre and Zárate

Apesar dos valores das médias serem parcialmente inferiores aos do trabalho anterior, é importanteressaltar o ganho acima de 90% na eficiência de processamento do modelo de predição com o uso doclassificador k-NN. Este ganho é altamente significativo, uma vez que torna possível o enriquecimentoda base pela adição de novas e/ou melhores características, a fim de melhorar a precisão da prediçãode proteínas.

Para trabalhos futuros, sugere-se realizar a seleção de características adicionando também dados doenriquecimento durante o processo evolucionário e a sua análise com métricas diferentes. Além disso,investigar os processos capazes de enriquecer a base de dados a fim de obter resultados mais precisos.

AGRADECIMENTOS

Os autores agradecem o apoio financeiro da Coordenação de Aperfeiçoamento de Pessoal de NívelSuperior (CAPES), da Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG) e doConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) do Brasil.

REFERENCES

Ahmed, N., Natarajan, T., and Rao, K. R. Discrete cosine transform. Computers, IEEE Transactions on vol.C-23, pp. 90–93, 1974.

Berman, H. M., Westbrook, J., Feng, Z., Gililand, G., Bhat, T. N., Weissig, H., Shindyalov, I. N., andBourne, P. E. The protein data bank. Nucleic Acids Research vol. 28, pp. 235–242, 2000.

Borro, L. C., de Medeiros Oliveira, S. R., yamagishi, M. E. B., Mancini, A. L., Jardine, J. G., Mazoni,I., do Santos, E. H., Higa, R. H., Falcão, P. R. K., and Neshich, G. Predictiong enzyme class from proteinstructure using bayesian classification. Genetic and Molecular Research vol. 1, pp. 193–202, 2006.

Dobson, P. D. and Doig, A. J. Predicting enzyme class from protein structure without alignments. MolecularBiology vol. 345, pp. 187–199, 2004.

Fortin, F.-A., De Rainville, F.-M., Gardner, M.-A. G., Parizeau, M., and Gagné, C. Deap: Evolutionaryalgorithms made easy. J. Mach. Learn. Res. 13 (1): 2171–2175, July, 2012.

Lehninger, A., Nelson, D. L., and Cox, M. M. Lehninger Principles of Biochemistry. W. H. Freeman, 2004.Leijoto, L., Assis De Oliveira Rodrigues, T., Zarate, L., and Nobre, C. A genetic algorithm for the selection

of features used in the prediction of protein function. In Bioinformatics and Bioengineering (BIBE), 2014 IEEEInternational Conference on. pp. 168–174, 2014.

Mancini, A. L., Higa, R. H., Oliveira, A., Dominiquini, F., Kuser, P. R., Yamagishi, M. E. B., Togawa,R. C., and Neshich, G. Sting contacts: a web-based application for identification and analysis of amino acidcontacts within protein structure and across protein interfaces. Bioinformatics vol. 20, pp. 2145–2147, 2004.

Moraes, F. R., Neshich, I. A. P., Mazoni, I., Yano, I. H., Pereira, J. G. C., Salim, J. A., Jardine, J. G.,and Neshich, G. Improving predictions of protein-protein interfaces by combining amino acid-specific classifiersbased on structural and physicochemical descriptors with their weighted neighbor averages. Plos One 9 (1): 1–15,2014.

Nadzirin, N. and Firdaus-Raih, M. Proteins of unknown function in the protein data bank (pdb): An inventoryof true uncharacterized proteins and computational tools for their analysis. International Journal of MolecularSciences 13 (10): 12761–12772, 2012.

Neshich, G., Rocchia, W., Mancini, A. L., Yamagishi, M. E. B., Kuser, P. R., Fileto, R., Baudet, C.,Pinto, I. P., Montagner, A. J., Palandrani, J. F., Krauchenco, J. N., Torres, R. C., Souza, S., Togawa,R. C., and Higa, R. H. Javaprotein dossier: a novel web-based data visualization tool for comprehensive analysisof protein structure. Nucleic Acids Research vol. 32, pp. W595–W601, 2004.

Pires, D. E., de Melo-Minardi, R. C., dos Santos, M. A., da Silveira, C. H., Santoro, M. M., and Meira,W. Cutoff scanning matrix (csm): structural classification and function prediction by protein inter-residue distancepatterns. BMC Genomics 12 (4): S12, 2011.

Santos, B. C., Nobre, C. N., and Zarate, L. E. Multi-objective genetic algorithm for feature selection in a proteinfunction prediction context. In IEEE Congress on Evolutionary Computation (CEC), 2018. (in press).

Santos, G. T. d. O. Avaliação de características para predição de classes de enzimas com Support Vector Machine.M.S. thesis, Pontifícia Universidade Católica de Minas Gerais, 2016.

Yao, Z. and Ruzzo, W. L. A regression-based k nearest neighbor algorithm for gene function prediction fromheterogeneous data. BMC Bioinformatics 7 (1): S11, Mar, 2006.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

43

Page 44: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Classificando perfis de longevidade de bases de dadoslongitudinais usando Floresta Aleatória

G. A. Riqueti1, C. E. Ribeiro2, L. E. Zárate1

1 Pontifícia Universidade Católica de Minas Gerais, [email protected],[email protected]

2 University of Kent, United [email protected]

Abstract. Estudos populacionais sobre envelhecimento humano frequentemente geram bases de dados longitudinais dealta dimensionalidade. O processo de descoberta de conhecimento precisa ser adaptado para lidar com as característicasespeciais dessas bases de dados, para se beneficiar do seu aspecto temporal. Neste trabalho, apresentamos os resultadosde um processo de descoberta de conhecimento em bases de dados aplicado nos dados do English Longitudinal Studyof Ageing (ELSA), um proeminente estudo britânico que acompanha milhares de indivíduos por um longo período detempo, coletando informações de diferentes dimensões, como saúde, socioeconômica, e bem-estar. O objetivo do nossoestudo é classificar os participantes do estudo ELSA, de acordo com o perfil apresentado por eles, como longevos, quesão indivíduos com idade acima de 82,9 anos, ou não-longevos. Para isso, foi utilizada uma abordagem de agrupamentosemi-supervisionado para encontrar grupos de representantes dos perfis, e usamos esses grupos como base de dadospara a execução de um algoritmo de aprendizado supervisionado. O modelo de classificação teve bons resultados, einterpretando este modelo foi constatado que aspectos de diferentes dimensões influenciam na diferenciação entre osperfis.

Categories and Subject Descriptors: H.2.8 [Database Applications]: Data Mining; H.2.m [Miscellaneous]:

Keywords: data mining, knowledge discovery, random forests, supervised machine learning

1. INTRODUÇÃO

O envelhecimento humano é um tema complexo, com vários fatores genéticos e ambientais desempe-nhando um papel no envelhecimento biológico e nas mudanças que ocorrem na vida das pessoas, àmedida que elas envelhecem. Recentemente, a demanda por conhecimento acerca do envelhecimentotem aumentado, devido ao aumento da população idosa no mundo. Com uma maior proporção deidosos na sociedade, aumenta o interesse na construção de políticas públicas, descoberta de hábitossaudáveis, e em programas sociais para aumentar o bem-estar dessa parcela da população [Malloy-Diniz et al. 2013]. Uma das iniciativas para se descobrir conhecimento acerca do envelhecimentohumano são estudos populacionais longitudinais. Estudos longitudinais acompanham um conjuntofixo de pessoas que compartilham determinada característica, como idade e localização, ao longo devários anos. São coletados valores de uma série de informações relacionadas a um domínio, repetida-mente, em períodos fixos de tempo denominados ondas. As bases de dados geradas por estes estudossão bases de dados longitudinais, nas quais os atributos possuem um índice de tempo adicional, refe-rente à onda na qual a coleta foi feita.

O objetivo deste trabalho é relatar a aplicação de um processo de descoberta de conhecimentoà base de dados de um estudo populacional, o English Longitudinal Study of Ageing (ELSA), como uso de técnicas de aprendizado de máquina, para descrever os perfis dos indivíduos longevos e

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

44

Page 45: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 ·não-longevos. Depois do pré-processamento dos dados oriundos do estudo para gerar uma base dedados composta dos exemplos de participantes longevos e não-longevos do ELSA, foram aplicadosalgoritmos de agrupamento para separar os melhores representantes destes perfis, e gerar uma base dedados para treinar e testar um modelo de Floresta Aleatória. Os resultados de classificação obtidosforam satisfatórios e, foram interpretados por meio de regras de associação extraídas da construçãoda Floresta Aleatória para descrever os perfis de indivíduos longevos e não-longevos.

2. REFERENCIAL TEÓRICO

2.1 Florestas Aleatórias

Florestas de decisão são conjuntos de Árvores de Decisão (ADs) criadas a partir de uma base de dados.O principal desafio ao gerar uma floresta de decisão é como obter uma boa variabilidade nas árvoresque a compõem, levando a um maior poder de generalização (classificar instâncias desconhecidas) parao modelo. Um dos métodos de se gerar uma floresta de decisão é o algoritmo de Florestas Aleatórias(FA), introduzido por [Breiman 2001]. Em FAs, a variabilidade é obtida de duas maneiras: a) cada ADna floresta é treinada com um subconjunto das instâncias da base de dados, amostrado aleatoriamentecom repetição; e b) em cada nó interno das ADs, um subconjunto dos atributos da base de dados éamostrado, para que a função de divisão avalie apenas aqueles atributos. Um algoritmo de FA possuidois parâmetros principais: ntree, que corresponde ao número de ADs que compõem a FA, e mtry,que corresponde à quantidade de atributos amostrados em cada nó interno das árvores.

Por acrescentar essa variabilidade controlada em suas ADs, as FAs são capazes de atingir boageneralização sem a necessidade do uso de métodos de poda (reduções nas ADs feitas para introduzirum poder de generalização artificialmente, geralmente com alto custo computacional), o que torna oalgoritmo mais eficiente. A classificação de uma nova instância por uma FA se dá por um sistemade votação envolvendo cada AD que compõe a floresta, onde a classe escolhida por mais árvores éassinalada à instância.

Em geral, as FAs atingem boa acurácia preditiva quando comparadas a outros métodos de aprendi-zado de máquina supervisionados. [Fernández-Delgado et al. 2014] realizou experimentos comparando17 famílias de classificadores (179 classificadores no total) em 121 bases de dados, e concluiu que afamília das FAs obteve os melhores resultados de predição.

2.2 Interpretabilidade na Floresta Aleatória

A FA possui resultados satisfatórios quanto à acurácia de predição, no entanto, perde em interpre-tabilidade. Uma boa interpretação do modelo ajuda no entendimento de seu aprendizado, em umamelhor exploração dos dados e na compreensão e apropriação dos resultados [Louppe 2014]. Uma dasopções de interpretação da FA é por meio da lista de variáveis e sua importância, essa importânciaé calculada de acordo com o ganho de informação obtido pela variável em cada nodo da AD que autiliza. No entanto, essa alternativa ainda não oferece clareza quanto ao funcionamento da FA, e umaalternativa para se extrair informações sobre o processo do modelo e melhorar a compreensão sobre osresultados seria a geração de um novo classificador por meio da extração das regras de associação domodelo. As regras de associação buscam encontrar eventos que influenciam na ocorrência de outroseventos e representar essa dependência por meio de padrões descritivos. A extração dessas regras foifeita de acordo com as etapas descritas no artigo [Deng 2014].

Primeiramente, todas as árvores construídas para a execução da FA foram agrupadas em uma listade árvores. Dessa lista de árvores, todas as regras de associação que representam cada caminho entreo nó raiz ao nó folha da árvore foram agrupadas. Todas essas regras foram analisadas de acordo com asua frequência, tamanho e erro. A frequência representa a proporção das instâncias de dados em quea regra aparece. O tamanho da regra é o número de condições dessa. O erro é medido pelo número de

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

45

Page 46: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 3

classificações incorretas feitas pela regra dividido pela quantidade de instâncias satisfeitas pela mesma.Tendo duas regras com mesma frequência e erro, a de menor tamanho é escolhida devido à sua melhorinterpretabilidade. Em seguida, é necessário podar essas regras, o que acontece usando o critério demelhoria da métrica E que, no caso, quanto menor, melhor. Alguns dos modos de calcular o valor Esão o erro de aplicar a regra ao conjunto de treinamento ou teste, ou calcular o erro pessimista. OEi representa a qualidade da regra sem essa fazer parte do conjunto de regras e o E0 a qualidade daregra com essa fazendo parte do conjunto. Os dois valores são usados na equação do decay definidana Equação 1 obtida do artigo [Deng 2014], sendo s = 10−6.

decay = (Ei − E0)/max(E0.s) (1)

Se esse valor obtido pela Equação 1 for menor que 0.05, então a regra é retirada de seu conjunto.O último processo para se realizar a extração das regras de maneira eficiente, é a seleção de regras.Essa seleção ocorre por meio da retirada das regras redundantes e não relevantes. Em seguida, asselecionadas são usadas para se construir um novo classificador baseado na FA. Primeiramente, todasas regras são agrupadas em uma lista chamada S, e todos os dados usados para o treinamento sãoagrupados em D. As regras de S são testadas com a base de dados de D. O critério de seleção édefinido com base no erro mínimo da regra, e depois por sua frequência, caso ocorra empate, peloseu tamanho. A regra escolhida como melhor passa a fazer parte da lista R e as instâncias que asatisfazem são removidas de D. O processo continua até que D esteja vazio.

3. BASE DE DADOS ELSA E PREPARAÇÃO DO CONJUNTO DE DADOS

Com o objetivo de gerar um modelo de predição que classifique as instâncias do ELSA em longevos ounão-longevos, preparamos uma base de dados para treinamento e teste com os melhores representantesdos perfis de cada classe. O processo de geração da base de dados é descrito nesta Seção.

3.1 Descrição da base ELSA

O ELSA é atualmente um dos estudos populacionais de envelhecimento mais proeminentes do mundo[Marmot et al. 2015]. O estudo conta com milhares de respondentes (todos habitantes do ReinoUnido) de 50 anos ou mais, visitados de dois em dois anos (duração de uma onda do estudo) porprofissionais para a coleta de dados. O ELSA teve início em 2002, e sua base de dados principalcompreende variáveis demográficas, econômicas, sociais, de saúde físicas, saúde mental e psicológica,e função cognitiva [Banks et al. 2016].

Neste trabalho, foram consideradas as 6 primeiras ondas do ELSA para a geração da base de dados.Foi gerada uma base de dados com as instâncias referentes aos indivíduos que participaram do estudodurante essas ondas e, ou ultrapassaram a expectativa de vida do Reino Unido (82,9 anos1), oufaleceram antes de atingir essa idade. Essas instâncias foram classificadas como indivíduos longevos enão-longevos, respectivamente.

Note que apenas uma instância foi mantida para cada indivíduo nesta base de dados, para evitarredundância (em uma base de dados longitudinal, há repetidas instâncias referentes a cada indivíduo).Foram mantidos o último registro disponível, para indivíduos da classe não-longevos, e o primeiroregistro disponível, para indivíduos da classe longevos. Isso foi feito para aproximar as médias deidade dos indivíduos das duas classes, com o intuito de reduzir as diferenças entre representantes declasses distintas que são reflexos da diferença de idade. Um exemplo, seria comparar a saúde de idososde 90 anos com a saúde de idosos de 70 anos, essa análise poderia resultar que pessoas não-longevaspossuem uma melhor saúde que longevas, o que é uma conclusão equivocada.

1Fonte: World Bank website, 2014: http://data.worldbank.org/indicator/SP.DYN.LE00.FE.IN?locations=GB

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

46

Page 47: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 ·3.2 Pré-processamento da base de dados

Uma preparação adequada da base de dados reduz a distorção dos dados, auxilia no desempenho dosalgoritmos de mineração de dados, e colabora para resultados mais valiosos e confiáveis dos processos deKDD [Pyle 1999]. É recomendado que as metodologias tradicionais de descoberta de conhecimento embases de dados sejam adaptadas às características especiais dos dados longitudinais [Last et al. 2001].Portanto, foi realizado um processo de preparação de dados na base de dados do ELSA considerandoa informação temporal dos dados, para garantir que o conhecimento representado na base de dadosfosse correto e suficiente, evitando dados ausente.

A base de dados passou então pelas seguintes etapas de pré-processamento (descritas em detalhesem [Ribeiro and Zárate 2017]):

—Filtragem de instâncias e atributos inconsistentes, ou considerados não confiáveis. O atributo idadeé desconsiderado e retirado da base de dados.

—Aplicação da técnica de dados ausentes Last-Observation-Carried-Forward [Minhas et al. 2015].Atributos com dados ausentes foram substituídos por valores do mesmo atributo, para a mesmainstância, em uma onda anterior do estudo, quando disponível.

—Seleção conceitual de atributos, guiada por um estudo prévio para identificar os aspectos ambientaisrelacionados ao envelhecimento humano [Ribeiro et al. 2017]. Todos os atributos mantidos na basede dados descrevem aspectos utilizados em outros estudos do envelhecimento humano.

—Foi realizada uma fusão de atributos correlatos, para reduzir a dimensionalidade da base de dados.Questões dos questionários do ELSA que eram diretamente dependentes umas das outras foramfundidas em um único atributo que representa toda a informação obtida no conjunto de questõesdependentes.

—Todos os atributos tiveram seus valores transformados para um valor numérico entre 0 e 1. Estarecodificação foi feita para que a base de dados pudesse ser usada como entrada nos algoritmosde agrupamento, e obedece a uma lógica interna nos atributos, onde todos os valores menores sãomenos desejáveis para uma vida longeva do que os maiores. Ou seja, todos os atributos têm o valor0 para a opção de "pior caso", e o valor 1 para a opção de “melhor caso”.

—Grupos de atributos da base de dados foram então reduzidos em atributos especiais, denominadosBlocos, seguindo uma metodologia usada no estudo ELSA. Cada Bloco da base de dados finalrepresenta um aspecto relacionado ao envelhecimento humano.

Ao final da etapa de preparação, foi gerada uma base de dados com 1333 participantes do ELSA,e 128 atributos representados por 28 Blocos. Das instâncias selecionadas, 242 (18%) representama classe de não-longevos, e 1091 (82%) representam a classe de longevos. Na Tabela 1, é possívelobservar o significado de cada Bloco.

3.3 Seleção de Registros

O objetivo do trabalho é encontrar o perfil de indivíduos longevos e não-longevos, ou seja, represen-tantes da classe que seguem um determinado padrão. Porém, o estudo do envelhecimento humanoé muito complexo e envolve diversos fatores, como social, econômico, saúde física e mental, e gené-ticos. O aspecto genético não é levado em consideração na base de dados ELSA. A sua ausênciajuntamente com a presença de dados de diversos campos de estudos contribuem para que as caracte-rísticas de indivíduos longevos e não-longevos sejam muito semelhantes, sendo necessário uma buscados melhores perfis que descrevem cada classe, a fim de diferenciá-las adequadamente. Uma vez queos grupos não são facilmente discriminados, utilizamos a clusterização por densidade, o que levoua grupos com mais representantes de apenas uma única classe. Esse procedimento introduziu umcarácter semi-supervisionado [Grira et al. 2004] ao processo de descrição dos perfis.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

47

Page 48: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 5

Table I. Significado dos BlocosBlocos Descrição Blocos Descrição Blocos Descrição Blocos DescriçãoG Gênero A7 Eficiência sen-

sorialB5 Ansiedade e es-

tresseC3 Relação com

criançasA1 Frequência de

atividade físicaA8 Consumo de ál-

cool e tabacoB6 Boa autoavali-

açãoC4 Relação com

famíliaA2 Problemas sé-

rios de saúdeA9 Resultados de

teste de memó-ria

B7 Sentimentosnegativos

C5 Relação comamigos

A3 Limitações físi-cas

B1 Sintomas dedepressão

B8 Sentimentospositivos

C6 Relação com oparceiro(a)

A4 Histórico mé-dico

B2 Questões cog-nitivas

B9 Satisfação coma vida e pers-pectiva

C7 Casa e automó-vel

A5 Uso de medica-mento

B3 Limitações físi-cas

C1 Educação for-mal recente

C8 Carreira

A6 Dor e sua in-tensidade

B4 Resultados detestes de mobi-lidade

C2 Estruturasocial geral

C9 Status econô-mico atual

Primeiramente foi utilizado o algoritmo DBSCAN [Ester et al. 1996]. A escolha de um algoritmode agrupamento baseado em densidade tem dois motivos: 1) experimentos iniciais com algoritmosbaseados em distância não obtiveram resultados satisfatórios, o que pode indicar uma estrutura não-convexa de agrupamento dos dados; e 2) o número de grupos é indeterminado, portanto é precisoum algoritmo capaz de determinar esse número automaticamente. Em relação aos parâmetros usadosno DBSCAN, foram variados ambos o epsilon e o minpts partindo de valores próximos de zero eaumentando gradativamente alternando os dois parâmetros, o epsilon de 0,01 em 0,01 e o minpts de10 em 10. A cada teste, a distribuição de classes dos clusters encontrados foi usada como critério,e os parâmetros foram variados até o ponto em que a distribuição não obteve avanços quanto àsua homogeneidade. Os resultados do DBSCAN mostraram tendências para grandes grupos com aclasse majoritária (longevos) e alguns grupos com maior concentração da classe minoritária (não-longevos), mas não foram encontrados grupos completamente concisos, provavelmente devido à altadimensionalidade da base de dados e o desbalanceamento de classes.

Para refinar os resultados do DBSCAN, os dois maiores agrupamentos com boa distribuição deinstâncias de cada classe foram refinados em uma segunda etapa de agrupamento. Para a classe denão-longevos, foi selecionado um agrupamento de 112 instâncias com exatamente 56 de cada classe (amelhor distribuição encontrada nos resultados do DBSCAN). Para a classe longevos, foi selecionadoum grupo de 776 instâncias, onde 716 (92%) pertencem à classe dos longevos.

Estes dois grupos foram utilizados, separadamente, como entrada para uma segunda etapa deagrupamento, utilizando a versão unidimensional do algoritmo Self-Organizing Maps (SOM) [Kohonenand Somervuo 1998]. O SOM foi escolhido por ser capaz de explorar relações lineares e não-linearesem bases de dados de alta dimensionalidade, o que o torna capaz de detectar um refinamento destessubgrupos da base de dados [Kantardzic 2011, Chapter 9]. Quanto aos parâmetros utilizados, oneighborhood weight foi fixado em zero, o número de cluster foi variado de 2 a 10 e o unexplainedvariance de 0,05 em 0,05. Os clusters foram avaliados a cada teste com relação à homogeneidadede classes, e o melhor resultado foi com 0,25 de unexplained variance, 7 clusters para a classe dosnão-longevos e 8 clusters para os longevos. Após a execução do SOM com cada grupo como entrada,foram removidos os grupos com menos de 50% de instâncias da classe-alvo.

Através deste processo de refino, foram encontrados os melhores agrupamentos de instâncias, paradefinirmos os perfis de participantes longevos e não-longevos do ELSA. Como indicativo de qualidadedesses representantes, analisamos o diâmetro do cluster, definido como a média da distância Euclidianaquadrada entre os elementos do cluster [Zaït and Messatfa 1997]. Conseguimos um diâmetro total

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

48

Page 49: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 ·de 0,23 nos longevos, e de 0,2 para os representantes dos não-longevos, ambos considerados bonsresultados por ser abaixo de 0.3. O ponto de referência para avaliação foi escolhido de acordo com ovalor indicado para o índice Silhouette, que padroniza o valor 0.7 e valores acima como indicadores deum bom cluster, no entanto, a medida do diâmetro considera 0 como o melhor resultado e o valor 0.7é invertido para 0.3. A medida do índice Silhouette que considera a distância inter-cluster não obtevebons resultados por causa da proximidade entre os elementos da base de dados, como já mencionadoantes. Como representantes da classe de não-longevos, foi selecionado um grupo de 51 instâncias,com 71% delas pertencendo à classe de não-longevos, e como representantes da classe de longevos, foiselecionado um grupo de 723 instâncias, com 95% destas pertencendo aos longevos.

Concluindo a etapa de agrupamento do nosso trabalho, foi realizado um teste estatístico paracomprovar que os grupos de representantes dos participantes de cada classe são realmente partesde populações diferentes, confirmando a existência dos perfis destas classes. O teste realizado foio teste T-Quadrado de Hotelling, a versão multivariada do Teste T de duas amostras, da estatísticaunivariada, que determina se as médias populacionais de duas variáveis aleatórias são iguais [Hotelling1992]. O teste rejeitou a hipótese nula, de que as médias populacionais são iguais, confirmando que osrepresentantes selecionados para as classes longevo e não-longevo são padrões de população diferentese, consequentemente, podem ser usados como base de dados para o treinamento e teste de um algoritmode aprendizado supervisionado.

4. CLASSIFICAÇÃO FLORESTA ALEATÓRIA E INTERPRETAÇÃO DOS RESULTADOS

A fim de identificar as causas que levam uma pessoa a ser longeva ou não-longeva, o conjunto de dadosobtido na Seção anterior é usado para treinar e testar o método de classificação supervisionado FlorestaAleatória, sendo 75% da base para treinamento e 25% para teste. Não foi utilizada validação cruzadauma vez que essa técnica particiona o conjunto de dados em subconjuntos, o que não é adequado para abase de dados em questão por essa possuir poucas instâncias, cerca de 100 exemplos. As FAs possuemuma boa acurácia de predição, o que contribui para que os resultados sejam mais precisos e que ascausas sejam identificadas com mais exatidão. Para interpretar os resultados e melhor compreendero aprendizado da FA, foram extraídas as regras de associação geradas na construção do modelo.

Para decidir os parâmetros usados na criação das FAs, sendo os principais deles, ntree e mtry,primeiro realizou-se um experimento avaliativo com o valor de mtry fixo para variar a quantidadede árvores. No entanto, a quantidade de árvores não alterou significativamente a acurácia, e o valorescolhido foi de ntree = 100 árvores visando um baixo custo computacional [Oshiro et al. 2012].Fixado o valor de 100 árvores, foi testado valores de mtry variando de 3 a 16, os resultados mostraramvalores compreendidos entre 92.86% e 100%. Os valores utilizados que apresentaram melhor acuráciaforam o de 14 e 16, obtendo acurácia 100%. O resultado encontrado é o esperado devido ao uso da FA,que aumenta a acurácia, e pelo fato da base de dados já ter sido pré-processada de maneira eficienteem etapas anteriores.

A FA encontrada como a melhor(parâmetros ntree=100 e mtry=14), foi testada com 10 sementesdistintas escolhidas para o seu processo aleatório. Durante a montagem das ADs, de acordo com asemente que é escolhida de maneira aleatória é selecionado o conjunto de variáveis a serem analisadaspara cada nó. O teste com várias sementes é necessário para determinar se os resultados obtidospela combinação dos parâmetros apresentam um comportamento convergente. Uma confirmação deque os parâmetros são adequados é que a lista de variáveis com maior importância obtidas em cadaexperimento se repete, com pequenas variações, assim como a acurácia.

Após encontrar os melhores parâmetros, o modelo foi treinado e testado, obtendo os resultadosmostrados na Tabela 2 referente às métricas de avaliação. As regras de associação foram extraídasde acordo com a metodologia mostrada na Seção 2.2 e podem ser visualizadas na Tabela 3. Essasregras podem ser interpretadas de acordo com a Tabela 4. Quanto à interpretação dos Blocos, o B4

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

49

Page 50: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 7

Table II. Métricas de avaliação dos resultados da Floresta AleatóriaClasse Precisão Sensibilidade Medida-F Porcentagem na base de dadosLongevos 1.0 1.0 1.0 50%Não-longevos 1.0 1.0 1.0 50%

Table III. Regras de associação extraídas da Floresta AleatóriaTamanho Frequência Erro Condições Previsão3 45,95% 0% A2 >4 & B4 >3,825 & C2 >4,995 Longevo1 27,03% 0% C8 <= 8,5 Não longevo2 5,41% 0% A1 >6,875 & A4 >4,5 Longevo1 21,62% 6,25% Outras condições Não longevo

Table IV. Análise das condiçõesA1 >6,875 O indivíduo pratica regularmente atividades físicas, combinando exercícios leves, moderados e

vigorosos. Exercícios leves e rigorosos são praticados em uma frequência moderada, uma vez porsemana, e exercícios moderados são praticados em uma frequência maior, mais de uma vez porsemana.

A2 >4 O indivíduo não possui nenhuma doença crônica de coração e também não possui problemaspsiquiátricos.

A4 >4,5 O indivíduo não recebeu tratamento de câncer nos últimos 2 anos.B4 >3,825 O indivíduo não apresenta dificuldade para caminhar 400 metros sozinho ou possui pouca difi-

culdade, mas consegue caminhar sem o auxílio de algum objeto. O entrevistado não reclama deproblemas quanto à sua mobilidade.

C2 >4,995 O indivíduo possui amigos e algum membro da família ainda vivo, ou possui muitos membros dafamília ainda vivos e não tem amigos.

C8 <= 8,5 O indivíduo não está aposentado e não possui trabalho; ou está aposentado, não podendo terum trabalho além da aposentadoria ou realizar trabalho voluntário.

representa a dificuldade do indivíduo de caminhar 400 metros sozinho com ou sem o auxílio de umequipamento, esse Bloco pode ter grande influência quanto à longevidade devido à pouca mobilidade doentrevistado poder atrapalhar na execução de exercícios físicos, tema também abordado em A1. O C2aponta para o problema da solidão entre os idosos e o C8 demonstra a importância do idoso se manterativo, seja por trabalho remunerado ou voluntário. Ambos os Blocos A2 e A4 estão relacionados adoenças, sendo o A2 referente a doenças crônicas de coração ou distúrbios psiquiátricos, e sendo o A4referente se o paciente recebeu tratamento de câncer nos últimos dois anos.

5. CONCLUSÕES

Esse trabalho propõe um processo de descoberta sobre uma base de dados longitudinal de envelheci-mento humano para que possamos identificar indivíduos longevos ou não-longevos. A base de dadosutilizada ELSA é formada por 6 ondas e envolve milhares de atributos e gravações. Por meio de umpré-processamento a quantidade de atributos foi diminuída e os atributos foram separados em Blocosque representam um aspecto relacionado ao envelhecimento humano. Utilizando essa base de dadosjá pré-processada, usamos o método de classificação supervisionada FA para identificar perfis quemelhor descrevem os longevos e não-longevos. A utilização da FA apresentou resultados satisfatórios,entretanto, esse classificador é caracterizado por ser mais descritivo do que interpretável. Para umamelhor interpretabilidade, extraímos as regras de associação existentes dentro do modelo e as anali-samos para que os resultados sejam entendidos de forma prática. No entanto, o classificador obtidopor meio dessa extração perde um pouco da acurácia obtida pela FA.

Por meio das regras obtidas, e sua interpretação, é possível obter insights quanto ao que levauma pessoa a ser longeva ou não-longeva, podendo inspirar possíveis políticas públicas e aplicaçõesno mercado. Possíveis aplicações no mercado seriam o melhor cálculo de preços de plano de saúde e

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

50

Page 51: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 ·seguro de vida. Em relação às políticas públicas, é preciso analisar cada Bloco individualmente. Sobrea temática abordada em B4 e A1, uma possível solução seria a construção em praças e diversos locaispúblicos de espaços propícios a exercícios físicos por meio da instalação de equipamentos de ginásticae alongamento. Quanto ao C2, uma maneira de resolver a questão seria a criação de programas sociaisque incentivem o trabalho voluntário de visitas regulares a idosos. Para o problema abordado em C8,uma alternativa seria a criação de programas sociais no qual o idoso seja o voluntário. Já os Blocos A2e A4 destacam a necessidade de investir no diagnóstico precoce e tratamento das doenças relatadas.

Agradecimentos

Os dados foram disponibilizados através do UK Data Archive. O ELSA foi desenvolvido por umaequipe de pesquisadores baseados no NatCen Social Research, no University College London e noInstitute for Fiscal Studies. Os dados foram coletados pela NatCen Social Research. O financiamentoé fornecido pelo National Institute of Aging nos Estados Unidos, e por um consórcio de departamentosgovernamentais do Reino Unido coordenados pelo Oce para Estatísticas Nacionais. Os desenvolvedorese financiadores do ELSA e do Archive não têm qualquer responsabilidade pelas análises ou interpre-tações aqui apresentadas. Os autores também agradecem o apoio da FAPEMIG no desenvolvimentodeste trabalho, através da concessão de bolsa de pesquisa.

REFERENCES

Banks, J., Breeze, E., Lessof, C., and Nazroo, J. The dynamics of ageing: Evidence from the English LongitudinalStudy of Ageing 2002-15 (Wave 7). Institute for Fiscal Studies, 7 Ridgmount Street London WC1E 7AE, 2016.

Breiman, L. Random forests. Machine learning 45 (1): 5–32, 2001.Deng, H. Interpreting tree ensembles with intrees. arXiv preprint arXiv:1408.5456 , 2014.Ester, M., Kriegel, H.-P., Sander, J., Xu, X., et al. A density-based algorithm for discovering clusters in large

spatial databases with noise. In KDD. Vol. 96. pp. 226–231, 1996.Fernández-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. Do we need hundreds of classifiers to solve

real world classification problems. Journal of Machine Learning Research 15 (1): 3133–3181, 2014.Grira, N., Crucianu, M., and Boujemaa, N. Unsupervised and semi-supervised clustering: a brief survey. A review

of machine learning techniques for processing multimedia content, Report of the MUSCLE European Network ofExcellence (FP6), 2004.

Hotelling, H. The generalization of student’s ratio. In Breakthroughs in Statistics. Springer, pp. 54–65, 1992.Kantardzic, M. Data mining: concepts, models, methods, and algorithms. John Wiley & Sons, 2011.Kohonen, T. and Somervuo, P. Self-organizing maps of symbol strings. Neurocomputing 21 (1): 19–30, 1998.Last, M., Klein, Y., and Kandel, A. Knowledge discovery in time series databases. Systems, Man, and Cybernetics,

Part B: Cybernetics, IEEE Transactions on 31 (1): 160–169, 2001.Louppe, G. Understanding random forests: From theory to practice. arXiv preprint arXiv:1407.7502 , 2014.Malloy-Diniz, L., Fuentes, D., and Cosenza, R. Neuropsicologia do Envelhecimento: Uma Abordagem Multidi-

mensional. Vol. 1, 2013.Marmot, M., Oldfield, Z., Clemens, S., Blake, M., Phelps, A., Nazroo, J., Steptoe, A., Rogers, N., and

Banks, J. English longitudinal study of ageing: Waves 0-6, 1998-2013. [data collection]. 23rd edition, 2015.Minhas, S., Khanum, A., Riaz, F., Alvi, A., Khan, S. A., Initiative, A. D. N., et al. Early alzheimer’s disease

prediction in machine learning setup: Empirical analysis with missing value computation. In International Conferenceon Intelligent Data Engineering and Automated Learning. Springer, pp. 424–432, 2015.

Oshiro, T. M., Perez, P. S., and Baranauskas, J. A. How many trees in a random forest? In InternationalWorkshop on Machine Learning and Data Mining in Pattern Recognition. Springer, pp. 154–168, 2012.

Pyle, D. Data preparation for data mining. Vol. 1. Morgan Kaufmann, 1999.Ribeiro, C. E., Brito, L. H. S., Nobre, C. N., Freitas, A. A., and Zárate, L. E. A revision and analysis of the

comprehensiveness of the main longitudinal studies of human aging for data mining research. Wiley InterdisciplinaryReviews: Data Mining and Knowledge Discovery 7 (3), 2017.

Ribeiro, C. E. and Zárate, L. E. Data preparation for longitudinal data mining: a case study on human ageing.Journal of Information and Data Management 7 (2): 116, 2017.

Zaït, M. and Messatfa, H. A comparative study of clustering methods. Future Generation Computer Systems 13 (2-3): 149–159, 1997.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

51

Page 52: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Conditional density estimation using Fourier series and neuralnetworks

M. H. de A. Inacio1 and Rafael Izbicki2

1 Universidade Federal de Sao Carlos e Universidade de Sao Paulo, [email protected]

2 Universidade Federal de Sao Carlos, [email protected]

Abstract. Most machine learning tools aim at creating good predictions for new samples. However, obtaining 100% is

not feasible in most problems, and therefore modeling the uncertainty over such predictions becomes necessary in several

applications. This can be achieved by estimating conditional densities. In this work, we propose a novel method ofconditional density estimation based on Fourier series and artificial neural networks, and compare it to other estimators

on five distinct datasets. We conclude that our proposed method outperforms the other tested methods.

Categories and Subject Descriptors: G.3 [Probability and Statistics]: Nonparametric Statistics; I.2.6 [Artificial

Intelligence]: Learning

Keywords: conditional density estimation, neural networks, Fourier series, pytorch

1. INTRODUCTION

Density estimation is among the most fundamental problems in Statistics. On the other hand, the fieldof Machine Learning and the so called algorithmic modeling has seen a recent surge in its popularityand applicability, due to, among other things, the vast amount of data available nowadays and a rapidincrease of computational processing power.

However, this field has generally been more concerned with the problem of regression function(formally, the expected value E[Y |x]) than that of density estimation. In this work, we attemptto workout the problem of density estimation using a tool from such field that is also attractinggreat interest from researchers worldwide: artificial neural networks. More specifically, we show howartificial neural networks can be used to estimate a conditional density f(y|x) in a fully nonparametricway. Conditional densities are more informative than regression functions: they model all uncertaintyone has about Y given information x, and not only its expected value. Some well known methods ofconditional density estimation are given by [Fan et al. 1996; Hall et al. 2004; Takeuchi et al. 2009;Efromovich 2010; Sugiyama et al. 2010]. Although such methods have good performance in severalsettings, they do not scale well to large datasets [Izbicki and Lee 2016; Izbicki and B. Lee 2017]; see[Bertin et al. 2016] and references therein for other methods.

The major contribution of this work is the proposal of a new method of conditional density es-timation using neural networks which is highly scalable. In section 2, we introduce the problem ofconditional density estimation. In section 3, we have a brief review of one of the tools that we useto work out such problem: feedforward artificial neural networks together with some recent advance-ments in the field which we take advantage to carry out this work. In section 4, we present a briefintroduction to Fourier series, which is another tool that we use on our method of conditional density

Copyright©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permission

of the Sociedade Brasileira de Computacao.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

52

Page 53: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · M. H. de A. Inacio and Rafael Izbicki

estimation. We also briefly review some known methods of conditional density estimation that areuseful to develop this work. In section 6, one can find empirical results of our proposed method usingfive datasets. Finally, section 7 concludes the article.

2. CONDITIONAL DENSITY ESTIMATION

Let (X1, Y1), . . . , (Xn, Yn) be i.i.d. random vectors, where Yi ∈ R is the response (label) and Xi ∈ Rdare covariates (features). Given that, problem of conditional density estimation can be stated simply

as finding a good estimator f for the conditional density of Yk|Xk, which we denote by f(.|Xk) :[0, 1] → R ∈ L2[0, 1], where Xk = (Xk1, Xk2, ..., Xkd). A simple solution for this problem is, forexample, an ordinary least squares estimator:

f(y|Xk) = Gaussian(XTk βOLS , σ

2OLS)

Of course, such a simple estimator lacks flexibility for problems with complex structures both interms of marginal density and in the structure of the covariates. Therefore, the goal of a good estimatoris to be able to have considerable flexibility to model complex structure without incurring in excessiveoverfitting (bias-variance trade-off). In the next sections we review an already established methodto deal with conditional density estimation using Fourier series, and introduce our proposed methodwhich makes use of neural networks.

3. TOOLSET 1: NEURAL NETWORKS

Feedfoward artificial neural networks is one of the tools we make use of to carry out this work. In thissection, we present its specification as follows:

Optimizer: we work with the Adamax optimizer ([Kingma and Ba 2014]) and decrease itslearning rate if improvement is seen on the validation loss for a considerable number of epochs.

Initialization: we used the initialization method proposed by [Glorot and Bengio 2010].

Layer activation: we chose ELU ([Clevert et al. 2015]) as activation function.

Stop criteria: a 90%/10% split early stopping for small datasets and a higher split factor forlarger datasets (increasing the proportion of training instances) and a patience of 50 epochswithout improvement on the validation set.

Normalization and number of hidden layers: batch normalization, as proposed by [Ioffe andSzegedy 2015], is used in this work in order to speed-up the training process, specially since ournetworks have 10 hidden layers each.

Dropout: here we also make use of dropout which as proposed by [Hinton et al. 2012].

Software: we have PyTorch as framework of choice which works with automatic differentiation.

4. TOOLSET 2: FOURIER SERIES

4.1 Deterministic function approximation

Let L2([0, 1]) be the linear space of continuous functions hi : [0, 1]→ R such that∫ 1

0hi(x)dx ≤ ∞ for

i ∈ 1, 2. The usual inner product is defined by 〈h1, h2〉 =∫ 1

0h1(x)h2(x)dx and this inner product

induces the following norm and distance in L2([0, 1]):

‖h1‖ =

(∫ 1

0

h21(x)dx

)1/2

and√M(h1, h2) =

(∫ 1

0

(h1(x)− h2(x))2dy

)1/2

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

53

Page 54: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Conditional density estimation using Fourier series and neural networks · 3

where h1, h2 ∈ L2([0, 1]). The sequence of functions φ0, φ1, φ2, ... is called orthogonal systemwhen 〈φi, φj〉 = 0 for i 6= j and ‖φi‖ 6= 0 for all i. Furthermore, such system is called orthonor-mal basis if for any h1 ∈ L2([0, 1]) there exists an unique sequence of scalars αnn∈N+

such that∥∥∥h1 −∑Ik=1 αkφk

∥∥∥ → 0 as I → ∞. Also, as of theorem 3.5.2 from [Kreyszig 1989], we have

αk = 〈h1, φi〉.Thus, h1 has the following series representation given by

∑∞i=0〈h1, φi〉φi.

Here, we shall consider the Fourier basis where φi : [0, 1]→ [−√

2,√

2] and

φi(x) =

1 if i = 0√2 sin(π(i+ 1)x) if i ∈ 1, 3, 5, ...√2 cos(πix) if i ∈ 2, 4, 6, ...

4.2 Non-conditional density estimation

Given i.i.d. random variables Y1, Y2, ..., Yn with density function f : [0, 1]→ R ∈ L2[0, 1], then:

fI(y) = 1 +

I∑

i=1

αiφi(y) with αi =1

n

n∑

j=1

φi(Yj) ≈∫φi(y)f(y)dy = 〈φi, f〉

is an approach to infer f from a frequentist perspective using Fourier series. Here, the choice of theestimator cutoff parameter I can be seen as bias-variance trade-off problem (in practice, a possiblesolution is to use cross-validation or data splitting to choose I).

However the estimate from fI might not respect the constraint ∀y ∈ [0, 1], f(y) ≥ 0, in which casea “surgery” method is necessary (see [Wasserman 2006] and [Glad et al. 2003]). In case of Bayesiannon-conditional density estimation, we have to define and work with priors in a constrained spacewhere f(y) ≥ 0 for all y ∈ [0, 1].

One way to overcome this issue is to use the approach of sieve priors suggested by [Scricciolo 2006]and applied in [Inacio et al. ress], which places a prior directly on the coefficient vector β of theFourier series expansion of log(f) (instead of f) so that conditionally on the threshold parameter(cutoff parameter) I we have:

f(y|I, β) =1

g(β, I)exp

I∑

i=1

βiφi(y)

where g is a normalizing factor such that g(β, I) =∫ 1

0exp

∑Ii=1 βiφi(y)

dy. This is necessary in

order to have∫ 1

0f(y|I, β)dy = 1. Note that each βi lives in R, solving the constrained space problem.

As a drawback, we introduced the difficulty of calculating a normalizing factor (using numericalintegration) when evaluating the likelihood function. As we shall see later, we will use a similaraproach to force f(y) ≥ 0 for our proposed method.

4.3 Conditional density estimation: Flexcode

The Flexcode estimator ([Izbicki and B. Lee 2017]) is a natural extension of the frequentist densityestimator method of section 4.2 to the conditional case and is used in this article as baseline to comparethe results of our method. It consists in two steps:

(1) Estimate a regression function r : Rd → [−√

2,√

2]I where r(.) = (r(.)1, r(.)2, ..., r(.)I) and withφ1(Y ), φ2(Y ), ..., φI(Y ) as targets and X as covariates. Such regression function can be obtainedusing a well known methods such as OLS, Lasso or KNN.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

54

Page 55: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · M. H. de A. Inacio and Rafael Izbicki

(2) Use the estimated regression to obtain following density estimate:

f(yk|xk) = 1 +

I∑

i=1

r(X)iφ(Yk)

To understand why this procedure works, first notice that

f(yk|xk) = 1 +∞∑

i=1

(∫ 1

0

φi(y)f(y|xk)dy

)φ(yk) = 1 +

∞∑

i=1

E(φi(Y )|xk)φ(yk)

and that the fitted value r(Xk)i of a regression of φi(Y ) against X is itself an estimate of E(φi(Y )|Xk).It follows that the choice of a cut-point I is a problem of bias-variance trade-off (in similar fashionto the non-conditional density estimator in 4.2) and, that in practice, this can be solved by cross-validation or data splitting.

5. OUR PROPOSED METHOD: CDFSNET

Our approach builds on Flexcode in order to achieve better performance and scalability. In our initialtests, we directly applied the Flexcode strategy to neural networks. That is, we trained a Neuralnetwork M with:

Input: a row vector input xk = (xk1, xk2, ..., xkd) of length d.

Output: a row vector (M(xk)1,M(xk)2, ...,M(xk)I) of length I.

where the estimated density given by

f(yk|xk) = 1 + φ1(yk)M(xk)1 + ...φI(yk)M(xk)I

and the loss on the training set is given by

n∑

i=1

I∑

j=1

(φj(yi)−M(xi)j)2

However, this bare bones Flexcode procedure has shown to perform poorly on neural networks,even after applying the various neural networks techniques to avoid overfitting and local minimumconvergence that we described in section 3 and even after attempting two different “surgery” methods(in order to force the estimated densities to be positive and integrate to 1).

On the order hand, instead of calculating a squared error on the regression (as in step 1 of Flexcode),we can work directly with the loss function and we can also apply a exponential transformation insimilar fashion to what is proposed in 4.2 (i.e.: calculate the Fourier components of log(f) instead off). In this case, the performance increases dramatically. Therefore we have a Neural network N with:

Input: a row vector input xk = (xk1, xk2, ..., xkd) of length d.

Output: a row vector (N(xk)1, N(xk)2, ..., N(xk)I) of length I.

where the estimated density given by

f(yk|xk) =exp∑I

i=1 φi(yk)N(xk)ig(N(xk), I)

and where g(N(xk, I)) is a normalizing factor. Here, we work with the integrated squared distancebetween the true and estimated density functions as loss function:

χ

∫ 1

0

(f(y|x)− f(y|x))2dydP (x).

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

55

Page 56: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Conditional density estimation using Fourier series and neural networks · 5

This loss can be estimated by

n−1n∑

i=1

∫ 1

0

(f(y|xi)− f(y|xi))2dy = n−1n∑

i=1

∫ 1

0

((f(y|xi))2 − 2f(y|xi)f(y|xi)

)dy + k

where k is a constant. It follows then that the loss function on the training set is given by a numericalapproximation to

n−1n∑

i=1

(∫ 1

0

(f(y|xi))2dy − 2f(yi|xi))

(1)

where the integration can be estimated numerically using, for example, the trapezoidal rule.

2 1 0 1 2 3 4 5 6 7input

2

1

0

1

2

3

4

5

6

7

outp

ut

softplus exponential identity

Fig. 1. Comparison of softplus, exponentialand identity functions. Note that softplusfunction is always closer to the identity func-tion that the exponential.

Moreover, on preliminary tests we also consid-ered the softplus transformation1 which is defined by1b log(1 + exp(b ∗ x)) where b = 1 (PyTorch default2).Since softplus transformation lead to better perfor-mance than the exponential transformation for a fixedamount of Fourier Series components, we decided touse it instead. This implies that we are in fact calcu-lating the Fourier basis components of softplus−1(f)and have the estimated density given by

f(yk|xk) =softplus∑I

i=1 φi(yk)N(xk)ig′(N(xk), I)

where g′(N(xk), I) is another normalizing factor.

The intuition behind softplus giving some improve-ment over exponential is the fact that such transfor-mation attempts to not significantly alter the value ofits input (specially for large values), therefore poten-tially preserving the smoothness of the original (un-transformed) density function. Figure 1 illustratessuch property: softplus function is always to closer to the identity function that the exponential.

It is also worth noticing that this transformation and target loss function take advantage of thenatural flexibility that neural networks have to minimize “arbitrary” loss functions and the speedGPUs can achieve when working with matrix multiplication which required for numerical integrationinside the loss function. A Python package that implements the method that we therefore propose(and call CDFSNet) is available at https://github.com/randommm/nncde.

6. RESULTS AND ANALYSIS

We now present a comparison of CDFSNet and three implementations of Flexcode using five real worlddatasets that we describe in the subsections. The Python source code of these analysis is available athttps://github.com/randommm/nncde_implementation.

6.1 Datasets and preprocessing

We compare FlexCode with CDFSNet on the following datasets:

1Softplus can also be used as an activation, but here we restrict its use as transformation to constrain the density

function to positive values.2We also tried other values for b, however the default value has shown to give better performance.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

56

Page 57: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · M. H. de A. Inacio and Rafael Izbicki

Spectroscopic dataset: We take spectroscopic data from [Izbicki and Lee 2016] and [Izbickiet al. 2017]. We take two subsets of the provided dataset. The first one with 10000 instances (insimilar fashion to the one used by [Izbicki and Lee 2016]) and the second one with 100000. Wework with the redshift income as the response variable.

Pnad dataset: We take a dataset from the Brazilian National Sample Survey of Households(PNAD), which is a research taken from Brazilian families and intends to extract informationsuch as income, marriage, health, habitation and fecundity. For each attribute, we create anadditional category to capture not available variables. We work with the family income as theresponse variable.

SGEMM dataset: We take a dataset from [Nugteren and Codreanu 2015] where the runningtime of a matrix-matrix product is measured, using a parameterizable SGEMM GPU kernel. Foreach combination of attributes, 4 runs were performed. For simplicity, we take the average of the4 runs as the response variable.

Diamonds dataset: We take the classical diamonds dataset which is readily available fromggplot2 library and Kaggle. We work with carat as the response variable.

We use the following preprocessing in our experiments:

Response variable preprocessing: before training every model, we preproccess the responsevariable by taking its log and then transforming it to lie in the (0, 1) interval. This is done forevery dataset, with the exception of the spectroscopic dataset for which the response variable (theredshift of a galaxy) was already in the range of 0 to 1 in our received version.

Feature preprocessing: before training the neural networks, we preproccess all the features tohave to mean 0 and variance 1 for all datasets, with the exception of the SGEMM dataset wherewe use PCA-Whitening transformation.

The score evaluation being carried out in a test dataset3 (which was not used to train the modelsnor in the validation procedure for early stopping the neural networks).

6.2 ResultsTable I. Score (greater is better) of different methods for a givendataset. Here we compared Flexcode (using nearest neighbors, XG-Boosting and random forests) with CDFSNet. NA represents a casewhere we were unable to train the model due to RAM limitations.

DatasetSpectroscopic Pnad SGEMM Diamonds

Sample size 10000 100000 117939 241600 48940Nº attributes 10 10 901 15 26

FC KNN 9.44 10.73 13.11 15.66 7.45FC XGB 11.28 13.26 NA 18.86 15.56FC RF 11.58 13.72 15.89 30.61 16.09

CDFSNet 13.57 16.63 15.95 54.74 19.79

In Table I, we present thescore (the opposite of the inte-grated squared distance loss asgiven by equation 1) of CDF-SNet using the Flexcode im-plementation of nearest neigh-bors, XGBoosting and ran-dom forests4 as the compar-ison baseline and using theaforementioned datasets.

In Figure 2, where wepresent the estimated con-ditional probability densityfunction of the Fourier ANN and Flexcode Random Forest methods for the SGEMM dataset (condi-tional on a point chosen at random).

3The test dataset size was set to be the minimum between 5000 and 10% of the instances of the dataset.4For such task, we used the Python Flexcode implementation available at https://github.com/tpospisi/FlexCode

with the number of Fourier series components and some of the internal parameters of the estimators chosen by a

data-splitting procedure.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

57

Page 58: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Conditional density estimation using Fourier series and neural networks · 7

6.3 Analysis

We notice from Table I that CDFSNet has outperformed all the other Flexcode based estimators. Wenote four possible reasons for such behaviour:

First, the neural network is trained to directly minimize the loss of interest, rather than severalregression loss functions. Second, the Fourier series allows for a large number of Fourier series com-ponents to be used. Indeed, no hard cross-validation/data splitting procedure was necessary in orderto choose the “cut point” of the Fourier series in our proposed method: a reasonably large neuralnetwork with 100 Fourier components works well “out-of-the-box” probably due to early stopping anddropout are already taking care of overfitting problems. On the other hand, for Flexcode estimators,a data splitting procedure generally dictates a much smaller number of Fourier series components dueto the bias/variance tradeoff mentioned earlier.

Third, one of the limitations of the Flexcode method is that a Fourier series expansion might benegative in some regions, requiring some surgery procedures, and from Figure 2, we can see visuallyis that a large proportion of the density function is zeroed.

0.0 0.2 0.4 0.6 0.8 1.0y

0

100

101

102

f(y)

ANN FourierFC RF

Fig. 2. Estimated probability conditional den-sity function of the Fourier ANN and Flex-code Random Forest methods for the SGEMMdataset (conditional on a point chosen at ran-dom).

This also leads to a secondary effect of “stretch-ing” the curve in points which already have positivedensity (in order force the density to integrate to 1).Intuitively, these effects may be causing an additionalbias on the FlexCode density estimation for a givennumber of Fourier series components (a large numberof Fourier series components might be able to over-come this issue, but at the price of larger variance).A theoretical study confirming this possibility is sug-gested as an extension of this work.

A fourth reason might be given by [Zhang et al.2016] which discusses the capabilities that neural net-works have in achieving generalization without fallinginto overfitting possibly due to properties of stochasticgradient descendant.

7. CONCLUSION

In this work, we have reviewed the concepts of Fourierseries and conditional density estimation as well as an already established method of conditionaldensity estimation using Fourier series. We have proposed a novel method of conditional densityestimation that combines both Fourier series and artificial neural networks and compared it to thewell established one using five datasets.

We have concluded that CDFSNet has outperforms the other tested methods while, in futureworks, we plan to explore how different architectures may lead to significantly better estimates of theconditional densities when dealing with non-standard data such as images and texts.

ACKNOWLEDGMENT

Marco Inacio is grateful for the financial support of CAPES; Rafael Izbicki is grateful for the financialsupport of FAPESP (grants 2014/25302-2 and 2017/03363-8) and CNPq (grant 306943/2017-4). Wealso thank Carlos Alberto Diniz, Roseli Romero and anonymous reviewers for their helpful commentson this work.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

58

Page 59: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · M. H. de A. Inacio and Rafael Izbicki

REFERENCES

Bertin, K., Lacour, C., and Rivoirard, V. Adaptive pointwise estimation of conditional density function. In Annales

de l’Institut Henri Poincare, Probabilites et Statistiques. Vol. 52. Institut Henri Poincare, pp. 939–980, 2016.

Clevert, D.-A., Unterthiner, T., and Hochreiter, S. Fast and accurate deep network learning by exponentiallinear units (elus), 2015.

Efromovich, S. Dimension reduction and adaptation in conditional density estimation. Journal of the American

Statistical Association 105 (490): 761–774, 2010.

Fan, J., Yao, Q., and Tong, H. Estimation of conditional densities and sensitivity measures in nonlinear dynamicalsystems. Biometrika 83 (1): 189–206, 1996.

Glad, I. K., Hjort, N. L., and Ushakov, N. G. Correction of density estimators that are not densities. Scand J

Stat 30 (2): 415–427, jun, 2003.

Glorot, X. and Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. vol. 9, pp.

249–256, 01, 2010.

Hall, P., Racine, J., and Li, Q. Cross-validation and the estimation of conditional probability densities. Journal of

the American Statistical Association 99 (468): 1015–1026, 2004.

Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. R. Improving neural

networks by preventing co-adaptation of feature detectors. CoRR, 2012.

Inacio, M., Izbicki, R., and Salasar, L. Comparing two populations using bayesian fourier series density estimation.Communications in Statistics - Simulation and Computation, in press.

Ioffe, S. and Szegedy, C. Batch normalization: Accelerating deep network training by reducing internal covariate shift.

In Proceedings of the 32nd International Conference on Machine Learning, F. Bach and D. Blei (Eds.). Proceedingsof Machine Learning Research, vol. 37. PMLR, Lille, France, pp. 448–456, 2015.

Izbicki, R. and B. Lee, A. Converting high-dimensional regression to high-dimensional conditional density estimation.

Electron. J. Statist. 11 (2): 2800–2831, 2017.

Izbicki, R. and Lee, A. B. Nonparametric conditional density estimation in a high-dimensional regression setting.Journal of Computational and Graphical Statistics 25 (4): 1297–1316, 2016.

Izbicki, R., Lee, A. B., and Freeman, P. E. Photo-z estimation: An example of nonparametric conditional density

estimation under selection bias. The Annals of Applied Statistics 11 (2): 698–724, 2017.

Kingma, D. P. and Ba, J. Adam: A method for stochastic optimization. CoRR vol. abs/1412.6980, 2014.

Kreyszig, E. Introductory Functional Analysis with Applications. Wiley, 1989.

Nugteren, C. and Codreanu, V. Cltune: A generic auto-tuner for opencl kernels. In 2015 IEEE 9th InternationalSymposium on Embedded Multicore/Many-core Systems-on-Chip. pp. 195–202, 2015.

Scricciolo, C. Convergence rates for Bayesian density estimation of infinite-dimensional exponential families. The

Annals of Statistics 34 (6): 2897–2920, 2006.

Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H., and Okanohara, D. Conditional densityestimation via least-squares density ratio estimation. In Proceedings of the Thirteenth International Conference on

Artificial Intelligence and Statistics. pp. 781–788, 2010.

Takeuchi, I., Nomura, K., and Kanamori, T. Nonparametric conditional density estimation using piecewise-linear

solution path of kernel quantile regression. Neural Computation 21 (2): 533–559, 2009.

Wasserman, L. All of nonparametric statistics. Springer, New York London, 2006.

Zhang, C., Bengio, S., Hardt, M., Recht, B., and Vinyals, O. Understanding deep learning requires rethinking

generalization, 2016.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

59

Page 60: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Avaliação Automática de Conteúdo de Aplicações deReclamação Online

Lucas G. S. Félix1, João Victor Silveira1, Washington Luiz2, Diego Dias1, Leonardo Rocha1

1 Departamento de Ciência da Computação - Universidade Federal de São João del-ReiAv. Visconde do Rio Preto S/N - Colônia do Bengo

[email protected], [email protected],[email protected], [email protected]

2 Departamento de Ciência da Computação - Universidade Federal de Minas [email protected]

Abstract. A Internet tem vivenciado uma notória expansão e popularização nos últimos anos. Estima-se que até oano de 2020 haja cerca de 40 trilhões de gigabytes de dados gerados. Existem diversos cenários onde novas técnicas emetodologias vêm sendo propostas para que informações relevantes possam ser extraídas desse grande volume de dados.Um exemplo recente são as aplicações reclamações online, tais como ReclameAqui, que funcionam como porta voz deconsumidores insatisfeitos que relatam suas experiências ruins com determinados produtos e/ou serviços. Esses dadospodem representar uma rica fonte de informação que pode ser utilizada por empresas em seu aperfeiçoamento. Nessetrabalho propomos uma metodologia que, por meio da combinação de técnicas de modelagem de tópicos e análise desentimento, é capaz de extrair desses dados informações úteis, ricas em detalhes, que possam contribuir para empre-sas identificarem de forma mais consistente e rápida problemas nos produtos e serviços. Avaliamos nossa metodologiacom coleção de comentários coletados da aplicação ReclameAqui, outra do Twitter e outra do PROCON, todas elasrelacionadas às quatro maiores empresas de telefonia do Brasil (TIM, OI, VIVO e CLARO). Em nossas avaliações de-monstramos que a riqueza de detalhes que podem ser extraídas do ReclameAqui e do Twitter são bem maiores quandocomparadas a aquelas registradas no PROCON. Além disso, demonstrando que, por ser uma aplicação extremamenteinformal, extrair informações do Twitter exige mais recurso computacional e humano, o que torna os comentários deaplicações de reclamação online a melhor alternativa para se extrair informações úteis.

Categories and Subject Descriptors: H.3.1 [INFORMATION STORAGE AND RETRIEVAL]: Content Analysisand Indexing; H.2.8 [DATABASE MANAGEMENT]: Database Applications

Keywords: Modelagem de Tópicos, Análise de Sentimento, Aplicações Internet-Based

1. INTRODUÇÃO

A Internet tem vivenciado uma notória expansão e popularização nos últimos anos. Novos compo-nentes e serviços estão sendo incorporados em um ritmo bastante acelerado e cada vez mais, novosusuários fazem uso desses serviços. A cada dia são criadas novas aplicações que geram e utilizamuma quantidade maior de dados dos mais diversos tipos e que atingem, senão a todos, quase todos osgrupos de usuários. Estima-se que até o ano de 2020 haja cerca de 40 trilhões de gigabytes de dadosgerados 1. Esse grande volume de dados disponível na Web gerou nos últimos anos um diferenci-ado, desafiante e intrigante cenário para variadas aplicações: há mais dados que efetivamente pode-seanalisar, como afirmado em [Auden 2002], “Muita informação é tão ruim quanto nenhuma.”. Dessaforma, organizar e encontrar os recursos informacionais apropriados para satisfazer as necessidadesdos usuários passou a figurar como um dos problemas mais desafiadores em Ciência da Computação.

1www.bigdatabusiness.com.br/os-grandes-e-impressioantes-numeros-de-big-data/

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

60

Page 61: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Lucas Felix et al.

Diversos são os cenários onde novas técnicas e metodologias vêm sendo propostas para que infor-mações relevantes possam ser extraídas. Um exemplo de aplicação interessante são as chamadas redessociais (Twitter, Blogs, Facebook, etc.) nas quais as pessoas estão cada vez mais publicando suasopiniões na Web. Outro exemplo são as aplicações reclamações online, tais como ReclameAqui 2, Pro-teste 3 e Denuncio 4, que funcionam como porta voz de consumidores insatisfeitos que utilizam dessasaplicações para relatar problemas com produtos, empresas e serviços, etc. utilizando uma linguagemmais informal que os meios mais tradicionais como PROCON. Os dados disponibilizados por essasaplicações podem representar uma rica fonte de informação que pode ser utilizados por empresas paraaperfeiçoar seus serviços, produtos, etc., e estabelecer uma relação mais próxima com seus clientes.Uma vez que a manipulação manual deste volume de dados é impraticável, temos, recentemente, aadaptação de áreas tradicionais de análise a este novo cenário, tais como Análise de Sentimento eModelagem de Tópicos, sendo esses os temas do artigo aqui apresentado.

Nesse trabalho propomos uma metodologia que visa avaliar automaticamente os comentários re-alizados por usuários em sistemas de reclamação com o objetivo de extrair informações úteis, ricasem detalhes, que possam contribuir para empresas identificarem de forma mais consistente e rápidaproblemas nos produtos e serviços. Basicamente, a metodologia consiste em realizar coletas de dadosreferentes a alguma empresa específica, tratar adequadamente esses dados por meio de técnicas de pre-processamento de texto. A partir desses dados, o passo seguinte consiste em aplicar técnicas de mode-lagem de tópicos [Cheng et al. 2014] para inferir grupos de usuários e/ou comentários semanticamenterelacionados em torno de alguma característica discutida. O objetivo é que a partir desses tópicos em-presas sejam capazes de identificar reclamações relacionadas ao mesmo tema, apresentar uma soluçãopara o mesmo de forma mais rápida, além de otimizar o processo de atendimento ao consumidor.

Para validar nossa metodologia, aplicamos a mesma em dados reais, coletados a partir da aplica-ção ReclameAqui, relacionados a comentários sobre as principais empresas de telecomunicação queatuam no Brasil (TIM, OI, CLARO e VIVO). A motivação para a escolha dessas empresas se dá pelagrande quantidade de usuários que as mesmas possuem, sendo mais de 235 milhões de linhas móveisatualmente 5, a variedade de serviços apresentados pelas mesmas, tais como telefonia, internet móvel,TV a cabo, entre outros. Comparamos os resultados obtidos a partir desses dados com outras duasfontes de informação: reclamações registradas no PROCON e menções a essas empresas no Twitter.A primeira fonte é mais formal, com dados estruturados e hierarquicamente organizados, seguindouma taxonomia previamente definida. Já os dados coletados a partir do twitter são completamenteinformais e vão desde propagandas sobre as empresas, até insultos com emprego de palavras de baixocalão. Para essa base, além do preprocessamento de texto, aplicamos também técnicas de análisede sentimento [Almeida et al. 2016] para filtrar quais eram efetivamente reclamações (sentimentonegativo), além de removermos aqueles que continham palavras de baixo calão. Somente após essaetapa é que aplicamos a estratégia de modelagem de tópicos. O objetivo da comparação é avaliar ariqueza de detalhes que podem ser obtidos a partir dos comentários do ReclameAqui, comparandocom um cenário mais formal e outro completamente informal. Nossas análises demonstraram que apartir dos comentários do ReclameAqui é possível identificar problemas relacionados a essas empresasde forma mais específica quando comparados aos mencionados na base de dados do PROCON, sem apoluição de informações observadas na coleção de dados do Twitter.

2. TRABALHOS RELACIONADOS

Conforme mencionado na Introdução, as duas principais técnicas de mineração de dados utilizadasem nosso trabalho estão relacionadas à analise de sentimento e modelagem de tópicos. Sendo assim,

2reclameaqui.com.br3www.proteste.org.br4denuncio.com.br5www.anatel.gov.br/dados/destaque-1/283-brasiltem-236-2-milhoes-de-linhas-moveis-em-janeiro-de-2018

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

61

Page 62: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Avaliação Automática de Conteúdo de Aplicações de Reclamação Online · 3

nesta seção apresentamos e discutimos alguns dos principais trabalhos dessas áreas.

2.1 Análise de sentimentos

Análise de sentimentos consiste em detectar automaticamente a polaridade (positiva, neutra, negativa)de um texto e vem sendo aplicada em diversas áreas para modelagem e entendimento do comporta-mento de usuários e análise de opiniões em textos [Rocha et al. 2015]. Atualmente, são consideradosna literatura dois tipos de de métodos para análise de sentimento em texto: métodos baseados emaprendizado de máquina (AM) e métodos baseados em léxicos. Os trabalhos [Pak and Paroubek 2010;Almeida et al. 2016] utilizam-se de métodos de AM para classificação do texto. Os trabalhos cor-relatados se diferenciam apenas nos contextos de suas bases de dados e no algoritmo de classificaçãoque é utilizado, de maneira geral possuindo poucas diferenças. No trabalho de [Pak and Paroubek2010] é utilizado o algoritmo Naive Bayes para classificação dos dados e no artigo de [Almeida et al.2016] são utilizados Multinominal Naive Bayes, Support Vector Machine e Maximum Entropy que sãoconsiderados estado da arte na classificação de texto. Vale destacar, entretanto, que essas soluçõessão sensíveis ao contexto para um dado conjunto de entrada, ou seja, para cada base de treinamentoé necessário revalidar o classificador e criar-se um novo dicionário rotulando os dados.

Nos trabalhos de [Rocha et al. 2015; Sá et al. 2014; Gilbert 2014] são propostos métodos baseadosem modelos léxicos para análise de sentimentos em textos. O artigo de [Rocha et al. 2015] propõeum método para análise de sentimento em texto utilizando uma técnica não-supervisionada que con-segue extrair de grande volume de dados o sentimento coletivo sem realizar classificações individuaisutilizando-se de um grafo probabilístico. Já o estudo de [Sá et al. 2014], propõe um léxico que traba-lha através de um método semi-supervisionado ciente de contexto assumindo que existem diferentesclasses de palavras que possuem diferentes comportamentos no significado de uma frase. A produção[Gilbert 2014] propõe um léxico para análise de sentimentos baseado em regras de outros métodos quetrabalham sob o mesmo problema, sendo este considerado estado da arte nesta área de estudo.

2.2 Modelagem de tópicos

Modelagem de tópicos (MT) é um problema que envolve a descoberta de relações entre documentose tópicos, assim como a descoberta de relações entre termos que compõe os documentos e os tópicospermitindo assim a organização dos documentos de uma coleção em tópicos semânticos [Luiz et al.2018]. Atualmente, a modelagem de tópicos tem sido uma técnica amplamente utilizada para avali-ação automática de enormes quantidades de texto. De maneira geral pode-se descrever essa práticaatravés da sua capacidade de reduzir documentos e representa-los através de tópicos.

Nesse contexto, foram avaliadas produções que aplicam diferentes métodos de modelagem de tópicospara avaliação automática de grandes corpos de texto. O artigo de [Jankowski-Lorek and Zieliński2015] avalia a controvérsia de um dado texto através de uma comparação do mesmo com a enci-clopédia colaborativa wikipedia 6. Para isso o autor, utilizou-se de uma métrica de similaridade decosseno entre os vetores de Time frequency - inverse document frequence (TF-IDF) que representamos documentos, sendo possível aplicar este medida para tópicos semelhantes.

O trabalho de [Cheng et al. 2014] propõe uma nova abordagem para modelagem de tópicos e textoscurtos, BIT (Biterm topic model). Este algoritmo descobre tópicos modelando estes diretamente nageração de padrões de palavras que co-ocorrem nos textos, apresentando em pequenos textos tópicosmais coerentes. O artigo de [Zhao et al. 2011] é utilizada a MT para comparação de mídias tradicionais(jornais, revistas) com postagens do twitter, sendo utilizado no trabalho o algoritmo Twitter-LatentDirichlet Allocation (Twitter-LDA) com a justificativa de que o algoritmo original, Latent DirichletAllocation (LDA), não se adapta tão bem ao tamanho diminuto do corpo de um tweet. O trabalho

6pt.wikipedia.org

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

62

Page 63: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Lucas Felix et al.

[Luiz et al. 2018] se assemelha bastante com a proposta deste trabalho, sendo este um frameworkpara análise de reviews de aplicativos de celular.

3. METODOLOGIA

O presente trabalho constitui da avaliação automática de conteúdo de sites de reclamação online,bases governamentais e redes sociais, utilizando técnicas de mineração de dados. Devido a imensaquantidade de dados disponíveis nesses sites e bases, decidiu-se por restringir o número de plataformasde reclamação e a rede social utilizada, sendo utilizado o ReclameAqui, que hoje é uma das maiorespáginas do Brasil de reclamações online, como também a rede social Twitter, por sua facilidade decompartilhar e receber informações.

Também foram restringidas as empresas a serem estudadas, já que há uma grande variabilidade deempresas presentes nestas base, sendo inviável a análise de todas para este trabalho. Desta forma,foram selecionadas como alvo as quatro maiores companhias de telefonia do Brasil, sendo elas Oi, Tim,Vivo e Claro. A motivação para escolhermos tais empresas se dá pela grande quantidade de usuáriosque as mesmas possuem, sendo mais de 235 milhões de linhas móveis atualmente 7; a variedade deserviços oferecidos, como telefonia, internet móvel, TV a cabo, entre outros; e, além disso, o númerode reclamações presentes nessas bases contra companhias do setor de telefonia, sendo registradas mais28 mil reclamações fundamentadas pelo PROCON somente no ano de 2016. Logo, a metodologiaproposta para esta análise se divide em: coleta de dados, pré processamento, análise de sentimentose modelagem de tópicos.

A primeira parte do trabalho se dá pela coleta de dados para posterior análise. Foram coletadosdados da plataforma de reclamações online ReclameAqui, dados governamentais de reclamações fun-damentadas 8 e Twitter 9. Os dados governamentais estavam presentes em formato semi-estruturado,havendo dados de 2009 a 2016 em formato csv, podendo ressaltar que estes são abertos disponíveis em10. Um crawler foi implementado para realizar a busca e armazenamento das reclamações relacionadascom companhias telefônicas do ReclameAqui; já para a coleta dos tweets relacionados a empresas debuscas, foi utilizada a biblioteca tweepy 11. A busca foi realizada nos twitters oficiais das companhias,assim como no twitter oficial da Anatel.

Para a base de dados do PROCON, foi feita uma caracterização da base. A caracterização de umabase é definida como em uma descrição dos atributos de uma base, identificando padrões básicos, sema necessidade de aplicação de um algoritmo específico. Optou-se por este tipo de abordagem nestabase, visto que as reclamações presentes nela se mostravam previamente classificadas, sendo destaforma desnecessária a aplicação de um algoritmo de text mining para análise.

A segunda parte de nossa metodologia compreende o pré processamento dos dados. Esta etapa semostrou vital para a avaliação dos dados, e que estes fossem obtidos em um tempo hábil, já que foireduzida a dimensionalidade das frases a se tratar retirando algumas classes de palavras do texto.Para a fase de pré processamento, realizada em todas as bases, foi utilizada a biblioteca NLTK 12,que disponibiliza diversas funções para tratamento da base, como remoção de stop words, pontuação elematização das palavras presentes. Por se mostrar um modo mais informal para compartilhamento detexto, os tweets apresentavam diversos emotions e caracteres não alfa-numéricos, que foram retiradospor afetarem de maneira negativa as próximas etapas.

A terceira etapa do trabalho corresponde a análise sentimental dos textos. A base de tweets pode

7www.anatel.gov.br/dados/destaque-1/283-brasiltem-236-2-milhoes-de-linhas-moveis-em-janeiro-de-20188dados.gov,br9twitter.com10http://dados.gov.br/dataset/cadastro-nacional-de-reclamacoes-fundamentadas-procons-sindec111tweepy.org12nltk.org

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

63

Page 64: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Avaliação Automática de Conteúdo de Aplicações de Reclamação Online · 5

apresentar vários tipos de texto que se relacionam com os mais diversos tópicos, desde propagandas,elogios, até nosso alvo, que são as reclamações. Considera-se que essas possuem um sentimentonegativo agregado a elas, e assim, através da análise de sentimentos, é possível selecionar apenas ostweets que possuem uma "emoção"negativa, abrangendo a grande maioria das reclamações presentesno Twitter.

Para análise de sentimentos foi utilizado um método baseado em lexicons, utilizando a ferramentaVADER (Valence-Aware Dictionary for sEntiment Reasoning) [Gilbert 2014]. De maneira geral, oVADER realiza a junção de diversos léxicos de outras abordagens de análise de sentimentos, comoLIWC, ANEW, SentiWordNet, entre outros. O VADER é atualmente considerado o estado da arte,sendo possível destacar que este retorna além do sentimento relacionado a um corpo de texto, aintensidade relacionada aquela emoção.

A quarta e última parte do trabalho se dá pela modelagem de tópicos. Para realização desta partefoi realizada a remoção temporária de palavras que possuem sentimento. O objetivo desta remoção éa redução de ruídos que possam ser gerados durante a identificação dos tópicos, visando obter umaresposta mais precisa daquilo que a reclamação realmente representa.

Para a modelagem de tópicos foi utilizado o algoritmo LDA, sendo este amplamente utilizado naliteratura e bastante apropriado para descoberta de tópicos em corpos de texto. Este emprega umatécnica não supervisionada de aprendizado de máquina que identifica tópicos latentes de informação emvastas coleções de documentos [Hong and Davison 2010]. O algoritmo utiliza-se de uma abordagemde Bag Of Words (BOW), tratando cada documento como um vetor de palavras contadas. Cadadocumento é representado pela probabilidade de distribuição em um número de palavras.

4. RESULTADOS

4.1 Bases de dados

Em nossa avaliação experimental foram utilizadas três bases de dados coletadas com reclamaçõesdas quatro maiores operadoras de telefonia do Brasil. As bases são provenientes do PROCON, doTwitter e do ReclameAqui. Vale destacar que essas bases de dados se mostram bastante distintas,sendo representadas por tópicos de reclamações fundamentadas; textos curtos, que podem possuirreclamações ou não (exigindo assim um tratamento melhor da base); e por textos que possuem umavariação de tamanho (curto ou longo). A Tabela I apresenta a quantidade de instâncias de dadoscoletados em cada base de dados utilizada, assim como a quantidade de reclamações por empresa emcada base:

Base Quantidade de instâncias Claro Oi Tim VivoTwitter 67.916 21,6% 21.87% 26,34% 30,31%Reclame aqui 40.000 25% 25% 25% 25%Procon 187.925 26,60% 47,06% 15,27% 11,05%

Table I. Quantidade de dados coletados por base utilizada

4.2 Avaliação de reclamações: PROCON

A fim de caracterizar e entender de maneira melhor a base do PROCON, foram separadas as re-clamações únicas de todas as bases. Vale destacar que nesta base não foi necessária a aplicação damodelagem de tópicos, já que as reclamações já foram categorizadas previamente pelo PROCON.Desta forma, apenas com a caracterização da base, foi possível descobrir as maiores reivindicaçõescontra cada uma das empresas. A partir disso foram identificados 100 tópicos distintos, considerandotodas as bases do PROCON. Entretanto, a base não foi gerada com devidos cuidados, sendo encon-trado diversas reclamações que não condizem com serviços prestados por operadoras de telefonia, como

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

64

Page 65: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Lucas Felix et al.

por exemplo: "Água/Esgoto", "Óticas (Lentes/Óculos)", "Transporte Escolar", entre outros. Destaforma, se mostrou necessária a remoção dos diversos tópicos não associados a empresas de telefonia,sendo ao final identificados apenas 18 tópicos válidos ao contexto. Dos tópicos válidos, foi possívelidentificar que alguns tinham o mesmo significado no cenário de estudo, como por exemplo: "Telefone(Convencional, Celular, Interfone, Etc.)", "Telefone Celular", "Telefonia Fixa". A Tabela II apresentaos tópicos gerados.

Tópicos Claro Oi Tim VivoBanco de Dados (SPC-SERASA-ETC) 32.87 % 37.33 % 19.82 % 9.98 %Cartão de Crédito 20.85 % 54.4 % 17.46 % 7.29 %Empresa de cobrança 22.77 % 57.28 % 12.68 % 7.28 %Financeira 33.8 % 42.7 % 13.0 % 10.5 %Internet 38.94 % 37.97 % 9.76 % 13.34 %Microcomputador / Produtos de Informática 38.92 % 15.95 % 21.69 % 23.44 %Outros Contratos 29.36 % 43.96 % 15.7 % 10.98 %Serviços Telefônicos Especiais (Disque 900, Erótico, Etc) 21.47 % 68.05 % 0.0 % 10.48 %Telemarketing 58.65 % 28.85 % 0.0 % 12.5 %TV por assinatura 63.08 % 34.1 % 0.2 % 2.62 %Telefonia Geral (Fixa, Móvel) 22.71 % 49.23 % 16.78 % 11.28 %Telefonia Comunitária (PABX, DDR, Etc.) 20.53 % 64.26 % 5.64 % 9.56 %

Table II. Acima estão descritos os 12 tópicos mais importantes da base de dados do PROCON e número de reclamaçõesrelacionada ao tópico em cada uma das empresas

Ao analisarmos os tópicos e a quantidade com que eles ocorrem (Tabela II), vemos que grande mai-oria das reclamações estão relacionadas com os tópicos "Telefonia Geral (Fixa, Móvel)"e "Internet".Entretanto, percebe-se também que os tópicos se mostram superficiais e com pouquíssimas informa-ções, e que a descrição do problema se mostra resumida e não condizente com as categorias descritas.Tendo em vista esses aspectos levantados, pode-se concluir que essa base se mostra desprovida de in-formações substanciais que possam auxiliar empresas a resolver problemas, uma vez que ela apresentaas categorias de maior reclamação, mas não detalhes suficiente para tratá-los.

4.3 Avaliação de reclamações: ReclameAqui

Na base do ReclameAqui foi realizado o pré-processamento e utilizado o algoritmo LDA de modelagemde tópicos, visando a identificação de tópicos latentes que possam sumarizar, de maneira fidedigna,tudo que está presente nos dados. Vale ressaltar que as reclamações presentes nessa base se caracteri-zam pela grande variação do tamanho dos textos que a compõe, dispondo de passagens muito grandes,até sentenças com poucas palavras. Após a aplicação da MT, foram identificados os seguintes tópicos:(1) Internet; (2) Sinal; (3) Portabilidade; (4) Atendente; (5) Fatura; (6) Técnico; (7) Ligações; e (8)Pagamento. Através dos tópicos, pode-se observar que foi possível captar os principais problemas queocorrem em companhias telefônicas, e de maneira oposta a base de dados vinda do PROCON, esta basepode oferecer informações substanciais que auxiliem empresas no tratamento de problemas específico.

4.4 Avaliação de reclamações: Twitter

A base com dados provenientes do Twitter foi criada por meio da análise de tweets direcionados asgrandes operadoras de telefonia e a ANATEL. Como o Twitter é uma rede social, ele permite queseus usuários postem diversos tipos de textos. Tal liberdade, permite que o usuário expresse, de formamais fiel, o seu real sentimento, contudo existem desvantagens como a não-padronização dos textosescritos, sendo utilizadas figuras de linguagens (gírias), abreviações, emotions e até mesmo palavraserradas gramaticalmente.

Todos estes motivos apresentados, e o fato de estarmos analisando apenas reclamações, interferem deforma negativa na modelagem dos tópicos de redes socais em geral. Desta forma, para um melhor re-sultado dos tópicos gerados em bases de redes sociais, foram feitos alguns tipos de "pré-processamentos

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

65

Page 66: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Avaliação Automática de Conteúdo de Aplicações de Reclamação Online · 7

especiais", como a retirada de jargões utilizados no Twitter, tais como, a expressão "RT"(retweet),expressões que começavam com "#"(hashtag), entre outros. O nosso foco neste trabalho foi apenas aanálise de reclamação, portanto considera-se que há um valor intrínseco de negatividade associado asreclamações postadas. Desse modo, a análise de sentimentos auxilia na recuperação apenas de tweetscom um sentimento negativo associado, representando assim uma reclamação.

Para análise de sentimentos neste trabalho foi utilizada a ferramenta VADER, aplicada como umfiltro na recuperação de textos com sentimentos negativos apenas. Vale destacar, que dos aproxima-damente 68 mil tweets coletados, apenas cerca de 24 mil possuíam o sentimento negativo agregado aeles, isto é, em torno de 35% do total. Entretanto, devido ao pequeno tamanho dos corpos dos do-cumentos presentes no Twitter, máximo de 280 caracteres, a modelagem de tópicos seria prejudicadapela pequena quantidade de documentos, caso fosse feita a análise por operadora. Em virtude destesfatos, foi aplicada a modelagem de tópicos sobre todos os documentos, sem distinção de operadora,para que pudéssemos aumentar a coerência dos tópicos gerados, e termos uma visão geral das reclama-ções feitas sobre todas as operadoras. Os tópicos relacionados com reclamações de operadoras sobrea base de dados foram: (1) Chip; (2) Fibra; (3) Técnico; (4) Internet; (5) Fatura; (6) Minutos; (7)Atendimentos; e (8) Ligação.

4.5 Discussão dos Resultados

Foi realizada uma comparação dos principais tópicos extraídos do ReclameAqui relacionados a cadauma das empresas de telefonia separadamente, utilizando a correlação de Spearmam. Conforme po-demos observar na Tabela III, algumas empresas possuem as mesmas reclamações que outras, devidoa grande correlação entre essas empresas. Este caso ocorre em 3 das grandes operadoras que possuemuma correlação maior de 0.3 entre elas, o que gera um respaldo ao consumidor caso ele queira mudarde operadora, mostrando que o mesmo não possui muitas opções, já que as adversidades que ocor-rem em uma companhia também ocorrem em outra. O que diferencia é a intensidade em que essasadversidades ocorrem.

Operadoras Claro Oi Tim VivoClaro 1 -0.37 0.35 0.40Oi -0.37 1 0.16 0.28Tim 0.35 0.16 1 0.35Vivo 0.40 0.28 0.35 1

Table III. Correlação entre as bases

Com relação aos tópicos gerados, podemos observar que os tópicos extraídos automaticamenteutilizando as bases de dados do ReclameAqui e do do Twitter são bem mais descritivos e relacionadosa empresas de telefonia, quando comparamos com a taxonomia do PROCON. Por outro lado, apesarda semelhança entre os tópicos extraídos do ReclameAqui e do Twitter, o custo associado a base doTwitter é bem maior, tanto do ponto de vista computacional, na execução de diversas estratégias depré-processamento, quanto do de recursos humanos, no tratamento de diversas exceções. Assim, apartir de bases de dados de aplicações de reclamação online, podemos extrair informações tão úteisquanto de redes sociais, mas utilizando menos recurso. Além disso, essas informação podem e devemser utilizadas em complemento àquelas apresentadas pelo PROCON.

5. CONCLUSÕES E TRABALHOS FUTUROS

Nesse trabalho propomos uma metodologia para avaliação de comentários em aplicações de reclamaçãoonline. Combinando estratégias de preprocessamento de texto, análise de sentimento e modelagem detópicos, o objetivo é extrair informações úteis, ricas em detalhes, que possam contribuir para empresasidentificarem de forma mais consistente e rápida problemas em seus produtos e/ou serviços. Avaliamos

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

66

Page 67: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Lucas Felix et al.

nossa metodologia considerando uma coleção de comentários relacionados às quatro maiores empresasde telefonia do Brasil (TIM, OI, CLARO e VIVO) extraídos automaticamente a partir da aplicaçãoReclameAqui. Comparamos os temas de reclamação identificados por nossa metodologia com as re-clamações cadastradas no PROCON e pudemos constatar que os tópicos extraídos automaticamentepela metodologia a partir dos comentários dos usuários são mais consistentes e mais refinados que oscadastrados no PROCON. Além disso, aplicamos também nossa metodologia em uma coleção de twe-ets relacionados as mesmas empresas e observamos que os tópicos identificados eram muito próximosdaqueles relacionados a coleção extraída do ReclameAqui, porém foram necessários mais etapas depré-processamento de texto um vez que coleções oriundas de redes sociais são carregadas de ruídos.Nossa conclusão final é que os comentários de aplicações de reclamação online se apresentam como amelhor alternativa para se identificar e extrair problemas relacionados a produtos e/ou serviços.

Como trabalho futuro, nosso objetivo é a construção de um framework que possa fornecer a empresasinformações mais detalhadas sobre suas reclamações, criando um modo atrativo de visualização quepermita a geração intuitiva dos dados coletados. Também pretendemos empregar diferentes algoritmosde modelagem de tópicos, como: Non-Negative Matrix Factorization, Singular Value Decomposition,BTM, entre outros. Espera-se aplicar exclusivamente uma técnica de modelagem de tópicos que con-siga ter uma alta coerência em pequenos corpos de texto. Por último, pretendemos desenvolver umChatbot, que após treinado, possa responder automaticamente a reclamações, dando ao consumidorum respaldo em relação a sua reivindicação.

Agradecimentos

Esse trabalho foi parcialmente financiado por CNPq, CAPES, FINEP, Fapemig, MASWeb e INWEB.

REFERENCES

Almeida, T. G., Souza, B. A., Menezes, A. A., Figueiredo, C., and Nakamura, E. F. Sentiment analysis ofportuguese comments from foursquare. In Proceedings of the 22nd Brazilian Symposium on Multimedia and the Web.ACM, pp. 355–358, 2016.

Auden, W. H. The Complete Works of W. H. Auden: Prose. Vol. 2. Princeton University Press, 2002.Cheng, X., Yan, X., Lan, Y., and Guo, J. Btm: Topic modeling over short texts. IEEE Transactions on Knowledgeand Data Engineering 26 (12): 2928–2941, 2014.

Gilbert, C. H. E. Vader: A parsimonious rule-based model for sentiment analysis of social media text. In EighthInternational Conference on Weblogs and Social Media (ICWSM-14). Available at (20/04/16) http://comp. social.gatech. edu/papers/icwsm14. vader. hutto. pdf, 2014.

Hong, L. and Davison, B. D. Empirical study of topic modeling in twitter. In Proceedings of the first workshop onsocial media analytics. ACM, pp. 80–88, 2010.

Jankowski-Lorek, M. and Zieliński, K. Document controversy classification based on the wikipedia categorystructure. Computer Science vol. 16, 2015.

Luiz, W., Viegas, F., Alencar, R., Mourão, F., Salles, T., Carvalho, D., Gonçalves, M. A., and Rocha,L. A feature-oriented sentiment rating for mobile app reviews. In Proceedings of the 2018 World Wide Web Confe-rence. WWW ’18. International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva,Switzerland, pp. 1909–1918, 2018.

Pak, A. and Paroubek, P. Twitter as a corpus for sentiment analysis and opinion mining. In LREc. Vol. 10, 2010.Rocha, L., Mourão, F., Silveira, T., Chaves, R., Sa, G., Teixeira, F., Vieira, R., and Ferreira, R. Saci:

Sentiment analysis by collective inspection on social media content. Web Semantics: Science, Services and Agentson the World Wide Web vol. 34, pp. 27–39, 2015.

Sá, G., Silveira, T., Chaves, R., Teixeira, F., Mourão, F., and Rocha, L. Legi: Context-aware lexicon consoli-dation by graph inspection. In Proceedings of the 29th Annual ACM Symposium on Applied Computing. ACM, pp.302–307, 2014.

Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E.-P., Yan, H., and Li, X. Comparing twitter and traditionalmedia using topic models. In European Conference on Information Retrieval. Springer, pp. 338–349, 2011.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

67

Page 68: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificação de InteraçõesSociais Dinâmicas a partir de seus Atributos

Thiago H. P. SIlva, Alberto H. F. Laender

Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais

Belo Horizonte, Brazilthps,[email protected]

Abstract. Network analyses provide important information for understanding how a network evolves. In this context,some studies focus on classifying nodes and their relationships based on topological properties and centrality metrics.Instead, we discuss the importance of applying the notion of social capital to the classification process. Here, we proposea new approach to classify nodes and edges in temporal multigraphs based on the persistence of the edges’ attributes.Overall, our results show that the social role of the nodes and the strength of their ties are statistically well-definedwhen compared with several traditional graph metrics.

Categories and Subject Descriptors: [Information systems applications]: Collaborative and social computingsystems and tools

Keywords: Edge Classification, Node Classification, Social Networks

1. INTRODUÇÃO

Como classificar as interações dinâmicas em uma rede social? Diversos trabalhos têm investigadopropriedades e padrões topológicos de redes sociais com a finalidade de definir o comportamento deseus atores, bem como mensurar a força de seus relacionamentos [Barabási 2009; Easley and Kleinberg2010; Leão et al. 2018; Watts 2004]. Explorar comportamentos e dinâmicas dos atores em uma redesocial é essencial para um bom entendimento de sua estrutura, o que é geralmente caracterizado pormeio de grafos que capturam os aspectos sociais envolvidos [Easley and Kleinberg 2010].

Neste contexto, estudos têm explorado a noção de capital social dada pelo posicionamento estraté-gico de um determinado ator em uma estrutura social [Burt 2005; Granovetter 1973]. Por exemplo,Granovetter [1973] define o conceito de weak ties como sendo aquelas relações importantes que tor-nam uma rede mais coesa através da criação de pontes. De forma similar, Freire & Figueiredo [2011]exploraram tal conceito com o objetivo de mensurar a importância de grupos e indivíduos de acordocom a capacidade de conectar diferentes partes de uma rede.

Este artigo contribui para essa discussão ao mapear tais conceitos sociais nas relações entre nodospara relações do tipo nodo-atributo. Especificamente, aplicamos os conceitos de closure e brokerageque definem, respectivamente, a habilidade de agregar padrões similares e a capacidade de criar pontescom padrões diversificados [Burt 2005]. Sendo assim, nosso estudo objetiva classificar o papel socialdos nodos, bem como de suas interações dinâmicas.

Em resumo, nossas contribuições são: (i) definição de classes sociais para classificar nós e suas

Work supported by project MASWeb (FAPEMIG/PRONEX grant APQ-01400-14) and by the authors’ individual grantsfrom CNPq and CAPES.Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

68

Page 69: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · T. H. P. Silva and A. H. F. Laender

interações dinâmicas, bem como capturar o significado social dos relacionamentos; (ii) proposta deuma nova estratégia para classificar nós e arestas baseando-se nos relacionamentos entre nós e seusatributos; e (iii) caracterização das diferenças dos relacionamentos sociais em distintas redes sociaisacadêmicas e sua avaliação através de métricas de rede.

O restante deste artigo está organizado da seguinte forma. A Seção 2 apresenta uma breve revisãode trabalhos relacionados, enquanto a Seção 3 apresenta a modelagem adotada para representação dasredes sociais consideradas. Em seguida, a Seção 4 apresenta a metodologia adotada para avaliaçãoda abordagem proposta e a Seção 5 analisa os resultados dos experimentos realizados nessa avaliação.Finalmente, a Seção 6 apresenta as nossas conclusões e algumas considerações sobre trabalhos futuros.

2. TRABALHOS RELACIONADOS

Recentemente, vários trabalhos têm estudado as características topológicas das redes sociais com ointuito de melhor entender as relações sociais envolvidas [Easley and Kleinberg 2010; Leão et al.2018; Newman 2004]. Ao classificarem as interações sociais a partir de métricas de topologia de rede,Leão et al. [2018] analisam as interações sociais expressas pela estrutura topológica com o objetivode filtrar ruídos devido às relações consideradas aleatórias. Já Brandão & Moro [2017] investigam aforça dos relacionamentos sociais a partir de métricas topológicas em redes sociais acadêmicas.

Em outro contexto, Silva et al. [2015] exploram conceitos de capital social para mensurar o graude influência de indivíduos através de vínculos sociais com suas comunidades. Tendo como baseo compartilhamento de informação entre os nodos, Adamic & Adar [2003] mensuram a força dosrelacionamentos a partir da análise de similaridade entre as mensagens trocadas entre indivíduos,enquanto Gilbert & Karahalios [2009] consideram também os aspectos temporais das interações.

O trabalho mais próximo do nosso é o algoritmo RECAST (Random rElationship ClASsifier sTra-tegy) que filtra relações aleatórias e designa classes sociais (amizade, conhecido, ponte e aleatório)para os relacionamentos em uma rede dinâmica [Vaz de Melo et al. 2015]. Similarmente, o modeloproposto analisa aspectos temporais e a regularidade das relações ao longo do tempo. Em contraste, aabordagem proposta neste artigo se diferencia ao classificar tanto nodos quanto múltiplas relações, de-finindo classes mais abrangentes vinculadas a conceitos sociais. Embora alguns trabalhos relacionadostendem a caracterizar redes com o intuito de evidenciar e discutir suas definições de forma empírica,a metodologia experimental deste estudo é expandida ao também correlacionar a classificação comalgoritmos amplamente usados na literatura.

3. ABORDAGEM PROPOSTA

Nesta seção introduzimos o modelo de grafo proposto para possibilitar a mineração de múltiplasrelações ao longo do tempo. Em seguida, apresentamos o processo de extração de atributos relevantes,bem como os algoritmos de classificação de arestas e nodos.

Grafo Temporal com Múltiplas Arestas. Definimos um multigrafo temporal como um conjuntode nodos e arestas formados em intervalos discretos k, adaptando os modelos empregados por Vaz deMelo et al. [2015] e Shah et al. [2016]. Formalmente, esse tipo de grafo é definido por Gk = (Vk, Ek,m),ondem: Ek → u, v|u, v ∈ Vk é a função que possibilita a existência de múltiplas arestas ao atribuircada aresta e ∈ Ek a um par de nodos. Neste contexto, Gt =

⋃t1 Gi representa o grafo temporal

agregado que compreende o conjunto de todos os nodos e suas interações dentro do intervalo de tempo[1,t]. Assim, dado o conjunto de atributos A, a função Φ: e ∈ ⋃k

i=1 Ei → a realiza o mapeamento decada aresta para um subconjunto de atributos. Note que cada subconjunto a ⊆ A tem o potencial,em uma aplicação real, de ser associado a diversos vértices em diferentes faixas temporais, de modoque é possível transformar o grafo Gk no grafo de atributos Hk = (Vk ∪A, E

′k,m

′), onde a função m′:E ′k → u, i|u ∈ Vk ∧ i ∈ A. Assim, Hk é uma abstração que possibilita transformar os atributos de

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

69

Page 70: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificação de Interações Sociais Dinâmicas a partir de seus Atributos · 3

Algorithm 1 Extração de Atributos RelevantesRequire: H, t, kEnsure: Γk(u), ∀u ∈ Vt

1: for all u ∈ Vt do2: Atemp ← λ3: for all k ∈ [1, t] do4: Γk(u)← λ

5: Atemp ← Atemp ∪ a|(u, a) ∈ E′k6: vector ← λ7: for all i ∈ Atemp do8: vector.add(persk(u, i))

9: IQR← p(vector, 75)− p(vector, 25)10: for all i ∈ Atemp do11: if persk(u, i) > p(vector, 75) + IQR ∗ 1.5 then12: Γk(u)← Γk(u) ∪ i

Algorithm 2 Classificação das ArestasRequire: Gt, t, k, Φ e ΓEnsure: ∆(e), ∀e ∈ ⋃t

i=1 Ei1: for all k ∈ [1, t] do2: for all e ∈ Ek do3: (u, v)← getNodes(e)4: if |Γk(u)| 6= 0 then5: if |Γk(u) ∩ Φ(e)| 6= 0

6: then ustate ← closure

7: else ustate ← brokerage8: else if

∑kj=1 1()[u∈Vj ]

> 1 then9: ustate ← no-info10: else ustate ← sporadic11: if |Γk(v)| 6= 0 then12: if |Γk(v) ∩ Φ(e)| 6= 0 then13: vstate ← closure

14: else vstate ← brokerage15: else if

∑kj=1 1()[v∈Vj ]

> 1 then16: vstate ← no-info17: else vstate ← sporadic18: ∆(e)← δ(ustate, vstate)

cada aresta em um nodo adicional, permitindo, desta forma, que um nodo original possa ser ligado aesse novo nodo.

Extração de Atributos Relevantes. O próximo passo consiste em extrair os atributos relevantesdefinidos pelo próprio nodo ao considerar o seu histórico de interações. Para isso, usamos o conceitode edge persistence adaptado para o grafo de atributos como perst(u, a) = 1

t

∑tk=1 1(), onde a função

indicadora retorna o valor 1 se a aresta (u, a) existe em E ′k, ou 0 caso contrário. É importante ressaltar

que a operação é realizada sobre cada grafo de atributos em intervalos discretos (H1, ...,Hk) enão sobre o grafo agregado. O Algoritmo 1 detalha o processo de extração de atributos relevantes,recebendo como entrada o grafo agregado H (H1, ...,Ht), o tempo t e suas subdivisões destacadaspor k. Em resumo, o algoritmo inspeciona todos os atributos através da métrica edge persistence e osavalia conforme suas relevâncias por meio de percentis (função p nas linhas 9 e 11). Assim, ele constróio conjunto Γk(u) de atributos estatisticamente relevantes para cada nodo u na faixa temporal [1, k].Como verificamos que os valores da métrica edge persistence não seguem uma distribuição normal,então optamos pela seleção de atributos relevantes com base na definição de detecção de outliers dadapelo interquartile range (IQR)1. No pior caso, quando estão presentes todas as arestas em todos osinstantes com todos os atributos, a complexidade do Algoritmo 1 é O(|V | tk (|E|+ |A|)).Classificação das Arestas. As arestas múltiplas são classificadas de acordo com o grau de relevânciade seus atributos dado pelo passado de cada um dos nodos de cada interação. Definimos como estadosde interação dinâmica de cada nó o conjunto closure, brokerage, no-info, sporadic, cujos valoressão atribuídos a cada instante em que uma aresta é inspecionada. Um nodo possui estado do tipoclosure quando há um vínculo temporal forte com os atributos de sua competência que estão sendocompartilhados no exato momento da interação. Quando há atributos relevantes no histórico que nãoestão sendo empregados na aresta inspecionada, então atribui-se o estado brokerage. Caso não hajaatributos relevantes e o nó possua interações em mais de um instante, então atribui-se o estado no-info.Por fim, considera-se o nó como sporadic quando há apenas um registro dele no grafo temporal. OAlgoritmo 2 descreve o processo de classificação das arestas de acordo com os históricos de cada umdos nodos. Uma vez definidos os estados dinamicamente atribuídos em diferentes faixas temporais,as arestas são definidas de acordo com os estados dos seus nodos (linha 18). Quando todas as arestasestão presentes em todos os instantes, a complexidade do Algoritmo 2 é O( tk |E|). A Tabela I descreve

1Outra abordagem seria o uso do z-score modificado para a mesma finalidade. Como os resultados experimentais foramsemelhantes para o IQR e para o z-score modificado, optamos pelo uso do IQR devido à possibilidade de se aplicarrestrições através dos percentis.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

70

Page 71: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · T. H. P. Silva and A. H. F. Laender

Table I: Mapeamento dos estados dinâmicos dos nodos para determinação da classe da aresta.

δ(closure, closure) → very strongδ(closure, brokerage) → strong bridgeδ(closure, no-info) → strongδ(closure, sporadic) → strongδ(brokerage, brokerage) → regular bridgeδ(brokerage, no-info) → weak bridgeδ(brokerage, sporadic) → weak bridgeδ(no-info, no-info) → ordinaryδ(no-info, sporadic) → ordinaryδ(sporadic, sporadic) → sporadic

o mapeamento δ de todos os pares do conjunto de estados para determinação das classes das arestas.São definidas sete classes: very strong, strong, strong bridge, regular bridge, weak bridge, ordinary esporadic. Em resumo, têm-se papéis sociais e suas intensidades que passam a indicar (i) a presençade atributos relevantes nas interações (very strong, strong bridge e strong), (ii) arestas com potencialde transferência de atributos relevantes (todas indicados como bridge) e (iii) arestas sem nenhumainformação relevante ou corriqueiras (ordinary e sporadic).

Classificação dos Nodos. Para classificação dos nodos, consideramos três classes específicas: hub,regular e sporadic. Por hub, entende-se um nodo que tem autoridade para difundir atributos rele-vantes. Já regular indica que o nodo não possui um domínio específico. Por fim, sporadic consideraa existência de apenas um registro para o nodo em uma faixa temporal. A função de classificação dosnodos (Ω), que pode ser obtida em O(1) pelo Algoritmo 2 por meio de flags, é dada por:

Ω(u) =

hub, se |Γt(u)| 6= 0

regular, senão se∑tk=1 1()[u∈Vk] > 1

sporadic, demais casos.

4. METODOLOGIA

Como avaliar a classificação de interações sociais em uma rede social? Esse processo é bastantedesafiador devido à inexistência de redes reais que definam claramente os papéis sociais de seus nodose arestas. Alternativamente, a metodologia experimental para avaliar esse tipo de classificação pode serrealizada por meio da caracterização de redes sociais com diferentes propriedades. Outra alternativaconsiste em comparar a classificação com algoritmos para grafos bem conhecidos.

Dados Utilizados. Para avaliação da abordagem proposta neste artigo, o grafo correspondente foiconstruído a partir da rede social acadêmica referente a um conjunto de 24 comunidades científicas2derivadas de alguns dos principais Grupos de Interesse Especial da ACM3, cujos dados foram coletadasda DBLP4 em Junho de 2018. A Tabela II lista as comunidades consideradas e algumas de suasestatísticas. Em resumo, tem-se subredes de características bem distintas que possibilitam contrastaro efeito da abordagem de classificação proposta sob cada uma delas.

A construção do multigrafo temporal leva em consideração o ano k em que cada conferência foirealizada. Assim, para cada artigo publicado no ano k, todos os pares de coautores formam arestas(u, v) de um grafo Gk. Note que este modelo possibilita a existência de múltiplas arestas entre osseus nodos no instante k, conforme destacado na Seção 3. O conjunto de atributos compreende dadosextraídos do título dos artigos após passarem pelo processo de remoção de palavras sem significado(stop words) e pela redução das palavras flexionadas para as suas respectivas raízes (stemming).Cada palavra do título filtrado torna-se parte do conjunto a e, assim, há uma relação de cada um doscoautores u com a no grafo de atributos Hk.

2Este conjunto de conferências foi estudado por Alves et al. [2013] e um subconjunto dele por Silva et al. [2015].3Association for Computing Machinery: http://www.acm.org/sigs4DBLP: https://dblp.uni-trier.de/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

71

Page 72: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificação de Interações Sociais Dinâmicas a partir de seus Atributos · 5

Table II: Estatísticas das comunidades acadêmicas.

Comunidade #nodos #arestas #arestastemporais #triângulos Transit. CC Densidade

SAC 10804 18066 19712 17734 65,4% 0,73 3,10E-04DAC 10272 27800 31972 59736 49,1% 0,70 5,27E-04CHI 8959 27587 32154 43749 35,1% 0,77 6,87E-04CIKM 7342 16347 18822 18101 43,6% 0,75 6,07E-04MMSys 7124 18728 22783 27810 37,4% 0,77 7,38E-04SIGCSE 6247 15252 18232 23837 37,5% 0,66 7,82E-04KDD 4998 13614 15150 27806 49,3% 0,77 1,09E-03SIGIR 4905 11247 13595 13172 35,9% 0,69 9,35E-04SIGMOD 4869 16042 18090 33527 45,9% 0,74 1,35E-03CCS 2854 6851 7612 9009 49,8% 0,77 1,68E-03SIGCOMM 2844 8653 9715 17469 43,4% 0,77 2,14E-03ICSE 2829 4977 5354 5441 61,8% 0,67 1,24E-03SIGUCCS 2517 2349 2734 2933 72,2% 0,32 7,42E-04STOC 2500 5568 6608 4393 23,0% 0,49 1,78E-03SIGMETRICS 2440 4500 4906 4377 49,9% 0,67 1,51E-03SIGGRAPH 2439 4568 4935 5364 48,7% 0,64 1,54E-03ISCA 2257 8748 9231 83390 90,6% 0,71 3,44E-03MobiCom 2074 5056 5732 7025 58,0% 0,82 2,35E-03PODC 1972 3573 4353 2776 29,5% 0,61 1,84E-03POPL 1858 3129 3495 2896 45,9% 0,55 1,81E-03SIGDOC 1570 1847 2048 1580 60,6% 0,53 1,50E-03MICRO 1321 2907 3108 4651 71,0% 0,72 3,33E-03ISSAC 1253 1705 2154 1126 33,8% 0,45 2,17E-03HSCC 361 546 572 491 56,7% 0,60 8,40E-03Média 4025,4 9569,2 10961,1 17433,0 49,8% 0,66 1,77E-03Mediana 2673 6209,5 7110 8017,0 48,9% 0,70 1,51E-03Desvio Padrão 2959,3 7929,9 9224,4 20620,5 15,4% 0,12 1,63E-03Rede Completa 79684 221541 263067 417042 38,2% 0,67 6,98E-05

Propriedades das Redes. Para avaliar a classificação proposta, utilizamos três métricas de centra-lidade (degree, closeness e betweenness) para determinar quais classes tendem a ter papéis mais bemdefinidos em uma estrutura social, a métrica clustering coefficient para mensurar o grau de coesão decada classe e a métrica PageRank para avaliar a importância dos nodos [Easley and Kleinberg 2010].

5. EXPERIMENTOS

Para avaliação da nossa abordagem, dividimos os experimentos em três etapas: (i) caracterizaçãoe discussão da classificação para diferentes comunidades; (ii) comparação das classes atribuídas deacordo com métricas de topologia de rede; e (iii) análise de sensibilidade da classificação proposta.

5.1 Caracterização

A Tabela III apresenta a distribuição das classes de nodos e arestas múltiplas para as 24 diferentescomunidades. A classificação dos nodos evidencia uma presença expressiva de instâncias da classesporadic (média de 57,8%). De fato, uma rede social acadêmica possui uma forte presença de nodosnovos como, por exemplo, estudantes ou colaboradores em relações interdisciplinares. No entanto,destaca-se também uma forte presença de instâncias da classe hub com percentagens acima de 30% paracomunidades mais estabelecidas como CIKM, KDD, SIGIR, SIGMOD, STOC, SIGMETRICS, ISCA,PODC, POPL e MICRO. Ou seja, boa parte dos membros dessas comunidades tende a manter umacoerência nos tópicos de pesquisa ao longo de suas trajetórias acadêmicas. Em contraste, comunidadescomo SAC, SIGUCCS e SIGDOC possuem percentuais bem baixos para a classe hub, em razão dapouca sinergia entre os seus membros. Em geral, tais percentuais podem ser vistos como evidênciasdas características de cada comunidade. Por exemplo, a comunidade STOC apresenta a tendência deseus membros terem competência em tópicos bem específicos da área de Teoria da Computação. Emcontrapartida, SAC é uma comunidade com foco em computação aplicada englobando um leque bemdiverso de temas.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

72

Page 73: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · T. H. P. Silva and A. H. F. Laender

Table III: Composição das classificações de nodos e arestas.

Classificação das Arestas MúltiplasClassificação dos Nodos very

strong strong bridge ordinary sporadicComunidade hub regular sporadic strong regular weakSAC 17,6% 12,5% 69,9% 5,4% 16,4% 3,4% 4,4% 17,4% 17,9% 35,0%DAC 21,2% 12,0% 66,8% 9,9% 20,9% 9,2% 6,6% 17,8% 11,0% 24,6%CHI 21,8% 13,0% 65,2% 10,7% 21,7% 10,1% 8,1% 19,6% 11,9% 18,0%CIKM 35,7% 17,4% 46,9% 13,6% 22,1% 12,5% 9,0% 18,1% 11,9% 12,7%MMSys 26,2% 14,1% 59,6% 12,6% 11,6% 19,3% 7,9% 18,4% 12,0% 18,3%SIGCSE 24,1% 12,6% 63,3% 13,9% 22,3% 11,5% 7,3% 17,1% 9,0% 19,0%KDD 32,3% 16,5% 51,2% 11,3% 21,4% 11,4% 7,5% 18,4% 11,8% 18,1%SIGIR 37,3% 14,4% 48,3% 18,2% 20,8% 15,6% 9,7% 17,2% 7,7% 10,9%SIGMOD 32,2% 17,6% 50,2% 10,8% 21,5% 12,2% 8,2% 18,5% 12,6% 16,3%CCS 29,4% 18,8% 51,8% 7,4% 18,9% 7,7% 8,9% 25,1% 16,8% 15,2%SIGCOMM 29,6% 18,5% 51,9% 10,2% 21,1% 11,1% 7,2% 20,3% 14,5% 15,6%ICSE 22,8% 14,7% 62,5% 5,5% 17,2% 5,9% 6,4% 22,0% 17,5% 25,5%SIGUCCS 12,4% 13,1% 74,5% 5,8% 13,6% 3,0% 6,5% 15,7% 21,0% 34,4%STOC 41,3% 19,5% 39,2% 17,7% 17,3% 22,6% 14,5% 16,0% 7,6% 4,4%SIGMETRICS 35,0% 18,4% 46,6% 10,9% 21,0% 11,3% 8,6% 22,6% 13,5% 12,1%SIGGRAPH 17,2% 12,8% 70,1% 5,5% 17,4% 6,9% 5,6% 20,5% 14,5% 29,6%ISCA 31,4% 16,5% 52,1% 6,5% 17,3% 7,3% 5,6% 16,9% 15,9% 30,5%MobiCom 28,5% 16,2% 55,3% 9,4% 20,6% 7,8% 6,7% 18,9% 14,1% 22,5%PODC 42,1% 17,4% 40,5% 14,9% 19,3% 18,7% 12,7% 19,7% 7,6% 7,1%POPL 30,2% 21,1% 48,7% 9,4% 19,3% 8,1% 9,2% 25,9% 18,6% 9,6%SIGDOC 14,6% 12,5% 72,9% 5,5% 15,9% 4,5% 5,1% 16,8% 14,9% 37,3%MICRO 36,2% 16,2% 47,6% 9,6% 20,3% 10,5% 8,4% 19,5% 14,4% 17,3%ISSAC 25,7% 15,1% 59,2% 16,6% 22,5% 13,1% 8,3% 16,3% 11,2% 11,9%HSCC 22,4% 10,2% 67,3% 7,3% 24,3% 8,2% 4,2% 14,3% 12,8% 28,8%Média 27,0% 15,2% 57,8% 9,9% 19,5% 9,7% 7,3% 18,3% 13,7% 21,5%Mediana 27,1% 14,9% 57,2% 9,7% 20,7% 9,6% 7,3% 17,9% 13,8% 18,5%Desvio Padrão 8,5% 2,8% 10,8% 4,2% 2,8% 4,8% 2,8% 2,8% 3,8% 10,8%Rede Completa 18,8% 12,2% 69,0% 11,2% 20,3% 10,7% 7,8% 18,6% 12,4% 19,1%

A segunda parte da tabela destaca que, quando se desconsidera as classes ordinary e sporadic, amaioria dos relacionamentos “carrega” algum tipo de informação (média de 64,4%), demonstrando umforte vínculo social nodo-atributo. Por outro lado, em média, 13,7% das relações não são represen-tativas e 21,5% são corriqueiras. Novamente, há comunidades específicas com comportamento únicocomo, por exemplo, SIGIR com a maior presença de arestas da classe very strong (18,2% das múltiplasarestas). As comunidades SIGUCCS, SIGDOC e CCS também se destacam por terem um númeroexpressivo de arestas corriqueiras, reforçando a existência de um fraco vínculo entre seus membros.Outro destaque é a composição das arestas do tipo regular bridge que são as menos representativas,exceto nas comunidades STOC e PODC. A rede completa (última linha) segue a tendência apontadapelas médias de todas as comunidades.

5.2 Classificação versus Propriedades de Redes

Antes de apresentarmos nossos resultados, destacamos que as distribuições dos valores não passaramnos testes de normalidade. Desta forma, avaliamos a distinção estatística5 entre as classes par a parpor meio do teste não paramétrico Mann-Whitney-Wilcoxon e entre todas as classes por meio de suaextensão dada pelo teste de Kruskal-Wallis, conforme descritos por Hollander et al. [2013].

Classificação dos Nodos (Figura 1(a-e)). A Figura 1(a) evidencia uma característica interessanteda classe sporadic que tende a ser muito dependente de sua vizinhança, enquanto nodos dos tiposregular e hub tendem a diversificar seus relacionamentos. Na Figura 1(b), confirma-se que quantomaior é o grau de um nodo, maior a sua tendência de ser um hub. Os demais gráficos (Figura 1(c-e))demonstram uma correlação forte entre a classificação e as propriedades de rede das classes. Nodosda classe hub tendem a ser mais centrais e próximos aos demais (Figura 1(c)), têm maior importânciana rede (Figura 1(d)) e possuem maior fluxo de informação (Figura 1(e)). Todas as distribuições sãoestatisticamente diferentes de acordo com os testes de Kruskal-Wallis e Mann-Whitney-Wilcoxon.

5Todos os experimentos foram realizados com o nível de significância α = 0, 05.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

73

Page 74: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificação de Interações Sociais Dinâmicas a partir de seus Atributos · 7

(a) Clustering Coefficient (b) Degree Centrality (c) Closeness Centrality

(d) PageRank (e) Betweenness Centrality (f) Betweenness Centrality

Fig. 1: Distribuição de diversas propriedades de rede para nodos (a-e) e arestas (f) de acordo com suas classificações.Os outliers foram suprimidos de (e) e (f) para uma melhor visualização.

Classificação das Arestas (Figura 1(f)). Os resultados mostram as arestas das classes strongbridge (bridge+) e regular bridge (bridge) como as mais importantes, em concordância com o conceitoda força dos relacionamentos com troca de informação (brokerage). Baseando também no conceito dedetenção de conhecimento (closure), as classes very strong (strong+) e strong também se destacam. Asarestas das classes ordinary e sporadic possuem os menores valores, uma vez que não são consideradascomo interações usadas para transferência de informação (i.e., social ties [Granovetter 1973]). Asdistribuições por classe são estatisticamente diferentes de acordo com os testes de Kruskal-Wallis, jáo teste Mann-Whitney-Wilcoxon não diferencia as classes strong bridge e regular bridge.

5.3 Análise de Sensibilidade

Dois fatores sensíveis no processo de classificação é o tempo de existência do nodo no grafo e o poderdiscriminativo do conjunto de atributos a ele vinculado.

Tempo de Existência. O teste de sensibilidade a seguir consiste em investigar a robustez da nossaabordagem para diferenciar nodos com tempos de existência similares. Para isso, dividimos os nodosnas seguintes faixas temporais anuais: [1, 5), [5, 10), [10, 15) e [15,∞). De acordo com o teste deKruskal-Wallis, nossa abordagem distinguiu as distribuições de todas as métricas de rede por classespara todas as faixas temporais. Já o teste Mann-Whitney-Wilcoxon não diferenciou as distribuiçõesdas classes hub e regular para as métricas betweenness e clustering coefficient para a faixa [1, 5).

Seleção de Atributos Estatisticamente Válidos. O Algoritmo 1 de construção de Γ consideraque todos os atributos contidos nas arestas são relevantes (Seção 3). De fato, se um atributo é associ-ado em várias oportunidades, então pode-se inferir sua importância. No entanto, um rigor estatísticopode ser adicionado ao processo de forma a excluir atributos que, mesmo aleatoriamente distribuídos,

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

74

Page 75: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · T. H. P. Silva and A. H. F. Laender

são erroneamente atribuídos como relevantes. Assim, uma etapa adicional consiste em tornar a fun-ção Φ, que associa cada aresta e a um conjunto de atributos a, em uma associação aleatória Φ′. Emseguida, obtemos Γ a partir de diferentes instâncias Φ′ para medir a probabilidade de cada atributoi ter sido erroneamente classificado como sendo relevante. Por fim, excluímos de A os atributos queforam destacados como relevantes com probabilidade significativamente superior ao nível de signifi-cância α. Ambas as configurações (sem exclusão e com a etapa de exclusão de atributos que não sãoestatisticamente válidos quando aleatoriamente distribuídos) possuem distribuições estatisticamenteequivalentes6. Na prática, esta etapa elimina informação natural de evolução da rede e, portanto, nãoé acoplada ao processo de classificação.

6. CONCLUSÕES

Neste trabalho exploramos o papel dos atores em uma rede social acadêmica para classificar suasinterações dinâmicas. Para isso, consideramos a importância do vínculo de atributos ao longo do temponesse processo de classificação. Tal classificação foi confrontada com métricas de grafos amplamenteusadas na literatura. Como resultado, as distribuições se mostraram estatisticamente diferentes e emconcordância com o significado social esperado. Além disso, foi mostrada a robustez da classificação aolidar com atributos estatisticamente válidos e também ao considerar diferentes tempos de existênciana rede. Como trabalhos futuros, pretendemos adaptar a noção de classificação social proposta paramensurar a influência dos nodos, bem como para uso no problema de detecção de comunidades.

REFERENCES

Adamic, L. A. and Adar, E. Friends and neighbors on the web. Social Networks 25 (3): 211–230, 2003.Alves, B. L., Benevenuto, F., and Laender, A. H. F. The Role of Research Leaders on the Evolution of Scientific

Communities. In Proc. of the 22nd Int’l Conf. on the World Wide Web (Comp. Volume). pp. 649–656, 2013.Barabási, A.-L. Scale-free networks: a decade and beyond. Science 325 (5939): 412–413, 2009.Brandão, M. A. and Moro, M. M. The strength of co-authorship ties through different topological properties.Journal of the Brazilian Computer Society 23 (1): 5, 2017.

Burt, R. S. Brokerage and closure: An introduction to social capital. Oxford University Press, 2005.Easley, D. and Kleinberg, J. Networks, Crowds, and Markets: Reasoning About a Highly Connected World. Cam-

bridge University Press, New York, NY, USA, 2010.Freire, V. P. and Figueiredo, D. R. Ranking in collaboration networks using a group based metric. Journal ofthe Brazilian Computer Society 17 (4): 255–266, Nov, 2011.

Gilbert, E. and Karahalios, K. Predicting tie strength with social media. In Proc. of the SIGCHI Conf. on HumanFactors in Computing Systems. pp. 211–220, 2009.

Granovetter, M. S. The Strength of Weak Ties. American Journal of Sociology 78 (6): 1360–1380, 1973.Hollander, M., Wolfe, D. A., and Chicken, E. Nonparametric statistical methods. Vol. 751. John Wiley & Sons,

2013.Leão, J. C., Brandão, M. A., Vaz de Melo, P., and Laender, A. H. F. Who is really in my social circle?

Mining Social Relationships to Improve Detection of Real Communities (to appear). Journal of Internet Servicesand Applications, 2018.

Newman, M. E. pp. 337–370. In , Who Is the Best Connected Scientist? A Study of Scientific Coauthorship Networks.Springer Berlin Heidelberg, pp. 337–370, 2004.

Shah, N., Beutel, A., Hooi, B., Akoglu, L., Gunnemann, S., Makhija, D., Kumar, M., and Faloutsos,C. EdgeCentric: Anomaly Detection in Edge-Attributed Networks. In In Proc. of the IEEE 16th InternationalConference on Data Mining Workshops. pp. 327–334, 2016.

Silva, T. H. P., Rocha, L. M., Silva, A. P. C., and Moro, M. M. 3c-index: Research Contribution acrossCommunities as an Influence Indicator. Journal of Information and Data Management 6 (3): 192, 2015.

Vaz de Melo, P. O. S., Viana, A. C., Fiore, M., Jaffrès-Runser, K., Mouël, F. L., Loureiro, A. A. F.,Addepalli, L., and Chen, G. RECAST: Telling Apart Social and Random Relationships in Dynamic Networks.Perform. Eval. vol. 87, pp. 19–36, 2015.

Watts, D. J. The “New” Science of Networks. Annual Review of Sociology vol. 30, pp. 243–270, 2004.

6Os gráficos para as configurações desta etapa foram omitidos devido à limitação de páginas, mas ressalta-se uma melhordistinção entre as classes quando há exclusão de tais atributos não discriminativos.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

75

Page 76: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Automatic Generation of Links in Patent Documents

C. M. Souza, M. E. Santos, M. R. G. Meireles

Pontifical Catholic University of Minas Gerais, [email protected]

[email protected]@pucminas.br

Abstract. Patents are organized into classification systems, which assist offices and users in the process of seekingand retrieving such documents. A wide variety of users use the patent systems and the information contained in thesedocuments. In addition to office professionals, such as examiners and analysts, who determine whether the inventionsatifies the conditions required to be patented and summarize the content of the document, other users such as inventors,researchers, investors and business managers have a keen interest in understanding the content of patents.However,patents are complex legal documents with a significant number of technical and descriptive details, which makes itdifficult to identify and analyze the information contained in these documents. An automatic link system associatedwith some of the terms found in the patents would provide quick access to the concepts contained in specific knowledgebases. This work presents partial results of a project whose objective is the automatic generation of links in patentdocuments. The experiments were conducted with four subgroups of the United States Patent and Trademark Office(USPTO), which uses the Cooperative Patent Classification (CPC) classification system. In a first step, since documentsdo not have keywords, meaningful terms were selected to be designated as link origins, using the algorithm X2.Once thelink destinies were selected, in a later step, keywords with more than one meaning were disambiguated. It is expected,with the creation of automated links, to aid in the reading of patent texts, thus making it easier to access conceptsrelated to the terms presented by the documents and to the understanding of the information disclosed by the inventors.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.7 [Artificial Intel-ligence]: Natural Language Processing

Keywords: Disambiguation, Keywords Extraction, Link creation, Patents

1. INTRODUCTION

Patents are an important knowledge source and, therefore, their analysis has been considered a usefultool for research and for management development. Ouellette [2017] conducted a survey of 832 resear-chers to assess the importance of patent study. Most researchers in different fields of knowledge havestated that they have found useful information in the documents, but acknowledged that there is roomfor improvement, particularly as regards the accessibility and understanding of information containedin patents. Many of the interviewees stated that it is possible to find information unavailable in thescientific literature and that patents are an underutilized complement to the dissemination of scientificknowledge.

In order to extract knowledge of the information contained in the patents, it is necessary to dealwith the difficulty of understanding the texts, which are, in particular, complex, with technologicaldetails, legal language and exhaustive descriptions [Meireles et al. 2016]. In this context, conventionalapproaches to information retrieval are difficult to apply and therefore the in-depth study of patentsand their consequences has yet to become more accessible, identifying potential areas of research forthe scientific community and generating useful information in processes of decision-making in the

Copyright c2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

76

Page 77: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · C. M. Souza and M. E. Santos and M. R. G. Meireles

area of competitive intelligence. The proposal to create an automatic link generation system, whichallows simplified access to the concepts related to the terms presented by patents, meets this problem,beckoning with the possibility of quickly accessing the knowledge base related to the theme proposedby the patent.

The automatic determination of a link includes the identification of possible text fragments thatshould be associated with knowledge bases. In most cases, keywords are selected and their extractioncan be done by supervised or unsupervised methods [Mihalcea and Csomai 2007]. Before selectingthe texts that will be associated with certain words, it is necessary to define the context in whichthe word is being used. This is because several language units have different meanings, which is acommon feature in many languages and a problem that needs to be addressed in depth.

This paper presents partial results of a project that aims at the automatic generation of links inpatent documents. The algorithm used for keyword extraction was the X2, defined in the work ofReginaldo et al. [2017], as the one that achieved better results in this context. The work was dividedinto 5 sections. Section 2 presents the main concepts used, as well as a description of the algorithmsimplemented in the processes of keyword extraction of links and disambiguation. Section 3 presents theproposed methodology, which discuss the database used and the methodological steps of the project.Sections 4 and 5 show the results, analyzes and final considerations.

2. AUTOMATIC LINK GENERATION

The automatic link generation process can be divided into two distinct steps, identifying the sourceof a link and determining the appropriate document to be associated with the terms selected as thesource. In the second step, we must solve the problem of disambiguation of the meaning of the wordor term. Given this, this section will be divided into four subsections that will address the processesof keyword extraction of links and disambiguation.

2.1 Keywords Extraction

In some cases, the keywords are not defined by the authors of the document and therefore it isnecessary to develop a method or select an algorithm that extracts the words considered significantfor the document and that can represent it in a system of recovery of information.

In this work, the algorithm used for the extraction of keywords was the X2, used by Mihalceaand Csomai [2007] . This algorithm evaluates the independence between two variables and comparesobserved and expected values, evaluating how far apart they are. This algorithm is used to orderthe words according to their dependence on the patent, so that the greater the note given by X2

to a word, the greater its dependence on the document. Even if the algorithm accepts that a wordis independent, the note given by it to the word is simply added to the ordering in lower positions[Reginaldo et al. 2017].

2.2 Identification of the Link’s Destination

To identify the destination of the link, an approach similar to that presented by Jana et al. [2017]was used. For this, we implemented an algorithm that uses the wikipedia python library, whichencapsulates the MediaWiki API1 for this purpose. This library allows access to Wikipedia data andmetadata via API. In order to access this data, the user provides an input data and the algorithmprovides a Wikipedia page. In some cases, the attribute provided may have ambiguous meaning. Ifthis occurs, the algorithm generates an exception, stating the need to treat it. The algorithm sendsthe keyword with the meaning obtained, using the disambiguation algorithm, described in the next

1Application Programming Interface

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

77

Page 78: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Automatic Generation of Links in Patent Documents · 3

subsection, and receives the url of the specified page. For the effective creation of the link in thepatent document, the keyword is replaced by the url in the HTML code of the page.

2.3 Disambiguation of the Word’s Meaning

The techniques of disambiguation aim to computationally identify the meaning of a word, taking intoaccount the context in which it is inserted. Therefore, given a document with a sequence of wordsT = w1, w2, ..., wn, this technique aims to give meaning to all or some words of that document. Thistask can be performed with only one lexical sample or with all the words in the document. Generally,the lexical sample is more used, because a wide coverage of domains is necessary to carry out thedisambiguation of all the words [Corrêa Jr et al. 2018].

In this work, a disambiguation algorithm proposed by Panchenko et al. [2017] was used. Thisalgorithm receives, as input, the word that will be disambiguated and the context to which it belongs.In addition, it is necessary to define some parameters, such as the model used and the output format.Among the available models, the ensemble model is the most complete, since it searches for the meaningof the ambiguous word in the inventory of word meanings. If a word is outside this vocabulary, thenit is disambiguated using the super meaning inventory. This template was created from a text corpuswhich is a combination of Wikipedia, ukWaC, corpus LCC News and Gigaword. For the realizationof disambiguation, this algorithm performs the following steps:

—Extraction of context features computing word and feature similarities;—Word meaning induction;—Labeling of clusters with hypernyms and images (hypernym is a word with a broad meaning cons-

tituting a category which words with more specific meanings fall into2);—Disambiguation of words in context based on the induced inventory.

In the end, the algorithm returns the meaning of the word, its hypernyms, the set of related wordstaken from the dictionary, a set of phrases to exemplify the meaning of the disambiguated word. Thecontext words are those that co-occur with the word ambiguous destination in the given meaning,and they are also returned with the words related to the disambiguated word, taken from the textitself, and the level of trust of the disambiguation. The confidence level is a metric that evaluatesthe disambiguation result. It is calculated from the extraction of hypernyms. For this, the algorithmranks the hypernyms using functions that relate the word to the set of words of the cluster and to thehypernym.

2.4 Related Works

Linking web data to relevant knowledge base articles has become popular, and because of this, someresearch on automatic linking of text to important knowledge base articles has captured the interestof the research community [Gardner and Xiong 2009]. The majority of the work is focused in linkingWikipedia texts to their referent Wikipedia pages [Mihalcea and Csomai 2007; Cucerzan 2007; Janaet al. 2017]

Mihalcea and Csomai [2007] used Wikipedia for automatic extraction of keywords and for thedisambiguation process. The system developed by the authors automatically extracts the keywords,makes the disambiguation process, and generates the link with the Wikipedia page. For the extractionof the keyword, three methods were tested, tf-idf, X2, and Keyphraseness. For the disambiguation ofthe keyword, the authors tested two methods, the first one, a knowledge-based approach, and another

2en.oxforddictionaries.com

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

78

Page 79: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · C. M. Souza and M. E. Santos and M. R. G. Meireles

one, based on data-driven. In the end, the Wikify! system presented superior results relating to thecompetitive baselines.

Jana et al. [2017] presented a project to generate links in abstracts of scientific documents withWikipedia articles. They performed the extraction of the important mentions of the scientific textusing tf-idf, together with a set of intelligent filters. Afterwards, for each mention, they extracted alist of candidate entities (Wikipedia links). These entities were classified and punctuated according tothe similarity, and finally, based on this score, the entity for link generation was selected. The resultsshow that the methodology used helps to improve the performance of the wikification task in scientificarticles

3. METHODOLOGY

3.1 Database

The database used in the experiment is provided by the United States Patent and Trademark Office(USPTO), whose classification system is the Cooperative Patent Classification (CPC). CPC classifiespatents into sections, classes, subclasses, groups, and subgroups. For this work, four subgroups,G06K7/1443, G06K7/1447, G06K7/1452 and G06K7/1456 of the G06K subclass, named recognition ofdata, presentation of data, record carriers, handling record carriers, were selected. Figure 1 illustratesthe organization of this patent database.

Fig. 1. Organization of the Database

The database used is composed of 910 patents and was updated on June 12, 2018. To validate themethodology in this work, 10 patents of each subgroup were selected. Table I shows the name of thesubgroup in the CPC classification system and the distribution of the patents in each of them.

Table I. DatabaseCode CPC Number of patents

G06K 7/1443 452G06K 7/1447 263G06K 7/1452 78G06K 7/1456 117

3.2 Methodological Steps

In the first step, the patent summaries were pre-processed. The algorithm used performs the removalof stopwords, special characters and the stemization of words. In addition, the algorithm uses avocabulary based on Wikipedia titles to generate significant n-grams.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

79

Page 80: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Automatic Generation of Links in Patent Documents · 5

After the preprocessing has been executed, there is an array of documents by words where theoccurrence of the words in the document are computed. The second step consists of extractingkeywords using the algorithm X2. This algorithm receives as input the matrix generated by thepreprocessing and returns a list of keywords.

In the third step, the preparation of the output data from the algorithm X2 for the input of the linkgeneration algorithm was performed. For this, an algorithm that performs the search for the keywordsextracted by X2 and extracts those that have the three highest values generated by the algorithmwas implemented. For each patent, three keywords were obtained. After this phase, the paragraphscontaining the words for the entry of the disambiguation algorithm are prepared, with the removal ofblanks and invalid characters.

In the fourth step, the link destination was identified. For this, an algorithm was implemented inpython, using the "wikipedia"library. This algorithm receives a keyword and searches a Wikipediapage with the corresponding content and returns the page link. After this phase, the keyword isreplaced by the link in the HTML code of the page. However, in some cases, ambiguity of themeaning of the keyword may occur. In this case, the algorithm throws an exception, notifying thatthere is more than one content-related page.

For the treatment of the exception, a disambiguation algorithm was used. This algorithm receivesthe keyword and a paragraph from the patent text that owns the keyword. In this case, this paragraphis the context that the algorithm will use to find the meaning of the word. For this work, the ensemblemodel was chosen. This algorithm returns the meaning of the word and four hypernyms. The reliabilityof the disambiguation process is then verified with the use of the metric provided by the algorithm.The trust value (0 to 100%) indicates whether the meaning of the keyword and the content of the pageselected for the link’s destination are associated with the same context. Figure 2 presents a diagram,exemplifying each step of the proposed methodology.

Fig. 2. Proposed methodology

4. RESULTS AND DISCUSSION

Initially, the documents were preprocessed to generate the input to the X2 algorithm. Three keywordswere extracted from each patent document. The next algorithm receives the keyword and finds thedestination of the link. In some cases, the keyword may have ambiguous meaning. In this case, themeaning of the word is disambiguated. Tables II, III, IV and V present some of the results obtainedin the disambiguation stage. The first column presents the extracted keywords that have ambiguousmeaning, the second one, the hypernyms, the third one, the meaning of the word in the specific contextof the patent and the fourth presents the reliability calculated by the algorithm of disambiguation.Before each table, the three extracted keywords and the context for disambiguation of the selectedkeywords are presented. Patents were identified as P1, P2, P3 and P4.

Keywords of patent P1: dibit, data strip, buffer.

Context for disambiguation of the keyword buffer:

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

80

Page 81: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · C. M. Souza and M. E. Santos and M. R. G. Meireles

“An optical reader for reading high density dibit encoded data from a data strip comprises an opticaldetector (13) and a detector (14,15,DSP) connected to the optical detector (13) and arranged to decodeits output. The detector includes a row of photosensitive elements arranged to extend transverselyacross a row of dibits and to form an image of the row of dibits. The decoder (14,15,DSP) includes abuffer (15) arranged to store the row image. An image transform device detects a skew angle of thestrip and transforms the stored image to compensate for the distortion of the image.”

Table II. Results of the disambiguation process for P1

Keyword Hypernyms Meaning Reliability

bufferfeaturefactorthing

type 83,72%

Keyword of patent P2: barcode, components, bitmap.

Context for disambiguation of the keyword components:

“A technique for reading a bar code representative of message information is stored electronicallyin bit-map form. The bit map is obtained by optically scanning a document carrying non-bar codeinformation also to convert pixel information into bit information. A row is identified in the bit map,which is the most likely one to pass through an area in the bit map containing bar code information.The data stored in the bit map is compared with assigned data corresponding to designated bar codecomponents. Once such a row is identified, processing of rows above and below it in the bit mapreveals whether rows more likely to agree with the coded message information can be found. Initially,a fast processing mode is selected involving processing of only a few rows to maximize processingspeed in case acceptable data can be found. If acceptable bar code data is not found, then theprocessing is switched into a slow processing mode, which involves processing of a greater numberof rows. Once a row likely to contain the bar code data of interest is identified, the information itcontains is converted into signals, which are used for converting the coded bar code data into themessage represented thereby.”

Table III. Results of the disambiguation process for P2

Keyword Hypernyms Meaning Reliability

components

areaproductcompany

application

service 100%

Keywords of patent P3: characteristics, magnetic, material magnetic.

Context for disambiguation of the keyword characteristics:

“Appartus and methods of verifying objects utilize detectable characteristics of a plurality of spa-ced apart, magnetizable magnetic security regions affixed to the object. Magnetic characteristics foreach magnetic region are detected from two different orientations. A verification apparatus senses themagnetic characteristics from two different orientations and compares it to a prestored representa-tive profile previously created. Correspondence between the prestored profile and the currently readcharacteristics indicates an authentic object. Other objects can be rejected."

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

81

Page 82: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Automatic Generation of Links in Patent Documents · 7

Table IV. Results of the disambiguation process for P3

Keyword Hypernyms Meaning Reliability

characteristics

areatopic

servicefactor

issue 100%

Keyword of patent P4: function code, link, data object.

Context for disambiguation of the keyword link:

"A given data object can effectively contain both a graphical representation to a network userand embedded information, such as the URL address of another network node, thereby to permitthe object itself to serve as an automated hot link. The underlying development tools and web sitebrowsers create and identify such an object for use in a manner similar to a hot link, as provided onthe World Wide Web."

Table V. Results of the disambiguation process for P4

Keyword Hypernyms Meaning Reliability

link

factorfeaturethingarea

issue 87,82%

Fig. 3. Results for patent P2

Figure 3 exemplifies the end result, showing the links in the patent and their destination. Byanalyzing the presented results, it can be seen that the reliability values found by the disambiguation

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

82

Page 83: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · C. M. Souza and M. E. Santos and M. R. G. Meireles

algorithm were satisfactory. However, the algorithm did not perform well with some keywords, whichneeds to be investigated. It is worth mentioning that the algorithm of link generation was able toidentify, in most cases, that the keyword had more than one meaning and, therefore, it was necessaryto treat this problem using the disambiguation algorithm. However, in some cases, it was not possibleto find a Wikipedia base page with the keyword in the meaning provided, and, in these situations,the texts of other patents could be incorporated into the knowledge base.

5. FINAL CONSIDERATIONS

Patents are legal documents with a significant number of technical and descriptive details, whichmakes their analysis very complex. Access to information in such documents is often laborious, due tothe difficulty imposed by technical language and poorly designed writing styles, contrary to the mainobjective of a patent system of sharing knowledge.

The proposal to create an automatic link generation system, which allows simplified access tothe concepts related to the terms presented by the patents, is an alternative to provide a simpleraccess to the knowledge bases related to the theme proposed by the patent. With this proposal,it is expected to contribute to the study of links in patents, facilitating the understanding of theinformation contained in these documents and promoting the dissemination of scientific knowledgeassociated with the technological advances proposed by these inventions. As a development of thiswork, a user experiment will be conducted to determine which terms in the patents used in theexperiments require reference to external knowledge. As users with different types of backgroundwould indicate different words to link, these selected words can be considered as gold standard toevaluate the performance of our experiments.

6. ACKNOWLEDGEMENTS

The authors thank the financial support of the Pontifical Catholic University of Minas Gerais, theNational Council for Scientific and Technological Development (CNPq, grant 429144/2016-4) and theFoundation for Research Support of the State of Minas Gerais (FAPEMIG, grant APQ 01454-17).

REFERENCES

Corrêa Jr, E. A., Lopes, A. A., and Amancio, D. R. Word sense disambiguation: A complex network approach.Information Sciences vol. 442–443, pp. 103–113, 2018.

Cucerzan, S. Large-scale named entity disambiguation based on wikipedia data. In Proceedings of the 2007 JointConference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL). pp. 708–716, 2007.

Gardner, J. J. and Xiong, L. Automatic link detection: A sequence labeling approach. In Proceedings of the18th ACM Conference on Information and Knowledge Management. CIKM ’09. ACM, New York, NY, USA, pp.1701–1704, 2009.

Jana, A., Mooriyath, S., Mukherjee, A., and Goyal, P. Wikim: metapaths based wikification of scientificabstracts. In 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL). IEEE, pp. 1–10, 2017.

Meireles, M. R. G., Ferraro, G., and Geva, S. Classification and information management for patent collections:a literature review and some research questions. Information Research 21 (1), 2016.

Mihalcea, R. and Csomai, A. Wikify!: linking documents to encyclopedic knowledge. In Proceedings of the SixteenthACM Conference on Conference on Information and Knowledge Management. CIKM ’07. ACM, pp. 233–242, 2007.

Ouellette, L. L. Who reads patents? Nature biotechnology 35 (5): 421–424, 2017.Panchenko, A., Ruppert, E., Faralli, S., Ponzetto, S. P., and Biemann, C. Unsupervised does not mean

uninterpretable: The case for word sense induction and disambiguation. In Proceedings of the 15th Conference of theEuropean Chapter of the Association for Computational Linguistics. Vol. 1. pp. 86–98, 2017.

Reginaldo, T. V., Lucindo, D. L. B., Meireles, M. R. G., Patrocínio Júnior, Z. K. G., and Almeida, P.E. M. A comparison of algorithms for the extraction of keywords in a patent database. Proceedings of the XXXVIIIIberian Latin-American Congress on Computational Methods in Engineering , 2017.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

83

Page 84: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Abordagem para Classificação de Fadiga Mentalbaseada em Sinais de Eletroencefalografia (EEG)

Mylena N.M.R.Ferreira1,2, Ana C.Q. Siravenha2,Schubert R. Carvalho3, Bruno D. Gomes1,

Ronaldo F. Zampolo1,Agostinho S. Castro1, Adriana R.G. Castro1,

1 Universidade Federal do Pará, [email protected], [email protected],[email protected], [email protected], [email protected]

2 Instituto Senai de Inovação, [email protected], [email protected]

3 Instituto Tecnológico Vale, [email protected]

Abstract.

A complexidade da análise da fadiga mental em pessoas saudáveis é evidenciada pela ausência de pertubações abruptasno sinal de eletroencefalografia e pela singularidade e variabilidade do perfil cognitivo de cada indivíduo. Identificar essetipo de estado mental requer a análise de fatores que o caracterize, como o comportamento das bandas de frequênciae das regiões cerebrais. Este trabalho propõe classificar a fadiga mental a partir da análise de bandas de frequênciae razões dessas bandas em dois modelos de aprendizado de máquina: Rede Neural Perceptron de Múltiplas camadase Redes Neurais auto-associativas encadeadas. Três frequências e quatro razões foram calculadas a partir dos dadoseletroencefalográficos em termos de densidade de energia espectral: α, β, θ, e as razões θ/α, (α+θ)/β, β/α e (α+θ)/(α+β). Propõe-se também uma estratégia para seleção de canais baseada na significância estatística de Wilcoxon entre asamostras do dado normal e fadigado. Além disso, emprega-se a normalização do vetor de características de forma areduzir a variabilidade dos dados e melhorar a caracterização dos estados. Os testes mostram que o uso da normalizaçãoaumenta efetivamente a acurácia da classificação, independente do modelo utilizado. A seleção de canais reduziu aquantidade de sensores de 30 para 11 e impactou levemente a acurácia dos modelos. A acurácia máxima de 99, 97% foiatingida quando usados dados normalizados com seleção de canais, treinados com Redes Neurais auto-associativas.

Categories and Subject Descriptors: I.2.6 [Artificial Intelligence]: Learning; I.5.0 [Pattern Recognition]: General

Keywords: Eletroencefalografia, Redes neurais artificiais, Fadiga, Seleção de características

1. INTRODUÇÃO

Acredita-se que a fadiga mental seja o resultado de uma alta demanda ou esforço mental prolongadodurante a execução de uma tarefa. Esse processo é caracterizado pelo declínio da performance cog-nitiva, e que é, entre outros fatores, grande responsável por acidentes de trânsito [Dimitrakopouloset al. 2018; Min et al. 2017; Wascher et al. 2014].

A fadiga mental reflete perturbações nos ritmos cerebrais, e portanto resulta em mudanças decomportamento dos sinais de eletroencefalografia (EEG) ao longo das bandas de frequência e regiõescorticais. Estas alterações são em sua maioria, percebidas nas regiões frontal e parietal, que apresen-tam variações mais sensíveis ao longo do experimento, e suas medidas de potência relativa em alfaaumentam consideravelmente [Schier 2000]. Desta forma, empregar a análise espectral de potêncianeste estudo se justifica pela explicitação destas mudanças significativas, na magnitude cerebral em

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

84

Page 85: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Mylena N.M.R.Ferreira, Ana C. Q. Siravenha, Adriana R.G. Castro, Agostinho S. Castro, Schubert R. Carvalho, Bruno D. Gomes

relação ao aumento da fadiga mental.

Os esforços para detectar os padrões neurais que caracterizem esse processo de declínio cognitivoa partir de sinais de EEG, em geral, são tomados em experimentos controlados, estabelecendo para-digmas para indução de fadiga em tarefas cognitivas que requerem o estado de vigília com atençãosustentada [Dimitrakopoulos et al. 2018], no domínio da atenção visual [Li et al. 2016] e uso intensoda memória de trabalho [Helton and Russell 2011].

Em [Min et al. 2017] são apresentados resultados sobre as regiões cerebrais diretamente ativasdurante o estabelecimento da fadiga usando medidas de entropia nos registros de EEG. Dados de12 sujeitos foram coletados em ambiente de simulação de direção durante períodos entre 1 e 2 horascontínuas. Dos 30 canais registrados, e a partir do peso dos canais mais importantes, os testesindicaram que grupos com poucos sensores são suficientes para identificar estados mentais relacionadosa fadiga.

[Liu et al. 2016] propõem um sistema de predição de graus de fadiga baseado em rede neuralrecorrente fuzzy em ambiente de realidade virtual para simulação de direção. Esse tipo de rede éutilizada para contornar a deficiência do método de análise de componentes independentes (ICA)em aplicações em tempo real. Essa estratégia aumenta a capacidade de cancelamento do ruído quetipicamente afeta sinais de EEG e se mostrou efetiva frente à outras abordagens em tempo real.

Este trabalho apresenta a proposta de representação de dados EEG para detecção de fadiga baseadana análise espectral do sinal. Uma abordagem de seleção de canais fundamentada na análise designificância também é apresentada com o intuito de evidenciar os eletrodos que contribuem de formaefetiva para a caracterização das classes de interesse, e para a acurácia das redes. A variabilidadedo sinal é controlada pela normalização do tipo min-max. Dois métodos de classificação baseadosem redes neurais serão testados sob diversas configurações, com o objetivo de validar a escolha darepresentação dos dados baseada na análise espectral.

2. MATERIAIS E MÉTODOS

2.1 Base de Dados

Os dados utilizados para desenvolvimentos dos sistemas de classificação propostos no presente estudoforam disponibilizados em domínio público por [Min et al. 2017]. Correspondem a medidas de EEGde 12 indivíduos saudáveis do sexo masculino, cujas idades variaram de 19 a 24 anos. Cada sujeito foisubmetido à uma simulação de condução de veículos em estrada. Nenhum fármaco ou estimulantescomo álcool ou café foram utilizados durante o processo de coleta de dados e não houve supressão desono.

Os indivíduos foram submetidos ao experimento por até duas horas. Dos 20 primeiros minutos, oscinco últimos minutos foram nomeados como sinais EEG no estado normal. A partir de 40 minutos, osujeito permanecia na simulação até sua própria manifestação de estado fadigado ou até 100 minutos.Destes, os cinco últimos minutos foram marcados como estado fadigado. Ao final do experimento,o indivíduo preencheu questionários de fadiga, baseados na escala de fadiga Chalder e Lis [Chalderet al. 1993].

Os dados foram coletados com taxa de amostragem de 1000 Hz para 32 eletrodos, sendo 30 ele-trodos efetivos e dois de referência. A base foi referenciada pela média dos eletrodos de referência,denominados mastoides (A1 e A2), e a organização espacial dos eletrodos foi baseada no sistema 10-20.

Pré-processamento Os sinais EEG brutos dos dois estados foram então, preprocessados utilizandofiltros passa banda de (4 - 100Hz), e rejeita faixa do tipo Notch em 60 Hz para selecionar as bandas defrequência de interesse e atenuar ruídos elétricos, respectivamente. Artefatos visuais e movimentaçãolateral ocular foram retiradas por inspeção visual analisando valores z do sinal para cada trial de 1

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

85

Page 86: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 3

segundo. Análise de Componentes Independentes (ICA) foi usada para filtrar os sinais EEG de outrosruídos de origem fisiológica.

Após esse procedimento restou, em média, 4 minutos e 36 segundos de coleta, que foi consideradopara cada um dos sujeitos. Assim, os dados EEG foram organizados em segmentos/trials de 1 segundo,resultando em uma matriz multidimensional de 280 trials, por 30 canais, por 30 frequências. Estasmatrizes serão utilizadas para o cálculo de energia do sinal EEG e posterior criação do vetor decaracterísticas.

2.2 Análise Espectral

Esta análise foi fundamentada no cálculo da densidade de energia espectral (PSD), que pode informaracerca de variações na magnitude da resposta cortical em frequências específicas relacionadas à cargamental que está por sua vez relacionada à fadiga mental. A partir do PSD, foi constatado que oseletrodos Fz em teta e Pz em alfa, portanto, as regiões frontais e parietais nestas mesmas bandas defrequência, podem ser consideradas biomarcadores de carga mental, visto que suas magnitudes eramafetadas positivamente pelo aumento de carga mental de trabalho [Cajochen et al. 1995],

O PSD Φ(ω) foi calculado a partir do quadrado da magnitude da transformada de Fourier, dadapela equação 1, com a restrição de f(t) ser uma função integrável de energia finita.

Φ(ω) =

∣∣∣∣∣1√2π

∞∑

n=−∞fne−iωn

∣∣∣∣∣

2

=F (ω)F ∗(ω)

2π(1)

onde ω é a frequência angular , F (ω) é a transformada de Fourier de tempo discreto f(n), e F ∗(ω) éseu conjugado complexo.

Assim, para cada valor de frequência angular, um valor de PSD é calculado. Ressalta-se quepara o cálculo dos coeficientes de Fourier, o método de janelamento multitaper sem superposição foiempregado na tentativa de manter uma boa resolução do sinal na frequência, e contornar os efeitos doprincípio de incerteza de Heisenberg, que trata da relação descompassada da resolução de um mesmosinal no tempo e na frequência.

2.3 Medidas de Fadiga Mental baseadas em EEG

Métodos tradicionais de estimativa de nível de fadiga como Chalder, Lis, Wong-Baker e NASA-TLXpor exemplo, são baseados em questionários preenchidos pelo próprio indivíduo, seja, por avaliaçãoverbal ou escrita de terceiros. Estas avaliações são susceptíveis à erros, visto que o indivíduo pode ounão fornecer dados precisos sobre si, assim como ter ou não conhecimento preciso acerca de seu estadofadiga[Scott G. Paris 2001].

Por outro lado, a fadiga mental pode ser identificada pelo comportamento espectral do sinal neuraldo indivíduo, indicando padrões peculiares para cada estágio de fadiga, e até criando perfis cognitivospara cada indivíduo ou grupo de indivíduos. Assim, a partir do sinal EEG, a fadiga mental pode seranalisada por espectros de potência em diversas bandas de frequência, chamados índices α, β e θ, epela relação entre estes índices, denominadas métricas, que podem ser particulares de determinadasregiões, ou calculadas para todos os eletrodos.

Os índices, que correspondem a parâmetros diretamente relacionados aos ritmos cerebrais, denotamcaracterística do sinal cortical, apresentando padrões de variação específicos para bandas de frequênciade análise [Cheron et al. 2016]. Assim, a banda θ (4-8Hz) exibe sinais com comportamento relacionadoà memória, controle sensorimotor e orientação, a banda β (12-30HZ) relacionado à padrões de sinaisassociados à atenção, acuidade visual e fadiga e a banda α (8-12 HZ) relacionada à criatividade,

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

86

Page 87: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Mylena N.M.R.Ferreira, Ana C. Q. Siravenha, Adriana R.G. Castro, Agostinho S. Castro, Schubert R. Carvalho, Bruno D. Gomes

atenção seletiva e relaxamento. A combinação desses índices para construção de métricas possibilitadeterminar mensurações relacionadas à eventos singulares como a fadiga mental [Jap et al. 2009; Eohet al. 2005].

Quatro razões foram usadas como métrica no presente estudo: (α+θ)/β [Brookhuis and De Waard1993], β/α [Eoh et al. 2005] e θ/α [Pyun and Kim 2000], e também (α+ θ)/(α+β) [Jap et al. 2009],nomeadas como r1, r2, r3 e r4, respectivamente.

2.4 Normalização dos dados

A normalização do tipo min-max foi aplicada aos atributos para reduzir variabilidade dos dadosdurante a análise. A equação abaixo normaliza os dados coluna por coluna, classe a classe, entre 0 e1 [Siravenha and Carvalho 2016]. Tomando ti como cada coluna da matriz de dados de cada classeFc, temos:

t′i =

ti −minFc

maxFc−minFc

(newmaxFc− newminFc

) + newminFc, (2)

onde newminFc= 0 e newmaxFc

= 1.

2.5 Seleção de Canais

As regiões frontal e parietal parecem apresentar clara variação da energia espectral que pode indicarestados de fadiga [Wascher et al. 2014; Cajochen et al. 1995; Eoh et al. 2005]. Portanto, canaislocalizados nestas regiões supostamente contribuiriam para a detecção de sinais significativos. Apesardisso, no presente estudo inicialmente todos os canais foram considerados. Uma análise de significânciaestatística baseada no método não paramétrico de Wilcoxon foi usado para selecionar canais quediferiram entre os estados normal e fadigado.

O valor de p para cada amostra comparada é calculado a partir dos coeficientes do teste de Wilcoxon(W), z-valor e da probabilidade de ocorrência da rejeição da hipótese nula, dadas pelas equações 3 e4.

z =W − µwσw

, onde W =n1∑

i=1

[sgn(x2,i − x1,i)] ·Ri. (3)

p = 1− 2 ∗ P (o), (4)

onde z é dado pela razão da diferença entre o W de cada par de amostra e a média (µ) e desviopadrão (σ) de W para todos os pares. O valor de W é obtido pelo somatório da diferença do par decada posição do ranking Ri. Em seguida, a probabilidade de ocorrência da hipótese nula (P(o)) serrejeitada é calculada para, por fim, obter o valor de p pela Equação 4. Valores de p maiores que 0, 05são ditos como não significativos, e portanto as amostras analisadas que apresentem valores maioresque este nível de significância são desconsideradas.

O processo de seleção de canais baseado no teste de Wilcoxon foi implementado amostra a amostra,canal a canal, para os dados normalizados e não normalizados. Ao final, a ocorrência de significânciafoi convertida em percentual para seleção de canais com ocorrência maior ou igual a 50%. Assim,para um canal ser selecionado, deve apresentar valores significativamente diferentes entre os estados,em pelo menos seis sujeitos.

2.6 Vetor de Características

Os valores das razões descritas na Seção 2.3 e os valores de PSD de cada canal em cada uma dasbandas empregadas nessas razões (Seção 2.2) formam os vetores Fr = [r1, r2, r3, r4] ∈ Rλ e Fpsd =

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

87

Page 88: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 5

[Cα, Cβ , Cθ] ∈ R3ζ , respectivamente, onde λ = 4 e ζ = 30.

Cα ∈ Rζ , Cβ ∈ Rζ e Cθ ∈ Rζ representam os valores de PSD em cada um dos 30 canais disponíveisna base de dados.

Assim, a matriz de dados empregada pode ser descrita como:

Frpsd = [Fr, Fpsd] ∈ Rη=λ+3ζ

= [r1, r2, r3, r4, Cα, Cβ , Cθ]

=[r1, r2, r3, r4, C

1α, C

2α, · · · , Cζα, C1

β , C2β , · · · , Cζβ , C1

θ , C2θ , · · · , Cζθ

] (5)

Sem seleção de canais, η = 94, e após a seleção de canais ζ = 11 e η = 37.

Desta forma, o vetor de características é criado a partir das matrizes multidimensionais obtidas apóso pré-processamento, organizadas em 280 segmentos de um segundo por 30 canais, por 30 frequênciaspara cada classe e para cada sujeito. Após o cálculo de energia e das razões de fadiga, os resultadossão concatenados segundo a classe específica para todos os indivíduos, resultando no vetor de 6720amostras por 94 atributos, organizados em 3360 amostras para cada classe.

2.7 Aprendizado e classificação

Após a extração dos vetores de características contendo as informações sobre estados normal e fadi-gado, os dados serviram de entrada para dois tipos de arquitetura de redes neurais: do tipo Perceptronde múltiplas camadas (PMC) e redes neurais auto-associativas encadeadas (AE).

A rede neural Perceptron de múltiplas camadas é o tipo mais simples de rede neural, na qual ainformação avança, das entradas para os nós de saída por camadas ocultas. Nesta arquitetura, em cadacamada (exceto a camada de saída) é implementado um nó adicional, a unidade de polarização (bias),que restringe como os valores ponderados determinados pelo fluxo iterativo de dados de treinamento,relaciona os dados de entrada e saída. Os resultados obtidos pela rede na camada de saída se dá pelasoma ponderada das saídas da camada oculta.

Redes auto-associativas por sua vez são redes especializadas em reconstruir os dados de entrada como objetivo de aprender representações, ou extrair atributos para redução de dimensionalidade [Bourlardand Kamp 1988; Hinton and Zemel 1994]. Se encadeadas, estas redes podem refinar os atributosselecionados ao longo da reconstrução do dado e portanto podem ser utilizadas anteriormente a umarede classificadora. Tanto as auto-associativas como a rede classificadora são treinadas com os dadosde entrada antes de serem encadeadas, e portanto apresentam valores de pesos inicializados pelo dadoquando são encadeadas e treinadas novamente.

O paradigma de aprendizado foi o supervisionado e os dados de entrada para o treinamento e testeforam arranjados de quatro maneiras: não normalizados, com e sem seleção de canal e normalizados,com e sem seleção de canais. Desta forma, os efeitos da seleção de canal e normalização puderam serdiscriminados no desempenho de cada uma das redes.

As quatro entradas foram submetidas à diferentes configurações de redes. Na PMC, os neurôniosda única camada oculta variaram de 10, 20, 26, 50 e 100 neurônios, e na AE foram testadas uma redede duas camadas ocultas com 100 e 50 neurônios, e outra com 300 e 150 neurônios. A avaliação emvárias topologias de rede tem como objetivo verificar a adaptabilidade das arquiteturas para um dadonão estacionário e sem eventos, ou seja, sem pertubações abruptas.

3. RESULTADOS E DISCUSSÕES

Para identificar os dois estados mentais normal e fadigado de 12 sujeitos, a partir de características ex-traídas da PSD, as duas abordagens de classificação testadas, PMC e AE, foram submetidas à variação

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

88

Page 89: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Mylena N.M.R.Ferreira, Ana C. Q. Siravenha, Adriana R.G. Castro, Agostinho S. Castro, Schubert R. Carvalho, Bruno D. Gomes

de quantidade de neurônios e os dados de entrada organizados em normalizados e não normalizados,com e sem seleção de canais.

A avaliação da eficiência da representação dos dados proposta neste trabalho, resumida na Equa-ção 5, foi feita em diversas sessões de treinamento e teste a partir dos dados divididos na proporção70-30, ou seja, 70% dos dados separados para treino e 30% para teste usando validação cruzada [Kohavi1995].

Vetores PMC AE10 20 26 50 100 [300 150] [100 50]

Não normalizado 88,46 87,40 88,70 83,53 89,98 78,70 79.54Normalizado 99,92 99,88 99,88 99.93 99,90 99,81 99,68

Table I. Avaliação da representação dos dados baseada em medidas de PSD sem seleção de canal, normalizados e nãonormalizados .Os valores de acurácia representam a média de diversas sessões de treinamento e teste.

A Tabela I apresenta a avaliação da capacidade de representação dos dados pelo vetor de caracterís-ticas proposto. Foram testadas cinco valores de número de neurônios escondidos na rede Perceptrone duas arquiteturas AE. Os vetores sem normalização e com a normalização apresentada na Seção 2.4são apresentados para comparação.

Foi observado que o desempenho dos vetores são similares em todas as arquiteturas e número deneurônios, ao redor dos 85% de acurácia média.

O processo de seleção de canais baseado no teste de significância estatística de Wilcoxon, foi imple-mentado considerando a média das ocorrências de índices e métricas (vetor Frpsd, de apenas índices(vetor Fpsd), de apenas métricas (vetor Fr), e de cada um dos índices e métricas.Pela condição deseleção de canais com ocorrência igual ou acima de 50%, dos 30 eletrodos, 11 foram selecionados: F8,FT7, FCz, FC4, T4, TP7, FC3, T3, C4, Pz e P4.

A Figura 1 resume a estratégia usada para a redução do número de canais. O percentual deocorrência de diferença significativa entre os valores dos conjuntos de dados normal e fadigado emtermos de PSD e razões. Nota-se que com o vetor Fr (barras amarelas) os 11 canais selecionadosapresentam diferença significativa em, pelo menos, metade dos sujeitos.

Fig. 1. Gráfico de barras do percentual de ocorrência de valores significativos entre as duas classes normal e fadigada,amostra a amostra,considerando todas mas métricas e índices, destaca-se os canais F8, FT7, FCz ,FC4, T4 e TP7.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

89

Page 90: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Applications Track · 7

Após a aplicação da seleção de canais a redução do vetor de características (F ηrpsd) foi de η = 94para η = 37 (Tabela II). Houve uma leve redução da acurácia média dos modelos de classificação,embora tenha havido melhora na acurácia quando utilizada a AE com [100 50] neurônios.

Vetores PMC AE10 20 26 50 100 [300 150] [100 50]

Não normalizado 68,88 68,15 70,37 70,08 70,43 72,33 63,55Normalizado 99,65 99,73 99,83 99,79 99,87 99.41 99.97

Table II. Representação dos dados baseada em PSD com seleção de canal, normalizados e não normalizados. Os valoresde acurácia representam a média dos testes de diversas sessões de treinamento e teste.

Na abordagem original de [Min et al. 2017], a acurácia máxima, obtida com uma rede neural, foi de98, 30%. Mesmo sem seleção de canais, no presente estudo, todos os testes com dados normalizadosexcederam o patamar dos 99% de acurácia em todas as sessões de treinamento.

Sobre a eficiência do vetor de característica:. As acurácias apresentadas na Tabela I mos-tram que a representação dos dados foi eficiente para identificar os estados mentais desejados. Anormalização dos dados promoveu um aumento da acurácia que foi superior aquela obtida no estudoque gerou os dados ([Min et al. 2017]).

Sobre o desempenho da seleção de canais:. Em aplicações reais o uso prolongado dos dispo-sitivos para captura de dados de EEG pode contribuir para o aumento das sensações de cansaço edesconforto. Assim, a implementação de uma metodologia que contemple o menor número de canais,mantendo níveis de precisão aceitáveis para o sistema, torna-se altamente desejável.

A Tabela II mostra que a redução de canais, manteve as taxas de acerto bastante próximas àquelassem seleção, em particular, quando usado o vetor normalizado. Ainda, a maior taxa de acurácia foiobtida usando a arquitetura AE com duas camadas contendo 100 e 50 neurônios, nesse caso.

Os canais selecionados a partir do método de Wilcoxon (Figura 1) estão em grande consonânciacom a literatura que aborda identificação de fadiga em humanos saudáveis: cinco canais vindos daregião frontal, três canais temporais, dois canais parietais e um central. De fato, trabalhos como [Minet al. 2017; Eoh et al. 2005; Jap et al. 2009] destacam a importância dessas regiões no processo defadiga mental durante a realização de tarefas em ambientes reais e laboratoriais, principalmente porse tratar de regiões ligadas à atenção e memória de trabalho.

Sobre o desempenho das arquiteturas de classificação:. Notou-se que as duas abordagensempregadas foram suficientes para a classificação dos estados, apresentando comportamento similarao longo dos testes. A PMC com 100 neurônios conseguiu alcançar resultados excelentes, porém sobum custo computacional muito alto, principalmente quando usados dados não normalizados e semseleção de canais. Em contraste com as outras abordagens que tomavam, ao máximo, 15 minutos detreinamento, a aprendizagem dessa rede durava aproximadamente 7 vezes mais.

Finalmente, observa-se que para esse conjunto de dados sob a representação proposta, a utilizaçãode poucos neurônios é suficiente para obter resultados excelentes em um curto espaço de tempo.

Oportunamente, os dados foram testados em Matlab, em máquinas dotadas de processador CoreTM

i7 2.9GHz, memória RAM de 32GB e placa gráfica GeForce GTX 1070.

4. CONCLUSÕES E TRABALHOS FUTUROS

Neste trabalho foi apresentada a representação de dados de EEG em termos de densidade de ener-gia espectral para classificação de fadiga em sujeitos saudáveis. Mostrou-se que a concatenação de

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

90

Page 91: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Mylena N.M.R.Ferreira, Ana C. Q. Siravenha, Adriana R.G. Castro, Agostinho S. Castro, Schubert R. Carvalho, Bruno D. Gomes

informações sobre as bandas α, β e θ e quatro medidas de fadiga foram suficientes para diferenciaro estado mental de fadiga do estado dito normal com alta acurácia e precisão. A acurácia máximaentre os testes ocorreu quando foram associadas as estratégias de seleção de canal e normalizaçãocoluna à coluna na rede auto-associativa. As redes PMC apresentaram desempenho superior à 99%,corroborando a qualidade da representação dos dados proposta.

Pesquisas futuras devem focar nos aprimoramentos necessários para a utilização dessa metodologiaem sistemas on-line, além de expandir a análise para dados coletados em experimentos diversos aosutilizados neste trabalho.

REFERENCES

Bourlard, H. and Kamp, Y. Auto-association by multilayer perceptrons and singular value decomposition. Biologicalcybernetics 59 (4-5): 291–294, 1988.

Brookhuis, K. A. and De Waard, D. The use of psychophysiology to assess driver status. Ergonomics 36 (9):1099–1110, 1993.

Cajochen, C., Brunner, D. P., Krauchi, K., Graw, P., and Wirz-Justice, A. Power density in theta/alphafrequencies of the waking eeg progressively increases during sustained wakefulness. Sleep 18 (10): 890–894, 1995.

Chalder, T., Berelowitz, G., Pawlikowska, T., Watts, L., Wessely, S., Wright, D., and Wallace, E.Development of a fatigue scale. Journal of psychosomatic research 37 (2): 147–153, 1993.

Cheron, G., Petit, G., Cheron, J., Leroy, A., Cebolla, A., Cevallos, C., Petieau, M., Hoellinger, T.,Zarka, D., Clarinval, A.-M., et al. Brain oscillations in sport: toward eeg biomarkers of performance. Frontiersin psychology vol. 7, pp. 246, 2016.

Dimitrakopoulos, G. N., Kakkos, I., Dai, Z., Wang, H., Sgarbas, K., Thakor, N., Bezerianos, A., and SUN,Y. Functional connectivity analysis of mental fatigue reveals different network topological alterations between drivingand vigilance tasks. IEEE Transactions on Neural Systems and Rehabilitation Engineering 4320 (c): 1–10, 2018.

Eoh, H. J., Chung, M. K., and Kim, S.-H. Electroencephalographic study of drowsiness in simulated driving withsleep deprivation. International Journal of Industrial Ergonomics 35 (4): 307–320, 2005.

Helton, W. S. and Russell, P. N. Working memory load and the vigilance decrement. Experimental BrainResearch 212 (3): 429–437, 2011.

Hinton, G. E. and Zemel, R. S. Autoencoders, minimum description length and helmholtz free energy. In Advancesin neural information processing systems. pp. 3–10, 1994.

Jap, B. T., Lal, S., Fischer, P., and Bekiaris, E. Using eeg spectral components to assess algorithms for detectingfatigue. Expert Systems with Applications 36 (2): 2352–2359, 2009.

Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection. In Proceedings of the14th International Joint Conference on Artificial Intelligence - Volume 2. IJCAI’95. Morgan Kaufmann PublishersInc., San Francisco, CA, USA, pp. 1137–1143, 1995.

Li, J., Lim, J., Chen, Y., Wong, K., Thakor, N., Bezerianos, A., and Sun, Y. Mid-Task Break Improves GlobalIntegration of Functional Connectivity in Lower Alpha Band. Frontiers in Human Neuroscience 10 (June): 1–12,2016.

Liu, Y. T., Wu, S. L., Chou, K. P., Lin, Y. Y., Lu, J., Zhang, G., Lin, W. C., and Lin, C. T. Drivingfatigue prediction with pre-event electroencephalography (EEG) via a recurrent fuzzy neural network. 2016 IEEEInternational Conference on Fuzzy Systems, FUZZ-IEEE 2016 , 2016.

Min, J., Wang, P., and Hu, J. Driver fatigue detection through multiple entropy fusion analysis in an EEG-basedsystem. PLOS ONE 12 (12): e0188756, dec, 2017.

Pyun, H. and Kim, J. A study on the effect of emotion-evoking advertisement with eeg analysis. In Proceedings of2000 Joint Conference of KIIE and KORMS, KIIE and KORMS, Seoul. Vol. 413416, 2000.

Schier, M. A. Changes in eeg alpha power during simulated driving: a demonstration. International Journal ofPsychophysiology 37 (2): 155–162, 2000.

Scott G. Paris, A. H. P. Classroom applications of research on self-regulated learning. Educational Psycholo-gist 36 (2): 89–101, 2001.

Siravenha, A. C. and Carvalho, S. R. Plant classification from leaf textures. In Digital Image Computing:Techniques and Applications (DICTA), 2016 International Conference on. IEEE, pp. 1–8, 2016.

Wascher, E., Rasch, B., Sunger, J., Hoffmann, S., Schneider, D., Rinkenauer, G., Heuer, H., and Gut-berlet, I. Frontal theta activity reflects distinct aspects of mental fatigue. Biological Psychology 96 (1): 57–65,2014.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

91

Page 92: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise da Evolução dos Discursos de Pré-candidatos àPresidente por meio de Representações Linguísticas Vetoriais1

Kid Valeriano, Aline Paes e Daniel de Oliveira

Instituto de Computação, Universidade Federal Fluminense - [email protected], alinepaes,[email protected]

Abstract. Comumente, os pré-candidatos aos cargos governamentais expressam suas opiniões e plataformas decampanha em discursos informais, previamente ao período oficial. Esse comportamento é essencial para que o eleitorconheça as ideologias e plataformas de campanha, de forma a tomar sua decisão de voto. No processo decisório, oeleitor pode considerar a semelhança entre discursos de diferentes candidatos, como o discurso varia ao longo do tempo,e qual a adequação do discurso aos temas mais relevantes para a sociedade. Entretanto, analisar e capturar tais aspectosa partir dos discursos informais é uma tarefa difícil para o eleitor, dado o volume de informação disponibilizada pordiversos veículos de comunicação, e o viés político de alguns deles. Assim, nesse artigo, propomos uma ferramenta deanálise de discurso político baseada em técnicas de Aprendizado de Representações Linguísticas para auxiliar o eleitorna sua decisão. Resultados obtidos a partir dos discursos dos pré-candidatos ao cargo de Presidente do Brasil em 2018permitem verificar como os candidatos se comportam em termos de seus próprios discursos e dos discursos de seusconcorrentes.

Categories and Subject Descriptors: I.2.6 [Artificial Intelligence]: Machine Learning Applications; I.2.7 [Naturallanguage processing]: Discourse

Keywords: doc2vec, natural language processing, discourse analysis

1. INTRODUÇÃO

Durante o período de campanha eleitoral, é esperado que os candidatos a cargos governamentaisapresentem suas plataformas de governo para a população. A campanha é disseminada tanto a partirde meios tradicionais, como TV, rádio, e mídia impressa, como também, mais recentemente, a partirdas mídias digitais. Usualmente, esse período de campanha é limitado a poucos meses antes do diada votação. Nas eleições Brasileiras de 2018, por exemplo, esse período será de 45 dias2. A partirdessa data, todos aqueles oficialmente inscritos como candidatos devem seguir uma série de regras queregulamentam a propaganda eleitoral, incluindo o uso de linguagens de sinais e propaganda apenasem páginas web com a terminação .can.br3.

Uma das formas mais abrangentes de propaganda é a veiculada gratuitamente em emissoras abertasde TV e rádio4. Porém, nas eleições Brasileiras, o tempo de propaganda eleitoral gratuita depende dascoligações estabelecidas entre os partidos, o que faz com que alguns candidatos possuam muito tempode propaganda gratuita, enquanto outros conseguem apenas poucos segundos. De qualquer forma,nem todos os eleitores dispõem de tempo ou interesse para assistir todas as propagandas gratuitas.

1Os autores gostariam de agradecer a CAPES, CNPq e FAPERJ pelo apoio financeiro.2http://www.justicaeleitoral.jus.br3https://www.cgi.br/resolucoes/documento/2008/0084https://exame.abril.com.br/brasil/como-a-propaganda-eleitoral-afetou-as-ultimas-eleicoes-presidenciais/

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

92

Page 93: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 ·Assim, é cada vez mais comum que os pré-candidatos comecem a disseminar suas ideias e planos degoverno antes do período oficial de propaganda eleitoral, utilizando mídias digitais e redes sociais,e.g. Facebook, Twitter, etc. De forma similar, a imprensa também entrevista e publica conteúdorelacionado aos pré-candidatos antes do período oficial. Em ambos os casos, o eleitor pode dar inícioao seu processo de decisão de voto o quanto antes, usando, para tanto, as informações obtidas a partirde tais entrevistas, relatos, e vídeos disponibilizados pelos candidatos.

Embora essa prática seja útil para dar mais tempo para o cidadão tomar uma decisão consciente ebem fundamentada, o volume de informações pode ser tão grande que ele terá dificuldades de processá-las. Logo, aspectos relevantes como: (i.) a ideologia e características políticas do candidato, (ii.)seu posicionamento frente às questões consideradas relevantes pelo cidadão, (iii.) como o candidatodefende suas ideias ao longo do tempo (i.e., se o discurso do candidato é consistente), (iv.) o que ocandidato tem a dizer a partir de temas atuais e pontuais, (v.) e como ele se compara em relação aosdemais candidatos, podem passar despercebidas ou não serem passíveis de análise pelo eleitor.

Assim, nesse artigo, propomos uma ferramenta direcionada a auxiliar o eleitor no processo detomada de decisão. A ferramenta tem dois objetivos principais: (i.) comparar a similaridade dosdiscursos de um mesmo candidato ao longo do tempo e (ii.) comparar a similaridade dos discursos dedois candidatos. Como as comparações devem ser feitas de forma automática, a partir de conteúdolinguístico, a ferramenta se baseia em Aprendizado de Máquina para aprender uma representaçãolinguística latente [Le and Mikolov 2014] dos discursos. Especificamente, utilizamos a técnica devetorização automática não-supervisionada de documentos, denominada de Doc2Vec [Le and Mikolov2014; Dai et al. 2015]. Dados os documentos representados em formato vetorial, é possível utilizarmedidas de distância para verificar aqueles que estão mais próximos uns dos outros, como acontececom a já consolidada técnica Word2Vec [Mikolov et al. 2013; Mikolov et al. 2013]. De forma a mostrara utilidade da ferramenta desenvolvida, utilizamos como estudo de caso vídeos e entrevistas dos pré-candidatos ao cargo de Presidente do Brasil na eleição de 2018. Os conteúdos textuais referentes aoque os candidatos falaram são extraídos automaticamente a partir dos áudios.

Este artigo se encontra organizado em 4 seções além da introdução. A Seção 2 discute o Doc2Vec.A Seção 3 apresenta como computar similaridade dos discursos com Doc2Vec. A Seção 4 discute ostrabalhos relacionados, e, finalmente, a Seção 5 conclui o artigo.

2. APRENDIZADO DE REPRESENTAÇÕES LINGUÍSTICAS EM DOCUMENTOS

Até alguns anos atrás, as técnicas de bag of words (BOW) e Bag-of-n-grams [Harris 1954; Zhanget al. 2010] eram as mais utilizadas para transformar textos em um conjunto de atributos, de formaa aplicar técnicas de Aprendizado de Máquina para a indução de padrões. Rudemente falando, ométodo BOW consiste em transformar o texto em um conjunto de tokens, considerar que tais tokenssão os atributos da tarefa de aprendizado, e utilizar a frequência do token (ou o inverso da frequência)em um exemplo como valor associado aos atributos. Porém, por se basear em contagem, esse métodofalha em situações em que o padrão a ser extraído deve levar em consideração aspectos semânticos.

Uma das causas é que os aspectos semânticos das palavras em um texto podem variar de acordo como contexto considerado. Assim, supondo, por exemplo, que os valores associados a um atributo podemvariar entre 0 e 1, os tokens "rei"e "rainha"em um contexto de realeza deveriam ter valores próximosum ao outro, e próximos a 1. Por outro lado, em um contexto de gênero, os valores associados a essasmesmas duas palavras deveriam ser distantes um do outro , uma vez que tratam de gêneros diferentes.Já em um contexto alimentício, essas palavras deveriam ter valores muito baixos, embora próximosum do outro. Ou seja, definir um conjunto de atributos que generalize sobre diversos contextos, eatribuir valores apropriados para tais atributos, é uma tarefa difícil de ser realizada manualmente epropensa a erros, principalmente devido à subjetividade.

Para contornar esse problema, tem se tornado uma prática comum utilizar representações vetoriais

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

93

Page 94: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 3

numéricas para associar valor aos componentes de um texto (e.g., suas palavras). Tais representaçõessão mais conhecidas como embeddings [Collobert et al. 2011], e normalmente são definidas comovetores de 300 dimensões, aprendidos de forma automática a partir de diversos textos. Assim, cadadimensão pode refletir um contexto distinto, e o valor associado à dimensão é aprendido de acordo.Espera-se que, ao final do processo de aprendizado, as palavras com semânticas mais próximas sejammapeadas para posições mais próximas no espaço vetorial. As implementações mais utilizadas detais técnicas, word2vec [Mikolov et al. 2013] – que por sua vez implementa os algoritmos Skip-gram [Guthrie et al. 2006] e CBOW [Mikolov et al. 2013] – e GloVe [Pennington et al. 2014],utilizam redes neurais com uma camada escondida. Os vetores referentes aos atributos de palavrassão extraídos a partir dos pesos da camada oculta, fazendo com que essa forma de aprendizado recebao nome de modelos neurais de linguagem [Bengio et al. 2003]. Brevemente falando, o objetivo domodelo é maximizar o valor de:

1

T

T−k∑

t=k

log p (wt|wt−k, . . . , wt+k) (1)

Onde wi representa uma palavra em uma sequência de palavras w1, w2, . . . , wT , e wt−k, . . . , wt+k

representa uma janela de palavras de tamanho t, onde wt−k, wk, wt+k ⊂ w1, w2, . . . , wT . Cada tarefade predição é usualmente definida como um classificador softmax, como a seguir:

p (wt|wt−k, . . . , wt+k) =eywt

∑ieyi

(2)

Onde yi é o logaritmo não normalizado da probabilidade da palavra i ser a saída do modelo, computadocomo:

y = b+ Uh (wt−k, . . . , wt+ k;W ) (3)

em que U e b são os pesos do classificador e h é ou a concatenação ou a média dos vetores de palavrasem W . Os modelos neurais de linguagem são treinados com gradiente descendente, onde o gradienteé obtido a partir do algoritmo de retro-propagação [Rumelhart et al. 1986].

Como o objetivo do presente artigo é detectar similaridade entre documentos, o ideal é que estespossam ser dispostos diretamente em um espaço vetorial, da mesma forma que as palavras. Assim,torna-se possível verificar aqueles que se encontram mais próximos, seguindo uma métrica de distânciade vetores, e classificá-los como mais semanticamente similares. Para tanto, nos beneficiamos domodelo Doc2Vec [Le and Mikolov 2014], que tem como principal funcionalidade criar representaçõesvetoriais para fragmentos de textos, independente de seus tamanhos. Tal método se baseia nos mesmosmodelos de aprendizado de representações vetoriais de palavras, mas, além da matriz de vetores depalavras W , uma matriz de vetores de documentos D também é treinada. Assim, a equação 2 éreescrita como a seguir:

y = b+ Uh (wt−k, . . . , wt+ k;W,D) (4)

Duas implementações do Doc2Vec são mais usadas: PD−DVM , derivada do método Skip-gram ePD −DBOW , derivado do CBOW. O modelo PV −DBOW , em particular, recebe como entrada amatriz de documentos e devolve como saída palavras que estão associadas ao documento. Nesse caso,o vetor di ∈ D associado ao documento pode ser visto como uma nova palavra, que será compartilhadoentre todos os contextos oriundos do mesmo documento, mas não entre todos os documentos. A matrizde vetores de palavras W , por outro lado, é compartilhada entre todos os documentos.

Em tempo de inferência, na presença de um novo documento dock /∈ Docs, onde Docs é o conjuntode documentos usados para o treinamento, é necessário executar o método do gradiente descendentepara obter o vetor representativo de dock. Para tanto, uma nova coluna é adicionada a D e os vetoresem D são ajustados seguindo o gradiente, mas mantendo U , W e b fixos. Para verificar se dois

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

94

Page 95: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 ·documentos são similares, comumente usa-se uma medida de distância entre os respectivos vetores,como por exemplo, a similaridade de cosseno. A Equação 5 exibe o cálculo de tal medida, onde A eB são vetores e Ai e Bi são seus componentes, respectivamente.

cos(θ) =A ·B∥∥A∥∥ ·∥∥B∥∥ =

∑i=0n

AiBi

√ ∑i=0n

A2i

√ ∑i=0n

B2i

(5)

3. COMPUTANDOA SIMILARIDADE DE DISCURSOS DE PRÉ-CANDIDATOS COMODOC2VEC

A ferramenta desenvolvida nesse artigo consiste de quatro componentes principais: (i.) coleta dedados; (ii.) pré-processamento de dados; (iii.) treinamento do modelo com Doc2Vec5; e (iv.) detecçãode similaridade a partir do modelo treinado. Em seguida, são gerados resultados que mostram ocomportamento de similaridade entre os discursos dos candidatos.

3.1 Componentes do Processo Experimental

Coleta e organização de dados. Para a coleta de dados dos discursos dos pré-candidatos, utilizamosos vídeos disponibilizados abertamente na plataforma YouTube R©. A seguir, o conteúdo falado no ví-deo é extraído em formato textual, usando as ferramentas Downsub6, que extrai o áudio em formatode legenda, e Subtitletools 7, que converte arquivos de legenda em texto plano. Os textos são, então,organizados por candidatos e por data de divulgação que nós chamamos janelas de tempo compreen-dendo ’Anteriores’ ao mês de Outubro, ’Outubro’,’Novembro’, até o mês ’Junho’. Foi adotado comocritério de seleção vídeos de diferente duração desde 2 minutos até 2 horas aproximadamente, dospré-candidatos à presidência do Brasil nas eleições de 2018. No total, foram coletados 353 discursos.

Pré-processamento dos textos. Apenas quatro passos de tratamento fazem parte da ferramentadesenvolvida: (i.) conversão para letras minúsculas, (ii.) extração de palavras a partir dos textos(tokenização), (iii.) remoção de palavras sem significado semântico atrelado (remoção de stop-words,incluindo números), e (iv.) stemização de Porter, que é a transformação de uma palavra para a suabase ou raiz, ao remover de forma heurística os sufixos. Cada um desses passos de pré-processamentoforam executados usando a biblioteca NLTK [Bird and Loper 2004]. Por usar o Doc2Vec, não éusual que sejam feitos tratamentos adicionais, que poderiam atrapalhar a captura da semântica dosdocumentos.

Treinamento dos vetores de documentos. Para alimentar a entrada do Doc2Vec, a ferramenta podeseguir três caminhos: (i.) conversão para minúsuculas e tokenização, (ii.) seguido de remoção de stop-words e stemização, ou (iii.) seguido de remoção de stop-words apenas. Os demais parâmetros doDoc2Vec seguem a recomendação em [Lau and Baldwin 2016], o uso da implementação PV-DBOW,incluindo 300 como o tamanho dos vetores de representação, 15 como o tamanho da janela de contexto,200 épocas de treinamento, entre outros.

3.2 Resultados Experimentais

Os resultados apresentados neste artigo são a interpretação do uso de vetores resultantes do modeloDoc2vec aplicado aos discursos políticos, usando a medida de similaridade de cosseno [Dai et al. 2015],

5https://radimrehurek.com/gensim/models/doc2vec.html6https://downsub.com/7https://subtitletools.com

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

95

Page 96: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 5

computada no espaço vetorial dos documentos representados como vetores. Selecionamos os pré-candidatos que haviam manifestado a intenção de se candidatar, para mostrar os resultados obtidosnesta pesquisa, por razões de espaço serão analisados os candidatos: Jair Bolsonaro, Ciro Gomes,Geraldo Alckmin, Manuela D’Avila e Marina Silva.

Semelhança mútua. A semelhança mútua é calculada encontrando a semelhança entre dois paresde discursos, onde ambos os documentos são mais semelhantes um ao outro. Ou seja, suponha umdocumento A cujo documento mais semelhante a ele seja B, e, da mesma forma, o documento B possuimaior semelhança com o documento A. Ao calcular a semelhança mútua, espera-se que os dois paresde discursos contenham uma forte semelhança semântica em nosso espaço vetorial, se a semelhançafora alta poderia tratar-se de discursos parecidos usando a mesmas frases ou palavras. O resultadoda análise de discursos que apresentam similaridade mútua apresentado na Figura 1.

A semelhança mútua entre discursos do mesmo candidato de cor azul: observou-se que a maioriados candidatos tem uma maneira de pensar sobre um tema específico, sendo constante ou repetitivaao longo de sua campanha, e.g., (a) Manuela D’Avila: propostas para valorização do trabalho e (b)Manuela D’Avila: 1 de Maio dia do trabalho. A semelhança mútua entre discursos de candidatosdiferentes de cor laranja: representa que ambos os candidatos possuem ideais semelhantes ou quese tenta replicar parte de algum pensamento ou propostas de outro candidato, e.g., (a) Sabatina dePré-Candidatos a Presidência da República com Ciro Gomes e (b) Sabatina de Pré-Candidatos aPresidência da República com Marina Silva. Em ambos os discursos os candidatos foram arguidossobre a economia (impostos e auditorias fiscais).

Fig. 1: Semelhança mútua entre pares de discursos de pré-candidatos a Presidente do Brasil

Semelhança média entre candidatos. Para computar a semelhança entre mais de um discurso, utili-zamos os vetores dos documentos para calcular a semelhança média, conforme apresentado na Equação6. A similaridade entre os candidatos é calculada usando a média de todas as semelhanças obtidaspor pares de dois vetores pertencentes a candidatos distintos. Assim, cada discurso feito por um de-terminado candidato, em uma determinado janela de tempo, é comparado com os discursos de outrocandidato, obtendo como resultado a similaridade média de cada candidato em relação aos demais.

SMC_D2V =1

N > 0

N∑

j=2

j−1∑

i=1

similarity(dvj , dvi) (6)

A Tabela I exibe, para cada candidato, o candidato com o qual ele obteve a maior similaridade emseus discursos, i.e., similaridade máxima. A similaridade máxima pode indicar que eles possuem linhas

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

96

Page 97: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 ·Tabela I: Similaridade Máximaentre os discursos dos pré-candidatos a Presidente do Brasil

Candidatos Similaridade MáximaJair Bolsonaro 0.353 (Manuela)Ciro Gomes 0.344 (Geraldo)Geraldo Alckmin 0.37 (Manuela)Manuela D’Avila 0.37 (Geraldo)Marina Silva 0.354 (Manuela)

Fig. 2: Candidato mais constante: tamanho 3 de Manuela D’Avila

ideológicas ou propostas semelhantes, ou ainda que eles podem abordar assuntos parecidos em seusrespectivos discursos, como o uso de tópicos similares nos discursos, mesmo que tratados com linhas depensamento antagônicas, como também propostas e ideologias distintas relativas aos mesmos tópicos.Na Tabela I podemos perceber que o pré-candidato Jair Bolsonaro possui maior similaridade médiaem relação a candidata Manuela D’Avila. Apesar dos pré-candidatos possuírem linhas ideológicasdistintas, os dois discutem sobre temas semelhantes em seus discursos como movimento feminino eLGBT, cada qual com uma perspectiva diferente.

Discursos constantes de candidatos. O uso das janelas do tempo definidas anteriormente assumeum significado vital nesta métrica. A ideia é verificar quais candidatos mantém o discurso constantepor uma maior quantidade de janelas de tempo, ao longo da campanha. Para o cálculo tomam-seinicialmente todos os vetores dos discursos mais antigos do candidato em avaliação, de forma quepossamos calcular os dez discursos mais similares ao mais antigo, e repetindo esse processo partindodos discursos mais antigos até chegar à atualidade. Nesse cálculo, utilizamos uma similaridade mínimade 0,5, para que pelo menos tenhamos 50% de semelhança entre os discursos. Além disso, utilizamosuma constante de tempo 1 por janela, i.e., se considerarmos os discursos de um candidato de outubroa junho, calculamos iterativamente o mais semelhante em relação a Novembro, depois em relação aDezembro, até Junho. A Fig. 2 exibe o grafo de continuidade da candidata que se manteve constantepor mais tempo, Manuela D’Avila. Ser constante pode nos levar a pensar que o candidato tem seusideais bem definidos, sem mudar seu modo de pensar, mesmo que existam fatores que o estimulem afazê-lo durante toda a sua campanha, ou também faça seus discursos na mesma direção durante perío-dos consecutivos, sem apresentar, no entanto, uma evolução natural em seus pensamentos. Conformeapresentado na Tabela III, o pré-candidato Geraldo Alckmin não possui discursos constantes (mudade assunto discursado constantemente), mas os candidatos Jair Bolsonaro, Ciro Gomes e Marina Silvatêm como a maior tava de constância 2, Manuela D’Avila, por sua vez, tem muitos caminhos constan-tes com valor 2, que ademais têm grandes semelhanças entre os discursos constantes, destacando queé o candidata mais constante no que se refere aos temas discursados.

Coerência de discursos por período de tempo. Chamamos de coerência à proximidade semânticaque tem os discursos proferidos pelos candidatos durante os períodos de campanha. A avaliaçãofoi realizada usando a similaridade entre os discursos dos candidatos durante uma janela de tempo,i.e. os discursos de um mesmo candidato foram comparados variando-se a data em que o mesmofoi realizado. Os resultados observados na Figura 3 mostram a coerência dos diferentes discursosrealizados por um determinado candidato em uma janela de tempo. De acordo com a Fig. 3, o

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

97

Page 98: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

· 7

Tabela II: Tres caminhos constantes por candidato

Candidato Caminho Arestas Tamanho SimilaridadeBolsonaro Maio ->Junho 4 1 0,52 / 0,51 / 0,56 / 0,57Bolsonaro Marco ->Abril ->Maio 2 2 0,55 / 0,58Bolsonaro Maio ->Junho 1 1 0,58

Ciro Abril ->Maio ->Junho 3 2 0,54 / 0,6 / 0,59Ciro Maio ->Junho 2 1 0,55 / 0,58Gera Maio ->Junho 2 1 0,52 / 0,57

Manuela Março ->Abril ->Maio 2 2 0,68 / 0,5Manuela Março ->Abril ->Maio ->Junho 3 3 0,55 / 0,69 / 0,61Manuela Março ->Abril ->Maio 2 2 0,62 / 0,6Marina Maio ->Junho 2 1 0,55 / 0,56

candidato Geraldo Alckmin na janela anterior a Outubro de 2017 - "ant"na Fig. 3 atinge a maiorcoerência, enquanto que Ciro Gomes apresenta a menor coerência. Tanto Ciro quanto Alckmin foramos que mais apresentaram variações de coerência ao longo do tempo, enquanto que os candidatosMarina Silva, Manuela D’Avila e Jair Bolsonaro foram coerentes ao longo de suas campanhas. Porém,esse resultado pode refletir que os 3 candidatos sempre tratam dos mesmos temas ou que eles de fatomantém um discurso semanticamente similar ao longo do tempo.

Fig. 3: Coerência de discursos por período

4. TRABALHOS RELACIONADOS

Embora no melhor do nosso conhecimento não existam trabalhos similares ao aqui exposto no contextode eleições brasileiras, trabalhos anteriores já tratam do tema de similaridade de discursos políticos.Em [Greene and Cross 2017] o objetivo principal era extrair o tópico mais relevante utilizando adecomposição não negativa da matriz de fatorização de textos (NMF). O processo foi realizado emduas camadas, onde, ao aplicar o NMF na primeira camada obtém-se o tópico principal de cada períodode tempo, e ao aplicar o NMF em uma segunda camada, a partir dos resultados da primeira, foramcapturados temas de recorrência da Agenda Política do Parlamento Europeu. Esta abordagem, assimcomo a nossa, é não-supervisionada. Em [Gautrais et al. 2017] os autores também usaram um modelode duas camadas. Porém, enquanto a primeira camada também objetivou extrair o tema do texto, nasegunda camada, usando um algoritmo chamado Signature Model, foi extraído o tópico recorrente aolongo do tempo, com o uso de programação linear. Como se observa nesses dois trabalhos, a análiseda evolução dos candidatos é baseada somente nos temas. Em [Azarbonyad et al. 2017] foi propostauma abordagem para detectar mudanças semânticas entre diferentes pontos de vista aplicados aosdiscursos políticos, tendo como base o vetor de palavras computado com o Word2Vec. Basicamente,computa-se a distância entre uma palavra em um espaço e a mesma palavra em outro espaço, paraverificar se houve mudança no significado de ambas.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

98

Page 99: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 ·5. CONCLUSÕES

Neste artigo, apresentamos alguns resultados práticos utilizando a representação vetorial de discursosinformais curtos de pré-candidatos ao cargo de Presidente do Brasil. Para obter a representação noformato de vetores multidimensionais, nos beneficiamos da abordagem Doc2Vec, que, da mesma formaque o Word2Vec faz com palavras, tenta extrair a semântica dos documentos a partir do processo deaprendizado. Com o Doc2Vec e a medida de distância de cosseno, foi possível exemplificar como ana-lisar a evolução dos candidatos ao longo da campanha política. Pelos resultados, foi possível observarque nem sempre conseguimos medir a similaridade semântica considerando políticas e ideologias, umavez que não levamos em consideração os temas tratados nos discursos. Como trabalho futuro, preten-demos avaliar a similaridade entre ideologias políticas de diferentes candidatos, no que diz respeito atemas específicos discutidos por eles, bem como análises mais extensas conectando os candidatos aosseus tópicos de discurso, e outras formas de computar distância entre os vetores.

REFERENCES

Azarbonyad, H., Dehghani, M., Beelen, K., Arkut, A., Marx, M., and Kamps, J. Words are malleable:Computing semantic shifts in political and media discourse. In Proceedings of the 2017 ACM on Conference onInformation and Knowledge Management. ACM, pp. 1509–1518, 2017.

Bengio, Y., Ducharme, R., Vincent, P., and Jauvin, C. A neural probabilistic language model. Journal ofmachine learning research 3 (Feb): 1137–1155, 2003.

Bird, S. and Loper, E. Nltk: the natural language toolkit. In Proceedings of the ACL 2004 on Interactive posterand demonstration sessions. Association for Computational Linguistics, pp. 31, 2004.

Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., and Kuksa, P. Natural languageprocessing (almost) from scratch. Journal of Machine Learning Research 12 (Aug): 2493–2537, 2011.

Dai, A. M., Olah, C., and Le, Q. V. Document embedding with paragraph vectors. arXiv preprint arXiv:1507.07998 ,2015.

Gautrais, C., Cellier, P., Quiniou, R., and Termier, A. Topic signatures in political campaign speeches. InEMNLP 2017-Conference on Empirical Methods in Natural Language Processing, 2017.

Greene, D. and Cross, J. P. Exploring the political agenda of the european parliament using a dynamic topicmodeling approach. Political Analysis 25 (1): 77–94, 2017.

Guthrie, D., Allison, B., Liu, W., Guthrie, L., and Wilks, Y. A closer look at skip-gram modelling. InProceedings of the 5th international Conference on Language Resources and Evaluation (LREC-2006). pp. 1–4,2006.

Harris, Z. S. Distributional structure. Word 10 (2-3): 146–162, 1954.Lau, J. H. and Baldwin, T. An empirical evaluation of doc2vec with practical insights into document embedding

generation. In Proceedings of the 1st Workshop on Representation Learning for NLP. pp. 78–86, 2016.Le, Q. and Mikolov, T. Distributed representations of sentences and documents. In International Conference on

Machine Learning. pp. 1188–1196, 2014.Mikolov, T., Chen, K., Corrado, G., and Dean, J. Efficient estimation of word representations in vector space.

arXiv preprint arXiv:1301.3781 , 2013.Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. Distributed representations of words and

phrases and their compositionality. In Advances in neural information processing systems. pp. 3111–3119, 2013.Mikolov, T., Yih, W.-t., and Zweig, G. Linguistic regularities in continuous space word representations. In

Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. pp. 746–751, 2013.

Pennington, J., Socher, R., and Manning, C. Glove: Global vectors for word representation. In Proceedings ofthe 2014 conference on empirical methods in natural language processing (EMNLP). pp. 1532–1543, 2014.

Rumelhart, D. E., Hinton, G. E., and Williams, R. J. Learning representations by back-propagating errors.nature 323 (6088): 533, 1986.

Zhang, Y., Jin, R., and Zhou, Z.-H. Understanding bag-of-words model: a statistical framework. InternationalJournal of Machine Learning and Cybernetics 1 (1-4): 43–52, 2010.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

99

Page 100: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Can I make a wish?: a competitionon detecting meteors in images

A. C. Lorena1, D. S. Kaster2, R. Cerri3, E. R. Faria4, V. V. de Melo5

1 Instituto Tecnológico de Aeronáutica, Divisão de Ciência de Computaçã[email protected]

2 Universidade Estadual de Londrina, Departamento de Computaçã[email protected]

3 Universidade Federal de São Carlos, Departamento de Computaçã[email protected]

4 Universidade Federal de Uberlândia, Faculdade de Computaçã[email protected]

5 Universidade Federal de São Paulo, Instituto de Ciência e [email protected]

Abstract. Promoting competitions has become a path towards attracting people’s interest into diverse areas. Manyinternational conferences have sessions dedicated to one or more competitions, in which participants are challengedby real problems for which advanced solutions are needed. This paper describes the first Brazilian competition onKnowledge Discovery in Databases (KDD-BR), which was part of three main events of the Brazilian Computer Societydedicated to Artificial Intelligence, Databases and Data Mining. In this first edition the participants were supposedto detect meteors, popularly known as shooting stars, in regions of interest of images collected from a monitoringstation located at São José dos Campos, Brazil. The data set assembled is detailed, which may be of interest for futurebenchmark studies using such data. The competition results, contributions and limitations are also discussed, providinga guide for future editions.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intel-ligence]: Learning

Keywords: competition, data mining, machine learning

1. INTRODUCTION

Numerous well-known international conferences and symposia have the practice of promoting compe-titions as one of their activities. These competitions have become routine in events such as: Neural In-formation Processing Systems (NIPS), IEEE World Congress on Computational Intelligence (WCCI),International Conference on Machine Learning (ICML) and the International Conference on Knowl-edge Discovery and Data Mining (KDD). Registered applicants must offer solutions to challengingproblems from a variety of domains, such as text classification, handwriting digit recognition, market-ing, and others. One of the pioneering events to promote a Machine Learning (ML) and Data Mining(DM) competition was KDD, which helds annually the KDD-Cup competition since 1997 [Rosset andInger 2000].

The importance of such competitions is multiple: to promote the formulation of new DM andML techniques and solutions to challenging problems; to motivate more public to participate in theunderlying event; to introduce new application domains suited for DM and ML solution; among

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

100

Page 101: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · A. C. Lorena et al.

others. The used data sets are usually made publicly available, enabling any interested party, whetheracademic or not, to participate. According to Isabelle Guyon, a major promoter of internationalcompetitions in ML, “the challenges launched each year have allowed us to cross the frontiers of MLresearch” [Guyon et al. 2011]. Since the beginning of the 2010’s, some platforms which host datascience and ML competitions have also been launched. One of the most popular representatives isKaggle [Carpenter 2011], which has become a standard platform in which large companies launchchallenges that require ML solutions. The authors of the best solutions can be rewarded in a varietyof ways, from financially through job offerings.

In Brazil, competitions such as Robocup, in the area of robotics, are responsible for attracting a largeaudience and arouse the interest from the general public towards this area. In 2017, a first Braziliancompetition on KDD (KDD-BR) was launched as part of the joint activities of the Brazilian Conferenceon Intelligent Systems (BRACIS), Brazilian Symposium on Databases (SBBD) and Symposium onKnowledge Discovery, Mining and Learning (KDMiLe) events. In this first edition, the participantswere challenged to create an automatic algorithm able to predict whether a given region of interest ina night sky image contains or not a meteor, popularly known as a shooting star.

Monitoring meteors is of interest of some major aerospace agencies, such as NASA, which financesthe Center for Near-Earth Objects Studies (CNEOS) in the California Institute of Technology [Chodas2015]. Such observations may support defense mechanisms against possible harmful impacts on theEarth or, more commonly, to identify pieces which may be collected for chemical studies. In Brazilthere are also some citizen science initiatives dedicated to the monitoring of meteors crossing thesouthern skies, such as EXOSS (Exploring the Southern Sky)1 and BRAMON (Brazilian MeteorObservation Network)2. The data set collected for the competition is composed of images from amonitoring station of the EXOSS Citizen Science project, located at the Observatory of Astronomyand Space Physics from University of Vale do Paraíba (UNIVAP), São José dos Campos, Brazil.

The competition was launched on July, 1st, 2017 in the Kaggle in class platform. A total of 28 teamsjoined the competition. The participants were mostly from the southern region of Brazil, althoughthere have been some submissions from other countries too. The top three teams were invited topresent their solutions at the joint 2017 BRACIS-SBBD-KDMiLe and the actual final positions wererevealed at the conference dinner, on October 4th. This first attempt to promote a KDD competitionin Brazil can be considered successful and was able to attract researchers from both academy andindustry for the event. This paper describes the data set made publicly available (Section 2), presentsthe competition configuration (Section 3), results and main statistics (Section 4), and also discussessome limitations of this first competition which can be addressed in future editions (Section 5).

2. THE DATA SET

EXOSS is a Brazilian non-profit organization whose objective is to monitor meteors that cross thesouthern skies with a low cost system. Any citizen can apply for participation and build his/herown monitoring station. There are currently about 50 active EXOSS monitoring stations at variouslocations of the Brazilian territory3. It is a citizen science project in which data records of meteorscaptured by each station are gathered in a common repository after confirmation. The simultaneouscapture of a same meteor by multiple stations can allow to determine its trajectory and possibleimpact point (most of the meteors actually get destroyed in the Earth’s atmosphere). The Universityof Vale do Paraíba (UNIVAP) is a partner institution of EXOSS and has a monitoring station locatedat its Observatory of Astronomy and Space Physics. The data set assembled for this competition iscomposed of images from one of the cameras of the UNIVAP monitoring station.

1http://press.exoss.org/2http://www.bramonmeteor.org/bramon/3http://press.exoss.org/associados/estacoes-associadas-a-exoss/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

101

Page 102: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning · 3

The UNIVAP monitoring station consists of a low-cost video surveillance camera with a dedicatedmotion capture software. This software, named UFO Capture, records any moving object detected bythe camera, which was programmed to work during the nighttime. These objects can be either meteorsor non-meteors, e.g., birds, insects, planes, lightning, and rain drops. The weather conditions and thesky configuration vary over the nights, with the presence/absence of stars, the moon or even clouds.The camera can also make noisy recordings, in which no object is indeed detected. The interest is toaccurately identify those images which contain meteor records. Some examples of captured imagesare presented in Figure 1.

(a) Example of meteor. (b) Example of meteor on a cloudy day.

(c) Example of non-meteor (possibly a plane). (d) Example of non-meteor (possibly abird/insect).

Fig. 1. Examples of captured images.

The UFO Capture software is distributed by the SonataCo4 network, a Japanese initiative on low-cost meteor monitoring [Jenniskens 2017]. According to its manual, it is a motion capture softwarewhich starts recording from a few seconds before the action is recognized to a few seconds after theaction finishes. The same network also distributes the UFOAnalyzer and UFOOrbit tools, which canbe used in the analysis of the captured images. UFOAnalyzer calculates the direction and elevationof the event that is recorded, and allows to roughly confirm whether the moving object is a meteor,since some records may not correspond to a valid meteor trajectory. UFOOrbit is used to get theorbit of a same meteor observed by more than two different locations (monitoring stations). In thiscase, the object can be indeed confirmed as a meteor, which was visible at multiple sites.

4http://sonotaco.com/soft/e_index.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

102

Page 103: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · A. C. Lorena et al.

The competition images were collected during the months of April and May of 2017 and werecategorized by Jennifer Nielsen, Aeronautics Engineering student at UNIVAP, under the supervisionof Dr Irapuan Rodrigues, Physics and Astronomy Professor at UNIVAP. Periodically, this studentscans the videos and images from the UNIVAP monitoring station and deletes all non-meteors files.This competition aims to built an automate system to support this filtering, by classifying the recordedimages into two classes: meteor vs non-meteor. This shall reduce the overhead of manually filteringthe non-meteor cases from the daily repository formed locally at UNIVAP.

The UFO Capture software stores five files per recording: (i) a movie in the AVI format; (ii) an XMLfile with profile information for UFO Analyzer ; (iii) a bitmap file with mask and average brightnessinformation for UFOAnalyzer ; (iv) a JPEG file containing a peak hold or snapshot still image of thecaptured event; and (v) a thumbnail JPEG image, in which a region of interest where the movingobject was detected is also highlighted in a rectangle. The regions of interest in the snapshot imageswere used in the competition. Therefore, first the highlighted regions of the thumbnail images (asshown in Figure 2b) were identified in the corresponding snapshot images (shown in Figure 2a), whichwere cropped. We opted to use the snapshot images, which had a better resolution.

(a) Snapshot of a meteor. (b) Thumbnail image of the same meteor.

Fig. 2. Examples of two JPEG images stored by UFO Capture per recording.

A total of 122 images were captured and labeled: 41 meteors and 81 non-meteors. For each image, alarge set of characteristics were extracted by various image processing algorithms from the JFeatureLiblibrary5 using a workflow-based image retrieval distributed architecture [Milano-Oliveira and Kaster2017], as shown in Table I. A total number of 3, 451 features were extracted. The idea was to build adata set with diverse information about the images, so that competitors could opt to use all or part ofthem in their automatic system. We opted to extract those features instead of distributing the imagesdirectly for avoiding the competition to be biased towards image processing solutions only. Indeed,the distributed data set has challenging characteristics for ML and DM: it has a high dimensionalityand a low number of examples; it is noisy; and it is slightly imbalanced with a ratio (ratio of thenumber of examples in the majority class to the number of examples in the minority class) of 1.97,which can be considered moderate [Fernández et al. 2008].

3. KAGGLE CONFIGURATION

The competition was hosted in the Kaggle platform6 and launched on July 1st, 2017. In particular,we used Kaggle in class, which is designed for hosting academic ML competitions at no cost.

5https://github.com/locked-fg/JFeatureLib6https://www.kaggle.com/c/can-i-make-a-wish-detecting-shooting-stars

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

103

Page 104: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning · 5

Table I. Feature sets extracted from the images.Feature set # features Reference

Auto Color Correlogram 768 [Huang et al. 1997]CEDD 144 [Chatzichristofis and Boutalis 2008a]Color Histogram 64 [Novak and Shafer 1992]FCTH 192 [Chatzichristofis and Boutalis 2008b]Fuzzy Histogram 125 [Han and Ma 2002]Fuzzy Opponent Histogram 576 [Van De Sande et al. 2010]Gabor 60 [Fogel and Sagi 1989]Haralick 14 [Haralick et al. 1973]Histogram 256 [Scott 2010]JCD 168 [Zagoris et al. 2010]Jpeg Coefficient Histogram 192 [Sikora 2001]Luminance Layout 64 [Sikora 2001]MPEG7 Color Layout 33 [Sikora 2001]MPEG7 Edge Histogram 80 [Sikora 2001]Mean Intensity Local Binary Patterns 256 [Ojala et al. 1994]Mean Patch Intensity Histogram 256 [Taylor and Drummond 2011]Moments 4 [Abo-Zaid et al. 1988]Opponent Histogram 64 [van de Sande et al. 2004]PHOG 40 [Bosch et al. 2007]Reference Color Similarity 77 [Kriegel et al. 2011]Tamura 18 [Tamura et al. 1978]

The data set was randomly divided into a training and a testing sets. The test set was furtherrandomly divided into two halves by the Kaggle platform: public and private. During any Kagglecompetition, a leaderboard is built based on the performance achieved on the public test data par-tition. At the end of the competition, the performance on the private data is also revealed and thecompetitors are ranked accordingly. An overfitted model can present high-quality results on the publictest set, achieving top rank positions in the public leaderboard but a much lower rank on the privateleaderboard. For that reason, competitors must do their best at avoiding overfitting. This effect wasobserved in this competition, in which some competitors with low performance on the private datawere top-ranked in the public data and vice versa.

Kaggle supports a wide range of evaluation measures. Initially, the meteor competition was con-figured towards maximizing the AUC (Area Under the ROC Curve) measure, which revealed to benon-competitive on our data set. For this reason, about one week later the log-loss was adoptedinstead, and it had to be minimized. The final results of the competition were based on the solutionsposted until September 18th, 2017. After the deadline, the system was still open for submissions,but they were not taken into account for computing the final competition results. This was done sothat the final ranking could be revealed during the conference only. The top three teams were invitedto present their solutions at a competition award session, on October 3rd, 2017, but the actual finalpositions of the ranking were disclosed during the conference dinner on October 4th, 2017.

3.1 Rules

Mostly, the rules of the competition were kept the standard suggested in the Kaggle in class plat-form: (i) the participants were allowed to form teams; (ii) team mergers were allowed only for teamscontaining one member each; and (iii) each participant could submit a limit of two solutions per dayand could opt for two final submissions for judging.

The submission files had to be formatted with three columns: Id, Prob1 and Prob2. Id gives theidentification of the test image. The values Prob1 and Prob2 correspond to the predicted probabilitiestowards class non-meteor and meteor, respectively.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

104

Page 105: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · A. C. Lorena et al.

3.2 Data sets

The training set available for the competitors was composed of 80 labeled instances of which 54 werenon-meteors and 26 were meteors. The test set had 42 unlabeled instances with 27 non-meteors and15 meteors. Meteors were labeled as 1 and non-meteors as 0. We provided two types of data sets.The training and test sets contained all features extracted from the images, while a zip file namedDatasetPerFeature.zip contained the training and testing partitions separated according to each typeof characteristic extracted from the images as presented in Table I.

3.3 Evaluation

The evaluation metric for this competition was the log-loss, which evaluates the accuracy of a classi-fier by penalizing false classifications. Thus, minimizing the log-loss is similar to maximizing theclassifier’s accuracy. As a result, a perfect classifier has a log-loss of zero, while the remainingclassifiers have progressively larger values. Log-loss is based on uncertainty; thus, the classifierpredictions must be probabilities. For a binary classification problem, the log-loss expression is:− 1

N

∑Ni=1 [yi log(pi) + (1− yi) log(1− pi)], where N is the data set size, yi is the ground truth (cor-

rect class) of instance i, pi is the predicted probability for instance i, and log is the natural logarithm.An important property of that metric is that it penalizes heavily when the model makes incorrectpredictions. For instance, if yi = 1 and pi = 0.5, then log-loss ≈ 0.69. On the other hand, a confidentmistake of pi = 0.001 results in log-loss ≈ 6.9.

4. COMPETITION RESULTS

The competition attracted 32 participants, which were organized in 28 teams. An average of 10.78submissions were done per team, with a standard deviation of 10.18. Whilst there were uniquesubmissions from some participants, a team submitted up to 39 solutions during the competition.The participants were mostly from the Southern region of Brazil (São Paulo, Minas Gerais and Riode Janeiro states), but there were also some participants from other countries, namely Peru, SouthAfrica, United States and India.

The log-loss results achieved in the competition are shown in Table II. This table shows the average,standard deviation, minimum, and maximum log-loss performance achieved by the competitors on thepublic and private test data. The average performances in both test data partitions are quite similar,although the average performance on the public data was a little worse. In both partitions, it waspossible to attain a null log-loss, as evidenced in the Minimum column.

Table II. Competition results (log-loss).Test set Average Standard-deviation Minimum Maximum

Public 0.555 0.446 0.000 1.501Private 0.459 0.483 0.000 2.502

The third top-ranked solution was proposed by Victor Almeida (public log-loss of 0.597 and privatelog-loss of 0.117), from the Federal Fluminense University and Petrobras, and is based on off-the-shelfalgorithms. The second place was achieved by a team from the Federal University of São Carlos,composed of Renato Silva, Tiago Almeida, and Johannes Lochter (public log-loss of 0.000 and privatelog-loss of 0.071). The solution7 is a stacking approach that uses a meta-classifier that is trainedwith the probabilities given by individual models such that each individual model is trained with thetraining data represented by one of the 21 feature sets available. The winning team, composed of

7http:\\https://github.com/renatoms88/KDDBR

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

105

Page 106: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning · 7

Humberto Brandão and Hugo Pinto (public log-loss of 0.000 and private log-loss of 0.000), employeda proprietary optimization process that tries tons of mathematical expressions in order to “recreate”a function that exactly represents the problem. If the answer of the obtained function for an instanceis greater than 0.5, it is classified as a meteor. Otherwise, it is a non-meteor. This solution achieveda null log-loss, however, the underlying method was not publicized.

Looking at the log information from the competition, it was possible to notice some interestingpoints. Firstly, the third ranked team on private data achieved a bottom public position (20thposition). There were also teams which achieved a good performance on the public test set, butwere in bottom positions for private data. Many teams did not submit top solutions too, since theparticipant can choose which submissions will be judged by the system. Curiously, two out of thethree winning teams would be different if some participants were judged by other submitted solutions.

5. DISCUSSION

Based on the results and participation, the 1st KDD-BR Competition can be considered successful.Nonetheless, during the organization of the KDD-BR competition, some issues were noticed, which arehere described. First, configuring the competition was not easy. To obtain a real world classificationproblem with a labeled data set was challenging. For this step, we counted with the help of Observatoryof Astronomy and Space Physics from University of Vale do Paraíba (UNIVAP), which provided thelabeled images from meteors and non-meteors. The possibility of creating an artificial data set wasalso considered by the organizing team at some point, but a real world data set was considered moreattractive.

The second step was to extract features from the captured images, in order to build a data setto be used in the competition. A very diverse set of characteristics was extracted from the images,using multiple feature extractors. Some extractors may have produced irrelevant information tothe problem, but identifying this irrelevant information has brought an additional challenge to thecompetition. Moreover, the organizing committee preferred to provide the feature vectors instead ofthe original images, because the focus of the competition was on comparing ML-DM solutions.

The third step was to configure the competition in the Kaggle in class platform. Around 66.6% ofthe data set was used as training data and the test set was split in public and private sets. At thisstep, the choice of the evaluation measure was an important issue to be discussed. At the beginning ofthe competition, the AUC measure was chosen to evaluate the developed solutions. However, most ofthe teams achieved 100% of AUC in the public leaderboard, which did not motivate the competitorsto improve their solutions. At this time, about one week after the competition started, the evaluationmeasure was exchanged into the log-loss, making the competition more attractive. The final winnersof the competition were the teams that achieved the best log-loss values in the private leaderboard.As previously discussed, one of the top-three teams on private data is at a bottom public position. Inaddition, there were teams with good public results in bottom positions for private data.

The top-three teams were invited to present their solutions on the conference. However, the solutionsdeveloped by some of the teams were not made public, since this was not a requirement of thecompetition. This makes it impossible to reproduce the obtained results and prevents their applicationto other contexts. Another issue was the size of the data set, which was too small and biased the resultstowards the particular data partition used for testing. In this case, a leave-one-out evaluation strategywould be more indicated. During the competition the organizers also revealed the private leaderboardpublicly, omitting the five top-ranked team names. This showed to be a leak of information whichcould be avoided.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

106

Page 107: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · A. C. Lorena et al.

AcknowledgementsTo Luis Fernando Milano Oliveira and Rodrigo Kuerten, from UEL, for pre-processing the images.To Jennifer Nielsen and Prof Dr Irapuan Rodrigues, from UNIVAP, for collecting the images. Fi-nally, to the financial support of FAPESP (grant 2012/22608-8) and CNPq (grants 308858/2014-0,305291/2017-3, and 426202/2016-3).

REFERENCES

Abo-Zaid, A., Hinton, O. R., and Horne, E. About moment normalization and complex moment descriptors. InPattern Recognition. Springer, pp. 399–409, 1988.

Bosch, A., Zisserman, A., and Munoz, X. Representing shape with a spatial pyramid kernel. In Proceedings of the6th ACM International Conference on Image and Video Retrieval. ACM, pp. 401–408, 2007.

Carpenter, J. May the best analyst win. Science 331 (6018): 698–699, 2011.Chatzichristofis, S. A. and Boutalis, Y. S. Cedd: color and edge directivity descriptor: a compact descriptor for

image indexing and retrieval. In Int. Conf. on Computer Vision Systems. Springer, pp. 312–322, 2008a.Chatzichristofis, S. A. and Boutalis, Y. S. Fcth: Fuzzy color and texture histogram-a low level feature for accurate

image retrieval. In Image Analysis for Multimedia Interactive Services, WIAMIS’08. IEEE, pp. 191–196, 2008b.Chodas, P. Overview of the jpl center for neo studies (cneos). In AAS/Division for Planetary Sciences Meeting

Abstracts. Vol. 47, 2015.Fernández, A., García, S., del Jesus, M. J., and Herrera, F. A study of the behaviour of linguistic fuzzy rule

based classification systems in the framework of imbalanced data-sets. Fuzzy Sets and Systems 159 (18): 2378–2398,2008.

Fogel, I. and Sagi, D. Gabor filters as texture discriminator. Biological cybernetics 61 (2): 103–113, 1989.Guyon, I., Cawley, G., Dror, G., and Saffari, A. Hands-on pattern recognition challenges in machine learning,

volume, 2011.Han, J. and Ma, K.-K. Fuzzy color histogram and its use in color image retrieval. IEEE transactions on image

processing 11 (8): 944–952, 2002.Haralick, R. M., Shanmugam, K., et al. Textural features for image classification. IEEE Transactions on systems,

man, and cybernetics (6): 610–621, 1973.Huang, J., Kumar, S. R., Mitra, M., Zhu, W.-J., and Zabih, R. Image indexing using color correlograms. In

IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, pp. 762–768, 1997.Jenniskens, P. Meteor showers in review. Planetary and Space Science vol. 143, pp. 116–124, 2017.Kriegel, H.-P., Schubert, E., and Zimek, A. Evaluation of multiple clustering solutions. In MultiClust@

ECML/PKDD. pp. 55–66, 2011.Milano-Oliveira, L. F. and Kaster, D. Defining similarity spaces for large-scale image retrieval through scientific

workflows. In Proceedings of the 21st Int. Database Engineering & Applications Symposium. ACM, pp. 57–65, 2017.Novak, C. L. and Shafer, S. A. Anatomy of a color histogram. In Computer Vision and Pattern Recognition, 1992.

Proceedings CVPR’92., 1992 IEEE Computer Society Conference on. IEEE, pp. 599–605, 1992.Ojala, T., Pietikainen, M., and Harwood, D. Performance evaluation of texture measures with classification based

on kullback discrimination of distributions. In Proceedings of the 12th IAPR International Conference on PatternRecognition. Vol. 1. IEEE, pp. 582–585, 1994.

Rosset, S. and Inger, A. Kdd-cup 99: knowledge discovery in a charitable organization’s donor database. SIGKDDExplorations 1 (2): 85–90, 2000.

Scott, D. W. Averaged shifted histogram. Wiley Interdisciplinary Reviews: Computational Statistics 2 (2): 160–164,2010.

Sikora, T. The mpeg-7 visual standard for content description-an overview. IEEE Transactions on circuits andsystems for video technology 11 (6): 696–702, 2001.

Tamura, H., Mori, S., and Yamawaki, T. Textural features corresponding to visual perception. IEEE Transactionson Systems, man, and cybernetics 8 (6): 460–473, 1978.

Taylor, S. and Drummond, T. Binary histogrammed intensity patches for efficient and robust matching. Internationaljournal of computer vision 94 (2): 241–265, 2011.

Van De Sande, K., Gevers, T., and Snoek, C. Evaluating color descriptors for object and scene recognition. IEEEtransactions on pattern analysis and machine intelligence 32 (9): 1582–1596, 2010.

van de Sande, K. E., Gevers, T., and Snoek, C. G. Evaluation of color descriptors for object and scene recognition.In IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, USA (June 2008), 2004.

Zagoris, K., Chatzichristofis, S. A., Papamarkos, N., and Boutalis, Y. S. Automatic image annotation andretrieval using the joint composite descriptor. In Informatics (PCI), 2010 14th Panhellenic Conference on. IEEE,pp. 143–147, 2010.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

107

Page 108: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Identification of the Brazilian academic roots through miningadvisor-advisee relationships

R. J. P. Damaceno, L. Rossi, J. P. Mena-Chalco

Federal University of ABC, Brazilrafael.damaceno, luciano.rossi, [email protected]

Abstract. This study seek to carry out an identification and analysis of academic roots using academic genealogygraphs as data source. These graphs are used to identify the academic roots of 85 areas of knowledge and analyzethe influences prevailing between them. The results show that science in Brazil is young, with most of the PhD andmaster’s graduates having obtained an academic degree between the years 1980 and 2000. We detected some key areasof knowledge, such as Education and Medicine that exert a considerable influence on the mentoring of academics inseveral areas of knowledge. The significance of this study is that it employs a method to use mentoring relationshipsfor the identification of the academic roots of areas of knowledge, that could be applied to any academic genealogicalgraph.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; G.2.2 [Discrete Math-ematics]: Graph Theory

Keywords: graph mining, academic roots, advisor-advisee relationships.

1. INTRODUCTION

Science involves classifying academic disciplines or areas of knowledge that are arranged in accordancewith the similar features they possess. The way science evolves is partly due to the interactions betweenthe different areas. These interactions entail the sharing of the scientific knowledge that is peculiarto each area. However, one area may give rise to other related areas because of the depth of expertisethat it includes. An example of this latter phenomenon can be found between the areas of ElectricalEngineering and Computer Science. These areas are mutually influential and there is a point ofintersection between the specialist knowledge of each area.

This paper investigates the influences that exist between the areas that form contemporary science inBrazil. This influence is determined by the identification and quantification of the different areas thatassist in the formation of a specific area. This assistance is obtained through the Academic Genealogy(AG), which can be defined as the study of the intellectual inheritance that is perpetuated throughformal relationships of academic mentoring [Sugimoto 2014]. Thus, the advisor-advisee relationshipsand the areas of expertise of the academics form a hierarchical structure represented by an AG graph,in which the nodes and edges represent the areas of expertise of the academics and the graduatementoring, respectively.

The graph mining was carried out by examining the largest repository of academic curricula inLatin America - the Lattes platform [Damaceno et al. 2017]. This data source represents the history ofscience in Brazil by recording the academic activities of more than seven hundred thousand academicswith a Master’s or Ph.D.’s degree. In addition to graph mining, we used label propagation techniquesto complete the missing attributes, as well as to create an “origins identification algorithm” that is

The authors would like to thank the Federal University of ABC and CAPES for supporting this work.Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

108

Page 109: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Rafael J. P. Damaceno, L. Rossi & J. P. Mena-Chalco

tailor-made for this study. The result is a social network with a wealth of opportunities for exploration.The following factors area highlighted: temporal ordering, an influence map and the distribution ofthe areas of knowledge in two-dimensional space. These describe the similarities between the areas ofknowledge on the basis of the influences experienced.

This study can be regarded as original because it includes mentoring relationships as an inter-connecting feature between the areas of expertise of the different scholars. The significance of thisstudy is that it establishes a framework resulting from academic genealogical data, where there is apanorama of Brazilian science that relates the areas of knowledge, their influential relationships andthe respective emergence of a temporal order.

2. RELATED WORK

The increasing availability of genealogical data requires the development of models and methods thatcan be applied to represent knowledge in terms of complex networks and analysis of these structures[Arruda et al. 2017]. In addition to the academic subject, there have been measures taken to devisemethods for analyzing the relationship between knowledge in industrial areas [Dezfoulian et al. 2017].In this regard, networks can describe elements as “patents” to provide of the transfer of theoreticalknowledge to practical technological applications [Ding et al. 2017]. Networks representing strategicalliances and their respective flow of knowledge are useful for investigating the evolving pattern ofthis type of structure, especially in the context of knowledge management [Jianyu et al. 2017].

Currently, a large number of the publications devoted to the study of the transfer of scientific knowl-edge, seek to make a correlation between the advance of science and the socioeconomic developmentprovided by this advance. These studies investigate the flow of knowledge in both the internal andexternal environment, and among companies whose field of expertise is interrelated [Gao et al. 2015].In contrast, [Sorenson et al. 2006] analyzed the possible advantages that actors closer to the sourcesof knowledge may have compared with those that are more distant. This study is based on patentdata and uses a network of citations to study the impact of knowledge in various fields.

Studies of the flow of scientific knowledge in the academic world usually converge to an analysis ofpublications, citations, and collaborative research for structuring the knowledge network. [Moham-madi and Thelwall 2014], by counting readers with the aid of the Mendeley platform, compared thiswith the analysis of citations. In addition, the work of [Boschma et al. 2014], sought to trace themain cognitive trends in this specific area through an analysis of expressions in the titles of scientificpublications in the area biotechnology.

An exploratory study, described by [Rinia et al. 2002], (the objective of which is to measure thetransfer of knowledge between the disciplines and subfields of science), makes interesting observationsabout how advances in a given area of knowledge can affect other areas. They discussed the metricsthat can be used to quantify the rate of knowledge transfer between different areas of knowledge. Theuse of metrics to quantify this impact is also mentioned in the study by [Rafols and Meyer 2010].

3. METHODS

The graph employed in this study is the result of a mining process developed by [Damaceno et al. 2017]in which each vertex represents a researcher and each edge a relationship between two researchers.The graph is directed from the advisor (source) to the advisee (destiny). The curricula data providedby the Lattes platform were gathered and structured in accordance with the academic mentoringrelationships stated in each curriculum vitae. The graph mining process involves a preprocessing ofthe data to improve the accuracy of the information by resolving factors such as (i) the lack of standardsin the registers, (ii) incomplete data, and (iii) errors in the identification of the advisor/advisee. Whenstudying the academic roots of areas of knowledge, some alterations were made to the graphs; thesefollowed two phases (i) the propagation of labels and (ii) the identification of academic roots.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

109

Page 110: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Identification of the Brazilian academic roots through mining advisor-advisee relationships · 3

3.1 Propagation of labels

The graph used in this article does not have all its vertices labeled with an area of knowledge becausethe data source for generating this information is incomplete. The reason for this lack of informationis that researchers have failed to refer to their area of knowledge in their curricula. An algorithm hasbeen created to supply this information, by propagating the area of knowledge to the vertices thatdo not have it labeled. However, the propagation of labels may introduce some degree of noise in thegraphs.

Initially, the vertices with a degree equal to 1 (i.e., in-degree 1 and out-degree 0 and vice-versa) werelabeled with their parent/son’s area of knowledge. The remaining vertices were labeled with the areaof knowledge of their neighborhood, i.e., the area of a given vertex was the mode of knowledge of allits advisors and advisees. If there were two or more areas of knowledge with the same mode, accountwas taken of the mode of the ancestors or the mode of the descendants (whichever was greater). If themode was still the same, we used the mode of the ancestors to label the vertex. The same approachwas adopted to the main areas of knowledge, where similar areas are formed into bigger groups.

3.2 Identification of academic roots

After applying the propagation of labels, we carried out the “identification of academic roots” stage,which consists of finding out who are the ancestors of each vertex (grouped by area of knowledge). Inthe case of each vertex (source) of a given area, the algorithm makes it possible to rise in the graphuntil there are no more ancestors with the same area of knowledge as the source vertex. The lastancestor identified, which has a different area of knowledge from the source vertex, is the academicroot of that vertex which possesses that area of knowledge. The same approach was applied to themain areas of knowledge.

For example, consider a vertex whose area of knowledge is Computer Science. If the area of knowl-edge of the ancestors of that vertex is also Computer Science, we continue to obtain more ancestors(now the ancestors of the ancestors). We proceed in this way until the area of knowledge of all theancestors is not equal to the area of knowledge of the source vertex. This approach enabled us toestimate the roots (academics) of a given area of knowledge and determine the influence between themover a period of time. In addition, it allows us to estimate the age of the areas of knowledge and ofthe main areas of knowledge. Section 3.3 shows the algorithm we created and applied to discover theacademic roots of different areas of knowledge.

3.3 Algorithm to identify the roots

Consider the graph-structured data from the Lattes platform as ~G(V,E), the set of areas of knowledgeas Area and a square matrix M with order proportional to the number of areas, initially populatedwith zeros. ~G(V,E) is formed of a set of vertices ~G(V ) representing the academics and a set of edges~G(E) representing the mentoring relationships between the academics. In the case of each academicv ∈ ~G(V ), there is a label giving information about its area of knowledge, represented by v.area. Thealgorithm for the identification of academic roots of areas of knowledge, is outlined below.

Areas-selection(~G,Area,M)

1 for each area ∈ Area2 for each v ∈ ~G3 if v.area = area4 Root-identification( ~G, v,M)

Root-identification( ~G, v,M)

1 if ~G.ascendancy[v] = ∅2 return3 else4 for each u ∈ ~G.ascendancy[v]5 if u.area 6= v.area6 M [v.area][u.area]←M [v.area][u.area] + 17 else8 Root-identification( ~G, u,M)

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

110

Page 111: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Rafael J. P. Damaceno, L. Rossi & J. P. Mena-Chalco

The “Areas-selection” receives the AG graph and the set of areas of knowledge and selects thevertices that correspond to each of the areas, which are subjected to the “root-identification”procedure. In this last process, the linked areas between the vertex in question and its ancestors arecompared and, if they do not match, the influence matrix M is incremented by one unit in the rowand column that corresponds to the areas of the vertex in question and of its rise, respectively. If itis found that the areas match, the ascending vertex is taken as the parameter in this same process,recursively.

4. RESULTS

From the total number of vertices (n = 1 111 544), 472 637 (42.52%) do not have a defined main areaof knowledge and 477 013 (42.91%) do not have a defined area of knowledge. After applying thepropagation of labels, 20 845 (1.88%) vertices remain with an undefined main area of knowledge, and28 219 (2.54%) with an undefined area of knowledge. Table I displays the number and percentage ofvertices representing graduate (master’s and doctorates) academics grouped by main area of knowledgeafter the propagation bas been applied.

Table I. Number and percentage of academics by academic degree and main area of knowledge.Doctorates Master’s All

Main area of knowledge Acronym N % N % N %

Humanities HUM 59 938 16.26 143 202 19.28 203 140 18.28Applied Social Sciences SOC 38 445 10.43 135 526 18.24 173 971 15.65

Health Sciences HEA 58 146 15.77 108 619 14.62 166 765 15.00Exact and Earth Sciences EXA 57 535 15.61 87 118 11.73 144 653 13.01

Engineering ENG 36 198 9.82 83 248 11.21 119 446 10.75Biological Sciences BIO 50 239 13.63 58 985 7.94 109 224 9.83

Agricultural Sciences AGR 34 933 9.48 53 522 7.20 88 455 7.96Linguistics, Letters and Arts LIN 21 788 5.91 49 588 6.67 71 376 6.42

Undefined UND 7637 2.07 13 208 1.78 20 845 1.88Others OTH 3 778 1.02 9 891 1.33 13 669 1.23

All 368 637 100.00 742 907 100.00 1 111 544 100.00

For a better understanding of the way the main areas of knowledge are ordered so that they canreveal a) the academic roots and b) the year of academic degree was awarded, Figure 1(a) shows adistribution of the roots grouped by main area of knowledge. Here it should be pointed out that thereis a direct relationship between the academic age of researchers and the age of CAPES (establishedon July 11, 1951).

A more in-depth analysis was conducted to illustrate the influence experienced by specific areas ofknowledge, and Figure 1(b) shows which areas of knowledge exert an influence on Computer Science.In (b) the roots are marked with different types of points and colors and the roots that were pointedthe fewest times were omitted (i.e. lower than 100 times).

Agricultural Sciences is the main area of knowledge that has the lowest median for years of aca-demic degree. Linguistics, Letters and Arts have the highest median for years of academic degree.The median number can be found between the years 1994 and 2000, which shows that the scienceconducted in Brazil is still young. The areas of knowledge that exert the greatest influence on Com-puter Science are Electrical Engineering, Mathematics and Education. These areas of knowledge havehigher frequencies, with most of the roots occurring in the early years, i.e., between 1960 and 1970.The root pointed at the year 1960, and those pointed most often are from Computer Science.

We also estimated the age of the areas of knowledge by using the root year of academic degreeas a measure. Figure 2 shows the frequency of the roots year of academic degree in terms of areasof knowledge. Nuclear Engineering is the area of knowledge that has the lowest median of yearsof academic degree. Robotics, Mechatronics and Automation have the highest median for years of

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

111

Page 112: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Identification of the Brazilian academic roots through mining advisor-advisee relationships · 5

Area of knowledgeBusiness AdministrationThe ArtsComputer ScienceLawEducationCivil EngineeringProduction EngineeringElectrical EngineeringPhysicsLinguisticsMathematics

Year of academic degreeFr

eque

ncy

103

102

1955 1965 1975 1985 1995

Main area of knowledge

Yea

r of

aca

dem

ic d

egre

e

AG

R

EN

G

HE

A

BIO

HU

M

OT

H

LIN

EX

A

SO

C

2010

2000

1990

1980

1970

1960

1950

(a) Frequency by main areas of knowledge (b) Frequency (Computer Science) by year of academic degree

Fig. 1. Frequency of roots by year grouped into areas of knowledge.

(01)

(02)

(03)

(04)

(05)

(06)

(07)

(08)

(09)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

(44)

(45)

(46)

(47)

(48)

(49)

(50)

(51)

(52)

(53)

(54)

(55)

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)

(65)

(66)

(67)

(68)

(69)

(70)

(71)

(72)

(73)

(74)

(75)

(76)

(77)

(78)

(79)

(80)

(81)

(82)

(83)

(84)

(85)

Area of knowledge

Yea

r of

aca

dem

ic d

egre

e

Nuc

lear

Eng

.D

emog

raph

yN

aval

and

Oce

anic

Eng

.A

ero

spac

e E

ng.

Bio

phys

ics

Mat

eria

ls E

ng. a

nd M

etal

lurg

yM

inin

g E

ng.

Tra

nsp

ort E

ng.

Agr

ono

my

Agr

icul

tura

l Eng

.G

eosc

ienc

esM

edic

ine

Pro

bab

ility

and

Sta

tistic

sB

iom

edic

al E

ng.

Mec

han

ical

Eng

.P

hysi

csIm

mun

olo

gyM

orp

holo

gyO

dont

olog

yU

rban

and

Reg

iona

l Pla

nnin

gZ

oote

chny

Ast

rono

my

Bot

anic

Info

rmat

ion

Sci

ence

Foo

d an

d T

echn

olo

gy S

cien

ces

Eco

nom

yC

ivil

En

g.E

nerg

y E

ng.

Pro

duc

tion

Eng

.E

lect

ric E

ng.

Che

mic

al E

ng.

San

itary

Eng

.P

harm

acol

ogy

Phy

siol

ogy

Oce

anog

raph

yP

ara

sito

logy

For

est R

es. a

nd F

ores

try

Eng

.F

ishi

ng R

es. a

nd F

ishi

ng

Eng

.C

olle

ctiv

e H

ealth

Ant

hro

polo

gyB

ioch

em

istr

yC

ompu

ter

Sci

ence

Sci

entif

ic D

ivul

gatio

nE

colo

gy

Pha

rmac

yP

hilo

soph

yS

peec

h T

hera

pyG

enet

ics

Vet

erin

ary

Med

icin

eM

icro

biol

ogy

Che

mis

try

Pub

lic R

elat

ions

Soc

iolo

gyZ

oolo

gy

Mus

eolo

gyA

rchi

tect

ure

and

Urb

anis

mB

ioet

hics

Bio

tech

nol

ogy

Env

ironm

enta

l Sci

ence

sE

duca

tion

Ling

uist

ics

Mat

hem

atic

sM

icro

ele

ctro

nics

Nut

ritio

nP

sych

olo

gyB

usin

ess

Adm

inis

trat

ion

Arc

heol

ogy

The

Art

sG

ener

al B

iolo

gy

Pol

itics

Sci

ence

Com

mun

icat

ion

Def

ense

Des

ign

Dra

win

gD

omes

tics

Eco

nom

yP

ep. a

nd O

ccup

atio

nal T

ap.

Geo

grap

hyH

isto

ryS

ocia

l Ser

vice

The

olo

gyTo

uris

mP

hysi

cal E

duca

tion

Nur

sin

gLe

tters

Law

Rob

otic

s, M

ech

. and

Aut

om.

2010

2000

1990

1980

1970

1960

1950

Fig. 2. Frequency of roots by year grouped by areas of knowledge. The bar color indicates the main area of knowledgefor each subject.

academic degree. The median is found between the years 1986 and 1996. Most of the brown bars areon the left of the graph, and this corroborates the information displayed in Figure 1(a), that showsEngineering has one of the oldest roots. With regard to Heath Sciences, Medicine had a lower medianfor the years of academic degree than the other areas of the Health Sciences.

The vertices and edges of the graph that result from the process of root identification have theareas of knowledge and the influence exerted between them, respectively. Additionally, the edges areweighted with the number of roots identified. Figure 3 shows a partial representation of the graph,where only 85 areas are included, with the highest number of roots and only the maximum weightedge that is found in each area. The purpose of restricting the representation is to make it easier tovisualize and interpret the structure that represents a map of influence between the areas of knowledge.As an example of interpretation, consider two areas (A and B) that are connected by a weight edgew that emerges from A and focuses on B. This means that area B has w roots that belong to area

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

112

Page 113: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Rafael J. P. Damaceno, L. Rossi & J. P. Mena-Chalco

0 600 1200

AGRBIO

HEAEXA

HUMSOC

ENGLIN

OTHUND

(01)

(02)

(03)

(04)

(05)

(06)(07)

(08)

(09)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)(18) (19) (20)

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)(32)

(33) (34)

(35)

(36) (37) (38)

(39)

(40)

(41) (42)

(43)

(44)

(45)

(46)

(47)

(48) (49)(50)

(51)

(52)

(53)

(54)

(55)

(56)

(57)

(58) (59)

(60)

(61)

(62)

(63)

(64)

(65)

(66)(67)

(68)

(69)

(70)

(71)(72)(73)

(74)

(75)

(76)

(77) (78)(79)(80)

(81)

(82)

(83)

(84)

(85)

Main area of knowledgeNumber of roots

Fig. 3. Map of influence between areas of knowledge. The directed edges connect the areas that exerts an influence(origin) on the vertex that experiences influence (destination). The grayscale tones show the number of roots and thecolor of the bars (areas) refers to the main area of knowledge to which the subject belongs.

A, and w is the most significant weight observed among all the edges that focus on B. The areas ofknowledge in the map of influences, represented in Figure 3, are colored in a way that corresponds to aclustering in the main area of knowledge, which is a formal classification used in Brazil. The edges arerepresented in grayscale and define the number of roots found in the area that experiences influence(i.e. the vertex which intersects the edge) and that belong to the area that exerts an influence (i.e.the vertex from which the edge emerges).

The map of influence exerted/experienced between different areas, displays how groups are formedsince they share the same influential area. The largest group of influence is formed from the academicswho act in the area of Education. This area exerts a direct influence on thirteen other areas, such asBusiness Administration, Sociology, and Physics. There are ten other groups exerting influence on themap that are formed from the following influential areas (and number of influenced areas): Medicine(11), Electrical Engineering (5), Geosciences (4), Agronomy (3), Biochemistry (3), Civil Engineering(3), Ecology (3), Chemistry (2), Letters (2), and Veterinary Medicine (2). Another exciting featurerevealed by the map is the presence of mutual influences in all areas where there is a more significantinfluence.

The term “mutual influence” is defined as meaning when one area is the most influential on anotherand this, in turn, is the most influential on the first, as is the case, for example, between the areas ofElectrical Engineering and Computer Science. The mutual influence between areas may be indicativeof the emergence of one area caused by the higher degree of specialization of another. Other areas withmutual influence on the map are (Education ↔ Psychology), (Geosciences ↔ Geography), (Letters↔ Linguistics), (Ecology ↔ Zoology), (Civil Engineering ↔ Sanitary Engineering), (Agronomy ↔Agricultural Engineering), (Medicine ↔ Collective Health), (Veterinary Medicine ↔ Zootechnics),(Biochemistry ↔ Genetics), and (Chemistry ↔ Chemical Engineering).

The influences exerted and experienced can be analyzed by treating different levels as a chain ofinfluential areas. It can be seen in these chains, how different types of knowledge, that are characteristicof a given area, are combined to form a different area. This unfolding of knowledge can be observed,for instance, in the chain that has Education as an influential area on Sociology, which in turn, led tothe formation of the Political Sciences group, and the latter influenced the area of Civil Defense. Thispattern of unfolding scientific chains is more evident when we examine societies that have a strongeracademic tradition, which is not the case in Brazil.

When account is taken of only the largest area of influence in the composition of the map (Figure 3),

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

113

Page 114: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Identification of the Brazilian academic roots through mining advisor-advisee relationships · 7

HEA

HUM

EXA

BIO

SOC

AGR

LIN

UND

−1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

1 0 1 2 3 4

−10

12

3

ENG−

1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

−1 0 1 2 3 4

−10

12

3

(69)

(45)

(41)

(18)(50)

(48)(33)

(34)(17)(49)

(36)

(44)

(54)

(19)

(51)

(27)

(64)

(47)

(42)

(15)

(74)

(75)

(82)

(81)

(56)(26)

(78)

(39)

(71)

(84)

(66)

(53)

(34) (60)

−1 0 1 2 3 4

−10

12

3

(12)

Fig. 4. The diagram, on the left, describes the distribution of the areas of knowledge in the two factors (axes) that bestexplain the variation; the colors are clustered according to the main area of knowledge to which they belong. On theright are the diagrams that corresponds to each grouping.

the structuring of knowledge makes evident the relationships between the areas and their naturalhierarchical grouping. However, most of the information on influences was disregarded for the sake ofinterpretation. One way of examining all the information on influences in a representation that is ableto illustrate the features of the areas according to their origins, is by conducting a Factor Analysis.

A Factor Analysis is a statistical method used to reduce the multidimensionality of data into a fewrepresentative factors. In the context of this study, the data is represented by a square matrix of orderequal to 85 that represents the number of areas (see Section 3.3). Each row refers to an area, andthe columns (variables) describe the number of roots identified by area. The fundamental conceptunderlying the Factor Analysis is that the multiple observable variables describe a pattern of similaritythat is linked to a latent variable that has not been clearly measured. Each resulting factor is shownin order, according to the variation it can explain [Chatfield 2018]. Figure 4 shows the distribution ofthe areas as a function of two factors where the most significant variations are concentrated; however,describing the factors obtained according to the context of the original variables is not a trivial task.

The problem of assigning a semantic intuition for the factors is difficult because it is necessary toinclude all the original variables, which takes us back to the multidimensional context that we seekto reduce. However, it is possible to analyze the resulting distribution of the Factor Analysis and totrace interesting patterns in this configuration.

Figure 4 shows the distribution of the areas of knowledge; the colors represent groups that describethe main areas of knowledge to which the areas belong. The diagrams positioned to the right in Figure4 represent the unique areas of each representative group. The groups labeled Health Sciences (HEA),Biological Sciences (BIO) and Agricultural Sciences (AGR) have their areas distributed according tothe factor represented by the vertical axis. On the other hand, the factor represented by the horizontalaxis influences the Human Sciences (HUM), Applied Social Sciences (SOC), and Linguistics, Lettersand Arts (LIN). Exact and Earth Sciences (EXA), Engineering (ENG) and the undefined main area(UND), have their areas distributed according to two factors simultaneously. Thus, although there isno clear context for each factor, it can be stated that the areas show a pattern of formation reflectingtheir origins (roots), as well as the formal classification of the main areas of knowledge.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

114

Page 115: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Rafael J. P. Damaceno, L. Rossi & J. P. Mena-Chalco

5. CONCLUSION

In this study, we developed and employed a method to identify the academic roots by using an academicgenealogy graph as a data source. The “academic roots” were based on pioneering scientists thatinfluence their successors through the formation of human resources, i.e., by establishing mentoringrelationships. The influences between different areas of knowledge were measured by the identificationand quantification of the academic areas of ancestors. The same approach was adopted for main areasof knowledge. Data from Brazil’s academic genealogy were drawn on, as a case study, to illustrate theproposed method.

The results show that science in Brazil is still “young”, with most of the academics having obtaineda graduate degree between 1980 and 2000. With regard to the influence that one area exerts onother areas, we drew attention to some key areas of knowledge. Education and Medicine are themost important subjects since they exert an influence on several areas of knowledge. Education exertsan influence on 13 areas of knowledge in six different main areas of knowledge. Medicine exerts aninfluence on 11 areas of knowledge in Health Sciences and Biological Sciences. The proposed methodwas employed to study the academic roots of Computer Science to exemplify how an in-depth analysiscould be conducted of specific areas of knowledge. We determined that Computer Science in Brazil hadbeen greatly influenced by Electrical Engineering, Mathematics, and Education. By using the factoranalysis technique, we were able to determine that there is a pattern of influence exerted/experiencedbetween areas of knowledge which have similar vocational ends.

Future studies include the following: (i) the identification of scientific predecessors that exerted aninfluence on science conducted in Brazil, (ii) the analysis of the data generated in this work from anindividual perspective, and (iii) the use of different databases to carry out this type of analysis.

REFERENCES

Arruda, H. F., Silva, F. N., Costa, L. d. F., and Amancio, D. R. Knowledge acquisition: A complex networksapproach. Information Sciences vol. 421, pp. 154–166, 2017.

Boschma, R., Heimeriks, G., and Balland, P.-A. Scientific knowledge dynamics and relatedness in biotech cities.Research Policy 43 (1): 107–114, 2014.

Chatfield, C. Introduction to multivariate analysis. Routledge, 2018.Damaceno, R. J. P., Rossi, L., and Mena-Chalco, J. P. Identificação do grafo de genealogia acadêmica de

pesquisadores: Uma abordagem baseada na Plataforma Lattes. In Proceedings of the 32th Brazilian Symposium onDatabases. SBC, 2017.

Dezfoulian, H., Afrazeh, A., and Karimi, B. A new model to optimize the knowledge exchange in industrialcluster: A case study of semnan plaster production industrial cluster. Scientia Iranica. Transaction E, IndustrialEngineering 24 (2): 834, 2017.

Ding, C. G., Hung, W.-C., Lee, M.-C., and Wang, H.-J. Exploring paper characteristics that facilitate theknowledge flow from science to technology. Journal of Informetrics 11 (1): 244–256, 2017.

Gao, X., Chen, Y., Song, W., Peng, X., and Song, X. Regional university-industry knowledge flow: A study ofchinese academic patent licensing data. Open Journal of Social Sciences 3 (02): 59, 2015.

Jianyu, Z., Baizhou, L., Xi, X., Guangdong, W., and Tienan, W. Research on the characteristics of evolution inknowledge flow networks of strategic alliance under different resource allocation. Expert Systems with Applications,2017.

Mohammadi, E. and Thelwall, M. Mendeley readership altmetrics for the social sciences and humanities: Researchevaluation and knowledge flows. Journal of the Association for Information Science and Technology 65 (8): 1627–1638, 2014.

Rafols, I. and Meyer, M. Diversity and network coherence as indicators of interdisciplinarity: case studies inbionanoscience. Scientometrics 82 (2): 263–287, 2010.

Rinia, E., van Leeuwen, T., Bruins, E., van Vuren, H., and van Raan, A. Measuring knowledge transfer betweenfields of science. Scientometrics 54 (3): 347–362, 2002.

Sorenson, O., Rivkin, J. W., and Fleming, L. Complexity, networks and knowledge flow. Research policy 35 (7):994–1017, 2006.

Sugimoto, C. R. Academic genealogy. In Beyond bibliometrics: Harnessing multidimensional indicators of scholarlyimpact , first ed., B. Cronin and C. R. Sugimoto (Eds.). MIT Press, pp. 365–382, 2014.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

115

Page 116: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise do impacto das copas do mundo no mercado detransações de jogadores de futebol e da globalização do

futebol utilizando técnicas de redes complexas

L. G. S. Felix and C. M. Barbosa and V. da F. Vieira and C. R. Xavier1

Universidade Federal de São João del Rei, Brazillucasgsfelix, [email protected] carolinaxavier, [email protected]

Abstract. Neste trabalho é proposta uma análise da relação da copa do mundo com o mercado de transferênciasde jogadores de futebol e é feita uma avaliação quantitativa de teorias que associam a globalização a este mercado detransferências de jogadores. Nesta análise são geradas redes para períodos que antecedem cada copa do mundo desde1966, sendo feita a avaliação dos efeitos do evento através da relação da rede de transferências e dos melhores colocadosde cada edição. Também são avaliadas teorias sociológicas que associam a globalização com a rede de transferências nofutebol, conseguindo mostrar através de dados quantitativos as hipóteses levantadas, além de conseguirmos renovar essaspropostas mostrando a ascensão de novos mercados, como os da Ásia. Para realização das análises, foram utilizadastécnicas de redes complexas e mineração de dados em conjunto, esta avaliação mostrou que países que fazem muitastransações não necessariamente tem um bom desempenho em copas do mundo, entretanto parte dos países envolvidoscom grande quantidade de transferências conseguem ter um bom desempenho, estando ao final do evento em boascolocações.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intel-ligence]: Learning

Keywords: Redes complexas, mineração de dados, análise de rede, futebol

1. INTRODUÇÃO

Atualmente, o futebol é o esporte mais popular do mundo [Palacios-Huerta 2004]. Devido a sua enormepopularidade, o mesmo possui diversos praticantes e atrai milhares de pessoas para eventos de grandeporte, como a copa do mundo, campeonatos continentais e intercontinentais, gerando um enorme fluxofinanceiro produzido por venda de ingressos, contratos de televisão, marketing e merchandising.

A copa do mundo FIFA é hoje o segundo maior evento esportivo do mundo [Baade and Matheson2004], com números cada vez maiores de espectadores, possuindo uma audiência cumulativa de 42.5bilhões de pessoas [Palacios-Huerta 2004], além de um valor arrecadado de 1.8 bilhões de dólares noano de 2002 apenas pela entidade organizadora do evento.

Sobretudo, seu efeito não é temporário, não se restringindo apenas aos aproximadamente trintadias de competição. É realizado pelo país sede do evento um amplo investimento em infraestruturapara realização do evento e recepção de turistas. Dentre as consequências causados pela copa domundo, estão presentes efeitos sociais [Pillay and Bass 2008; Florek et al. 2008; Ohmann et al. 2006;Kaplanidou et al. 2013] e econômicos causados por influência direta [Lee and Taylor 2005; Baade andMatheson 2004] e indireta [Kaplanski and Levy 2010] do acontecimento.

Não obstante a copa do mundo também possui ampla implicação no mercado internacional detransação atletas de futebol. Assim, como a copa do mundo, transferências de jogadores entre clubesmostram se um mercado extremamente lucrativo, além de representar um movimento intenso de forçasde trabalho e a globalização através do esporte [Maguire 1994; Maguire and Pearton 2000; Poli 2010].Contextualizando estes acontecimentos, tem-se que foram gastos apenas na Inglaterra na temporada2015/2016 1.3 bilhões de euros com transações de futebol, sendo que destas, 66 %, cerca de 900 milhões

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

116

Page 117: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · L. G. da S. Felix and C. M. Barbosa and V. da F. Vieira and C. R. Xavier

de euros, foram gastos com transações externas [Deloitte 2016].

Em virtude dos fatos mencionados, o presente trabalho apresenta a implicação da copa do mundonas transferências de jogadores, validando também a teoria sociológica acerca da globalização e suaimplicação na construção da rede de transações de futebol através dos anos. Para realização do mesmo,foram construídos diversos grafos que compreendem o quadriênio entre as copas do mundo, desde 1966e nestes foram aplicadas técnicas de redes complexas e mineração de dados, sendo estes, métodos jáutilizados em outros estudos relacionados ao futebol [Liu et al. 2016; Felix et al. 2018].

2. TRABALHOS RELACIONADOS

Pesquisas relacionadas a futebol vem sendo desenvolvidas há várias décadas, entretanto, há uma ca-rência de pesquisas relacionados ao impacto da copa do mundo no mercado de transação de jogadores.Entretanto foram avaliados diversos outros trabalhos que analisam o impacto do evento em âmbitosocial [Pillay and Bass 2008; Florek et al. 2008; Ohmann et al. 2006; Kaplanidou et al. 2013] eeconômico [Lee and Taylor 2005; Kaplanski and Levy 2010; Baade and Matheson 2004], sendo avali-adas pesquisas que relacionam o futebol e a globalização [Maguire 1994; Maguire and Pearton 2000;Poli 2010], e, por fim, foram analisados trabalhos relacionados ao mercado de transferências no fute-bol, que se utilizaram [Liu et al. 2016; Felix et al. 2018] ou não de métricas de redes [Frick 2007;Palacios-Huerta 2004].

Nos trabalhos [Lee and Taylor 2005; Kaplanski and Levy 2010; Baade and Matheson 2004] são feitasavaliações sobre o impacto econômico da copa do mundo de diferentes formas, sendo que estes reflexosforam vistos como positivos ou negativos aos países que estão participando do evento. No trabalho[Lee and Taylor 2005] é avaliado o impacto econômico da copa do mundo de 2002 relacionados aoturismo. Em [Baade and Matheson 2004] é analisado se sediar a copa é algo que trás mais prejuízosou lucros a uma cidade, devido aos massivos investimentos em infraestrutura que são necessários pararealização do evento, já no trabalho [Kaplanski and Levy 2010] são avaliados como os resultados deum país na copa do mundo pode afetar de forma positiva ou negativa o mercado de ações local.

Nos trabalhos [Maguire 1994; Maguire and Pearton 2000; Poli 2010] são discutidas as transferênciasde futebol como efeito da globalização, entretanto, apenas no trabalho de [Poli 2010] são utilizadosdados quantitativos em parte de sua metodologia para as análises, contudo, são empregados somentedados de ligas europeias. O trabalho tem como objetivo verificar se o aumento do fluxo internacionalreflete numa diversificação espacial de rotas migratórias ou se há canais privilégiados de recrutamentodos países origem e destino. Já os artigos de [Maguire and Pearton 2000; Maguire 1994], são feitasanálises de impacto da migração no esporte, sendo o primeiro mais focado no desenvolvimento dejogadores europeus e o segundo na análise do fluxo de mão de obra não apenas no futebol, mas emtodos esportes.

Os trabalhos correlatos que abordam diretamente transações de futebol como tema são [Liu et al.2016; Palacios-Huerta 2004; Frick 2007; Felix et al. 2018], sendo que nestes trabalhos foram utilizadasdiferentes metodologias para a avaliação do mercado de transferências, onde em apenas um forautilizado métricas de redes para tal avaliação. Os trabalhos de [Palacios-Huerta 2004; Frick 2007]não empregam métricas de redes complexas para suas análises, sendo que o primeiro estudo avaliaas transações de futebol através de análises estatísticas comportamentais temporais, investigandoapenas ligas inglesas e dando uma visão econômica ao esporte, enquanto o segundo artigo faz análisedo mercado de transferências de atletas na Europa, de maneira empírica, avaliando aspectos nãoconsiderados em nossas análises como salário de jogadores e tempo de carreira de jogadores.

Os artigos [Liu et al. 2016; Felix et al. 2018], bem como este, utilizam-se de métricas de redespara avaliação do mercado de transações de jogadores, do qual o primeiro trabalho [Liu et al. 2016]apontou apenas algumas propriedades da rede construída, tendo como principal objetivo não avaliar omercado de transferências, mas sim analisar o sucesso de um time de acordo com suas transferências.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

117

Page 118: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise do impacto das copas do mundo no mercado de jogadores de futebol · 3

Já o seguinte [Felix et al. 2018] utiliza mais de métricas de redes complexas, utilizando destas métricaspara analisar o ranking e as comunidades dos países presentes na copa do mundo de 2018.

3. METODOLOGIA

O presente trabalho apresenta um estudo das transferências realizadas no futebol e o impacto destasna copa do mundo, utilizando técnicas de redes complexas em conjunto com princípios de mineraçãode dados. Para realização de tal tarefa, primeiramente foi necessário a realização de uma coleta dedados para obtenção de dados de transações entre times. Para isso, foi coletados os dados do site1, sendo este uma grande base de dados com diversas informações relacionadas ao futebol, entreelas estatísticas, tabelas de campeonatos e o principal objeto de estudo deste trabalho, os dadosrelacionados a transações de jogadores. Para a coleta de dados, foi desenvolvido por nós um parserque tem como objetivo a limpeza e pré processamento dos dados que previamente estavam em formatode dados não estruturados de páginas web, html.

Os dados coletados datam desde o ano de 1962 até o ano de 2017, foram coletados as 250 transaçõesmais importantes, em termos de valor monetário, realizadas por ano para cada posição dos jogadores,um exemplo seria as 250 transações com maior valor no ano de 2002 na posição de lateral esquerdo.Entretanto, é ressaltado que há anos em que o número de transações presentes no site não chegam a250, sendo observado casos em que o número de transações em determinada posição era igual a zero.

Após a obtenção dos dados, as redes foram modeladas de maneira que cada país é representado porum vértice, e há uma aresta direcionada entre estes vértices caso já tenha se realizado uma transaçãoentre os mesmos, foi definido como o peso da aresta a da quantidade de transações realizadas entreum país e outro a fim de não causar distorções de valores entre as diferentes redes devido a mudançasde magnitude das cifras pagas por jogadores com o passar dos anos.

Para geração das redes foi considerado um intervalo de 4 anos, assim, as transações foram agrupadasde modo a sumarizar as transações realizadas entre uma copa do mundo e outra. De maneira geral, foiconsiderada essa abordagem para a modelagem da rede pois, avaliou-se que o ano de copa do mundo,em sua primeira parte, é um ano em que seleções estão previamente definidas para defender seu paísem competição, enquanto a segunda parte do ano de copa, após a ocorrência do evento, é um períodode remoldagem do time para uma próxima competição caso o time atual não saia vencedor ou nãoapresente bons resultados. Desta forma, é considerado que o período que irá definir a copa do mundode 2018, por exemplo, são os anos de 2014 a 2017.

Após a modelagem das redes, para realização das análises, foram calculadas algumas propriedadesdas redes que serão apresentadas na Seção 4. Também foram empregadas métricas de centralidadede redes, que compreende a uma classe de algoritmos de redes complexas que visam definir quais osvértices mais importantes (centrais) em uma rede de acordo com um critério pré-definido.

Neste trabalho são empregados os algoritmos pagerank, betweenness, closeness. centralidade porauto-vetor e centralidade por grau. Cada um desses algoritmos possui um modo para definição dosprincipais vértices da rede, por exemplo, o Pagerank considera que a centralidade propagada aosvizinhos é proporcional ao número de arestas de saída, o Betweenness analisa a fração de caminhosmínimos, considerando a distância geodésica entre todos pares de vértices da rede passa por cadavértice, o vértice mais central será o que possui a maior fração de caminhos passando por ele, oClosenness avalia a distância geodésica média entre um nó e outros por ele alcançáveis, a abordagemde Centralidade por autovetor utiliza-se de autovetores para definir o quão central um nó é narede, enquanto o algoritmo Centralidade por grau classifica o vértice de acordo o seu grau.

Após a aplicação das técnicas de centralidade de redes, é utilizado o algoritmo Principal ComponentAnalysis (PCA) (análise de componentes principais), que é um procedimento matemático que converte

1transfermarkt.com

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

118

Page 119: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · L. G. da S. Felix and C. M. Barbosa and V. da F. Vieira and C. R. Xavier

um conjunto de valores em um conjunto de valores linearmente não correlacionados chamados decomponentes principais. O PCA é utilizado em nossa metodologia para descoberta dos principaisvértices da rede formando apenas um ranking que é gerado do conjunto dessas diversas métricas,para, a partir disso, descobrirmos se o ranking gerado tende a se manter a cada copa do mundo ouse há muita variação no mercado do futebol. A escolha dessa técnica se deu baseado nas vantagensapontadas em [Han et al. 2011] com relação a outros algoritmos, sendo as vantagens que este métodopode ser aplicado sobre dados ordenados e não ordenados, conseguindo ter bons resultados tambémcom dados esparsos.

4. ANÁLISE DA REDE

Nesta seção são mostrados e discutidos os resultados da aplicação da metodologia proposta.

4.1 Base de dados

Para realização deste trabalho foi feita uma coleta no site 2 das transferências realizadas entre 1962até 2017, gerando através de um parser uma base com dados estruturados e a partir dessa base forammontadas diversas redes separadas, cada uma delas representando um período de 4 anos, períodoque antecede cada copa do mundo FIFA. Ao todo, foram feitas 14 redes, sendo a data do primeiroagrupamento correspondente a Copa de 1966 e do último correspondendo a copa de 2018.

4.2 Futebol Globalizado

Ao analisarmos as redes geradas, pode-se visualizar que a quantidade de vértices varia de ano paraano. Segundo [Beck 2018], a globalização pode ser definida como processo onde a soberania nacionalé atravessada e indeterminada por atores internacionais variando os poderes, orientações, identidadese redes. No caso do futebol, esses atores são os atletas que atravessam barreiras nacionais para poderter chances nos clubes europeus mais ricos[Poli 2010].

Fig. 1. Quantidade de países envolvidos em transações por ano

Na Figura 1, pode ser observado que nos primeiros anos estudados o número de transferências e depaíses envolvidos nestas é bastante inferior quando comparados com tempos atuais. Pode-se justificareste fato simplesmente afirmando que a base está incompleta e não possui dados pela dificuldade doacesso a informação na época, contudo, este é um fenômeno anteriormente estudado pela sociologia

2transfermarkt.com

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

119

Page 120: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise do impacto das copas do mundo no mercado de jogadores de futebol · 5

que demonstra que a globalização pode ser entendida através do futebol [Poli 2010; Maguire andPearton 2000; Maguire 1994].E assim como aumentou-se a quantidade de transações feitas por essespaíses, também aumentou a variedade de países que participam das transações, isto pode variar deacordo com as propriedades das redes através do tempo.

Métrica Maior Valor Menor ValorDensidade 0,17 (1966) 0,059 (1994)Diâmetro 6 (1986, 2002, 2006, 2014) 2 (1970)Coeficiente de clusterização 0,48 (2014) 0 (1966, 1970)Reciprocidade 0.52 (1982) 0 (1966, 1970)Assortatividade grau 0 (1974) -0,49 (1966)Grau máximo 80 (2018) 3 (1966, 1970)Força máxima de saída 478 (2010) 2 (1970)Força máxima de entrada 888 (2018) 4 (1970)

Table I. Propriedades das redes da Copa do mundo

A tabela I mostra os valores máximos e mínimos das propriedades relacionadas a todas redesgeradas. Para visualização dessas propriedades foram utilizadas métricas de redes complexas, dentreestas métricas temos densidade, que compreende a razão entre a quantidade de arestas do grafo Ge a quantidade de arestas de um grafo completo G’ com a mesma quantidade de vértices, diâmetroque é a maior distância entre os vértices de um grafo G, reciprocidade é a medida da possibilidade dosvértices de um grafo G direcionado ser mutuamente ligados, assortatividade de grau é a medida dequanto os vértices de um grafo G tende a ter ligações com vértices de grau semelhante, grau máximoé o número de arestas do vértice com maior número de ligações de um grafo G e força de um grafoque é a soma dos pesos das arestas incidentes sobre o vértice V de um grafo G.

Ao analisarmos a tabela é possível observar o quanto a mesma nos fala sobre o futebol em geral,métricas como força máxima de saída e de entrada que indicam países que fazem muitas transaçõesde venda e muitas transações de compra. O país que possui valor máximo de saída é o Brasil (478)mostrando que o mesmo é um país produtor, com seu papel no mercado na venda de jogadores paragrandes países, como a Inglaterra que representa o país que possui o valor de força máxima de entrada,888, mostrando que este é um país com papel de consumidor no mercado.

Além disso, é possível perceber que a reciprocidade da rede possui o maior valor de aproximadamente52% no ano de 1982. Pode-se observar através destes valores que as redes em grande maioria semostram pouco recíprocas, o que no contexto significa que existem países consumidores e países"produtores", onde estes países produtores geralmente não conseguem comprar da mesma forma quevendem, havendo assim um fluxo contínuo de forças de trabalhos para regiões com mais dinheiro eprestígio. Assim, como afirmado em [Poli 2010], as companhias não olham mais apenas para mercadose matéria prima dos países do sul, mas também por forças de trabalho.

Através do diâmetro da rede é possível ver o "grau de separação"entre os vértices, considerandoo crescente número de vértices nas redes geradas 1, comparando com essa métrica, vemos que estesvalores de diâmetro não estão aumentando ao longo dos anos, sendo que o maior registro destaigual a 6, enquanto em 2018 esse valor foi 5, mostrando que mesmo com o crescimento da redea distância entre os países presentes na rede está diminuindo. A densidade da rede nos mostraquando as redes são desconexas, já que seu maior valor é de 0.17, o que mostra que para se obterum grafo completo, com arestas de todos para todos, precisaríamos de uma grande quantidade dearestas. No contexto do futebol isso demonstra que muitos países fazem conexões com poucos países,transformando este mercado em um negócio onde poucos países estão muito conectados, sendo quegrande parte destes vértices muito conectados são países extremamente consumidores que estão aprocura de novos talentos.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

120

Page 121: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · L. G. da S. Felix and C. M. Barbosa and V. da F. Vieira and C. R. Xavier

Levando em consideração esses aspectos levantados, vemos que é possível mostrar a globalização eteorias desenvolvidas pela sociologia através das redes de futebol. Estas podem nos mostrar além dofluxo de trabalho para grandes países consumidores presentes na Europa e novos mercados crescentescomo China e Arabia Saudita, e também os países produtores, chamados também de mercado fazenda,que fornecem atletas para ligas ricas. Além disso, é possível visualizar a expansão do número de vérticesdas redes, o que nos mostra a expansão do mercado como um todo. Por fim, as propriedades das redesnos dão diversas informações que se embasam, fortalece, detalham e atualizam as teorias sociológicaslevantadas, já que de modo geral, estes trabalhos mostram-se defasados por não considerarem aascensão do mercado asiático, principalmente da China nos últimos anos, a qual tem trazido propostasmonetárias acima do mercado europeu, mesmo não possuindo o mesmo prestígio dos grandes clubesda Europa.

4.3 Impacto das transações em copas do mundo

Considerando o panorama histórico de transações realizadas em copas do mundo, ao analisarmosas transferências realizadas por países que estiveram nos três primeiros lugares e nos três últimoslugares, foi constatado que em aproximadamente 75% dos casos, estados bem colocados na competiçãoconseguem aumentar a quantidade de transações de uma copa para outra. Já países que estão malcolocados, demonstram uma queda no número de transações, onde em 71% não há um aumentoneste número. Vale destacar que o número de transações de venda de 84% dos países aumentaram,valorizando assim o mercado nacional de jogadores.

Afim de verificarmos se a importância de um país na rede influência em seu desempenho na rede,foram feitos diversos rankings utilizando todas as métricas de centralidade de rede disponíveis nabiblioteca igraph 3 para python, como pagerank, betwenness, closeness e centralidades por autova-lor e por grau. Contudo trabalhar com todos esses e verificar todos esses valores seria uma tarefacomplicada de se fazer manualmente, já que para cada vértice da rede iríamos ter que analisar cincovalores diferentes de ranking considerando que temos um total de quatorze redes, essa análise seriabastante trabalhosa. Pensando nisso, foi aplicado a técnica de análise de componente principal, PCA,afim da redução de dimensionalidade e consequentemente formar uma tabela única que descreveria aimportância dos países para rede.

Após a aplicação do método, onde tínhamos um ranking diferente por rede gerada, foi comparadaessas tabelas através do método de correlação de Spearman afim de verificar se países que são centraisem um ano tendem a se manter dessa forma na outra copa do mundo ou se estes países estão variandocom o tempo.

Analisando a tabela 4.3 é possível perceber que os valores de correlação variam muito através dosanos, o que significa que os rankings gerados se mostram pouco constantes, portanto, o mercado detransações tende a variar bastante de uma copa para outra, sendo possível identificar a ascensão depaíses asiáticos como China e Arábia Saudita nos últimos anos. Contudo é perceptível também que asprimeiras posições se mantém entre alguns países da Europa, sendo eles Itália, Inglaterra, Espanha,França e Alemanha.

Ao associarmos as tabelas de ranking com os resultados das copas do mundo, afim de verificar sea importância de um país na rede implicava diretamente em boas colocações na copa, foi possívelverificar que em grande maioria das competições, pelo menos um país que estava entre os principaisno ranking teve um bom desempenho no evento, acabando entre os três primeiros colocados.

É possível perceber através da tabela 4.3 que a incidência de países presentes na coluna de principaispaíses quase é constante, entretanto, vale destacar que o país que se mostrou por vários anos comoprincipal, a Inglaterra, ganhou apenas uma competição, de 1966, tendo uma boa colocação novamente

3igraph.org

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

121

Page 122: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Análise do impacto das copas do mundo no mercado de jogadores de futebol · 7

Ano Valor de Correlação1966 0.0471970 0.3801974 0.2381978 -0.2611982 0.8331986 0.1901990 0.5951994 0.7851998 0.7142002 0.3092006 0.2852010 -0.5472014 -0.071

Table II. Esta tabela mostra o valor de correlação do ranking de um ano com o ano posterior

Ano Melhores colocados Principais países no ranking1966 Inglaterra, Alemanha, Portugal Alemanha, Holanda, Itália1970 Brasil, Itália, Alemanha Inglaterra, Alemanha, Bélgica1974 Alemanha, Holanda, Polônia Alemanha, Holanda, Bélgica1978 Argentina, Holanda, Brasil Alemanha, Inglaterra, Holanda1982 Itália, Alemanha, Polônia Inglaterra, Alemanha, Holanda1986 Argentina, Alemanha, França Inglaterra, Alemanha, Itália1990 Alemanha, Argentina, Inglaterra Inglaterra, Alemanha, Itália1994 Brasil, Itália, Suíça Inglaterra, Alemanha, Itália1998 França, Brasil, Croácia Inglaterra, Alemanha, Espanha2002 Brasil, Alemanha, Turquia Inglaterra, Alemanha, Itália2006 Itália, França, Alemanha Inglaterra, Alemanha, Rússia2010 Espanha, Holanda, Alemanha Inglaterra, Alemanha, Espanha2014 Alemanha, Argentina, Holanda Itália, Inglaterra, Alemanha

Table III. Na tabela é possível ver os melhor colocados de cada edição da copa do mundo e o ranking de principaispaíses da rede

apenas em 1990, quando terminou em terceiro lugar. Isso nos mostra que a quantidade de transaçõesrealizadas por um país não influência de maneira direta na sua colocação na copa do mundo. Valedestacar ainda que o investimento realizados em jogadores por um país reflete na qualidade dostimes para um campeonato nacional e internacional, mas não reflete em uma seleção nacional forte osuficiente para grandes competições continentais e mundiais.

5. CONCLUSÃO

O presente trabalho apresentou um estudo das redes de transferências de jogadores de futebol reali-zadas nos quatro anos que antecederam cada copa do mundo entre 1966 e 2018 e analisou a relaçãodestas com copa do mundo utilizando técnicas de redes complexas em conjunto com princípios demineração de dados, para realização de tal tarefa foram utilizados dados do site 4.

Com este estudo foi possível confirmar que o futebol acompanhou a globalização do mercado mundialquando fala-se em transferência de jogadores, promovendo um grande movimento de forças de trabalho.Sabe-se que não são somente estrelas do futebol que saem de seus países em busca de uma vida melhor,países fazenda, (produtores de talentos), como o Brasil fornece jogadores para clubes do mundo todo,e muitos prosperam e alguns até atuam em seleções de outros países.

Foi possível observar que a incidência de países identificados como principais países pelo ranking de

4transfermarkt.com

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

122

Page 123: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · L. G. da S. Felix and C. M. Barbosa and V. da F. Vieira and C. R. Xavier

transferência de jogadores é quase constante, entretanto, vale destacar que um país que se mostroupor vários anos como principal, a Inglaterra, ganhou apenas uma competição, de 1966, tendo umaboa colocação novamente apenas em 1990, quando terminou em terceiro lugar. Já a Alemanha, quetambém sempre figurou entre os principais países, para o período estudado esteve presente em 10pódiums das 13 competições analisadas. A Alemanha é um país que possui diversos clubes ricos queimportam jogadores de diversos lugares do mundo para fortalecimento dos campeonatos nacionais econtinentais, e talvez isso reflita na qualidade de sua seleção.

O Brasil não figurou no ranking dos principais países no ranking de transferências nas três primeirasposições, mas é um país que está, para maioria das medidas de ranking, entre os 10 primeiros colo-cados, sendo muitas vezes o país que possui a maior força de saída. Observa-se também que há umcrescimento de transações para a maioria dos países bem colocados na copa do mundo e uma quedanas transferências para os países que figuram nas piores colocações.

Como trabalhos futuros pretende-se estender os estudos nas redes realizando a detecção de comu-nidades, na tentativa de identificar a mudança de parceiros comerciais em função dos resultados decada de copa do mundo.

Agradecimentos

Os autores agradecem às agências de fomento: CNPq e FAPEMIG pelo apoio financeiro.

REFERENCES

Baade, R. A. and Matheson, V. A. The quest for the cup: Assessing the economic impact of the world cup. RegionalStudies 38 (4): 343–354, 2004.

Beck, U. What is globalization? John Wiley & Sons, 2018.Deloitte. Annual review of football finance, June 2016.Felix, L., Barbosa, C. M., Carvalho, I. A., Vieira, V. F., and Xavier, C. R. Uma análise das seleções da copa

utilizando uma rede de transferências de jogadores entre países. Brazilian Workshop on Social Network Analysis andMining, 2018.

Florek, M., Breitbarth, T., and Conejo, F. Mega event=mega impact? travelling fans’ experience and perceptionsof the 2006 fifa world cup host nation. Journal of Sport & Tourism 13 (3): 199–219, 2008.

Frick, B. The football players’ labor market: Empirical evidence from the major european leagues. Scottish Journalof Political Economy 54 (3): 422–446, 2007.

Han, J., Pei, J., and Kamber, M. Data mining: concepts and techniques. Elsevier, 2011.Kaplanidou, K. K., Karadakis, K., Gibson, H., Thapa, B., Walker, M., Geldenhuys, S., and Coetzee, W.

Quality of life, event impacts, and mega-event support among south african residents before and after the 2010 fifaworld cup. Journal of Travel Research 52 (5): 631–645, 2013.

Kaplanski, G. and Levy, H. Exploitable predictable irrationality: The fifa world cup effect on the u.s. stock market.Journal of Financial and Quantitative Analysis 45 (02): 535–553, 2010.

Lee, C.-K. and Taylor, T. Critical reflections on the economic impact assessment of a mega-event: the case of 2002fifa world cup. Tourism Management 26 (4): 595 – 603, 2005.

Liu, X. F., Liu, Y.-L., Lu, X.-H., Wang, Q.-X., and Wang, T.-X. The anatomy of the global football playertransfer network: Club functionalities versus network properties. PLOS ONE 11 (6): 1–14, 06, 2016.

Maguire, J. Preliminary observations on globalisation and the migration of sport labour. The Sociological Re-view 42 (3): 452–480, 1994.

Maguire, J. and Pearton, R. The impact of elite labour migration on the identification, selection and developmentof european soccer players. Journal of Sports Sciences 18 (9): 759–769, 2000. PMID: 11043901.

Ohmann, S., Jones, I., and Wilkes, K. The perceived social impacts of the 2006 football world cup on munichresidents. Journal of Sport & Tourism 11 (2): 129–152, 2006.

Palacios-Huerta, I. Structural changes during a century of the world’s most popular sport. Statistical Methods andApplications 13 (2): 241–258, 2004.

Pillay, U. and Bass, O. Mega-events as a response to poverty reduction: The 2010 fifa world cup and its urbandevelopment implications. Urban Forum 19 (3): 329, Jun, 2008.

Poli, R. Understanding globalization through football: The new international division of labour, migratory channelsand transnational trade circuits. International Review for the Sociology of Sport 45 (4): 491–506, 2010.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

123

Page 124: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Busca Ordenada Branch-and-Bound para solução doProblema de Inferência Transdutiva usando Máquinas de

Vetores Suporte

Hygor Xavier Araújo, Raul Fonseca Neto, Saulo Moraes Villela

Universidade Federal de Juiz de Fora, [email protected], raulfonseca.neto, [email protected]

Abstract. Nesse artigo é apresentado um novo método para resolver o problema de inferência transdutiva cujo obje-tivo é predizer os rótulos binários de um subconjunto de pontos de interesse de uma função de decisão desconhecida. Éutilizada a Máquina de Vetores Suporte para tentar encontrar um limite de decisão. Para obter a hipótese de margemmáxima sobre as amostras rotuladas e não rotuladas, é empregada uma busca ordenada (best-first) admissível combase nos valores de margem. Evidências empíricas sugerem que esta solução globalmente ótima pode obter excelentesresultados no problema de transdução. Devido à estratégia de seleção usada, o algoritmo de busca explora apenas umapequena fração de amostras não rotuladas, tornando-a eficiente para bases de dados de tamanho médio. Os resulta-dos obtidos foram comparados com os resultados da Transductive Support Vector Machine, demonstrando melhoresresultados em valores de margem.

Categories and Subject Descriptors: I.2.6 [Artificial Intelligence]: Learning

Keywords: inferência transdutiva, aprendizado semissupervisionado, busca ordenada admissível, máquina de vetoressuporte, separação de baixa densidade

1. INTRODUÇÃO

Em muitas aplicações, o processo de rotular amostras em um conjunto de dados é muito difícil,caro ou demorado, em alguns casos exigindo a classificação manual por um especialista. Nestescasos, geralmente existe um pequeno conjunto de dados rotulados e um grande número de dados nãorotulados. O aprendizado semissupervisionado surge como uma solução para este tipo de situação.Neste tipo de aprendizado, alguns dados rotulados (conjunto de treinamento) são necessários paraa construção do modelo e, além disso, também é possível usar dados não rotulados (conjunto detrabalho) na construção do modelo. Com essa configuração, espera-se que a solução encontrada sejamelhor do que seria possível apenas com os dados rotulados ou não rotulados.

Portanto, é possível utilizar a aprendizagem semissupervisionada em problemas de classificaçãocomo uma tentativa de melhorar a capacidade de generalização, usando dados rotulados e não rotu-lados simultaneamente. Quase todos os métodos relacionados a aprendizagem semissupervisionadaempregam a suposição de agrupamento. Esta hipótese afirma que o limite de decisão deve estar emregiões de baixa densidade [Chapelle et al. 2006]. Assim, faz sentido usar um classificador de largamargem, como a Máquina de Vetores Suporte (Support Vector Machine – SVM), para encontrar umhiperplano separador de margem máxima dos conjuntos de treinamento e trabalho. Dessa forma, asmáquinas de vetores suporte transdutivas [Vapnik 1995] implementam a suposição de agrupamentodiretamente, tentando encontrar uma superfície de decisão que esteja longe das amostras rotuladase não rotuladas. A indução transdutiva pode ser tratada como um caso especial de aprendizadosemissupervisionado se a hipótese transdutiva for usada para inferir os rótulos de novas amostras.

No entanto, encontrar a solução ótima exata do SVM transdutor ou o melhor esquema de rótulospara o conjunto de trabalho é um problema combinatório NP-difícil, tornando-se computacionalmenteproibitivo para bases de dados com um grande número de amostras não rotuladas. Dado um problema

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

124

Page 125: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · H. X. Araújo, R. Fonseca Neto, S. M. Villela

de classificação binária e um conjunto de trabalho de tamanho n, existem 2n possíveis esquemas derotulação.

Para superar este problema, uma busca ordenada que explore eficientemente o espaço de todos osesquemas de rotulação é proposta, encontrando a hipótese de margem máxima. O algoritmo empregacomo função de avaliação os valores de margem. Esta é uma função monótona, pois os valores demargem diminuem monotonamente quando novos pontos são inseridos no espaço do problema e,portanto, o algoritmo de busca é admissível.

Uma avaliação extensiva do desempenho do modelo é fornecida através de um conjunto de ex-perimentos de inferência transdutiva. Os resultados obtidos são comparados com os resultados daTransductive Support Vector Machine (TSVM), proposta em [Joachims 1999], demonstrando melho-res resultados em valores de margem.

Após esta breve introdução, na Seção 2 são apresentados alguns trabalhos relacionados. Na Seção 3,conceitos preliminares como o problema de classificação binária, as máquinas de vetores suporte, oaprendizado semissupervisionado e as diferenças entre inferência indutiva e transdutiva são definidas.A Seção 4 apresenta o algoritmo de transdução proposto e a Seção 5 relata os experimentos e resultados.Finalmente, a Seção 6 apresenta a discussão e as perspectivas de trabalhos futuros.

2. TRABALHOS RELACIONADOS

Em [Gammerman et al. 1998] foi proposto o primeiro método para inferência transdutiva em pro-blemas de classificação binária. O método é uma modificação do SVM e atribui a uma nova amostraum valor de previsão combinado com um grau de confiança baseado no pressuposto de que a novaamostra poderia ser ou não um vetor suporte em qualquer uma das classes. Portanto, este não é ummétodo combinatório que encontre a hipótese de margem máxima.

Em [Graepel et al. 1999] o problema de inferência transdutiva é modelado por uma perspectivabayesiana. Neste contexto, a probabilidade do rótulo de uma nova amostra é determinada como amedida posterior do subconjunto correspondente do espaço de hipóteses. Nesse sentido, os autoresconsideram que a probabilidade dos rótulos é determinada pela razão do volume no espaço de versões,porque uma nova amostra divide o espaço de versões em dois subespaços de acordo com as duaspossibilidades de rotulação. No entanto, a principal desvantagem dessa abordagem é a dependênciade uma técnica eficiente para calcular o maior volume dos subespaços.

Em [Bennett and Demiriz 1999] é apresentada a Semi-Supervised Support Vector Machine (S3VM).Neste método é mostrado que o problema de otimização do SVM pode ser modificado para incluir oconjunto de trabalho e transformá-lo em um problema de programação inteira mista, que pode serresolvido por métodos de programação inteira. Para facilitar a resolução do problema, os autorestentam minimizar a norma L1 do vetor normal, definindo um modelo de programação linear robustocom variáveis binárias. Este método é prático apenas para resolver problemas de pequeno porte.

A Transductive Support Vector Machine é apresentada em [Joachims 1999], que realiza uma pesquisalocal ao rotular todo o conjunto de trabalho e, em seguida, realiza alterações nos rótulos encontrados,invertendo os rótulos a cada duas amostras selecionadas enquanto há uma melhoria na função objetivo.O método foi aplicado pela primeira vez no contexto da classificação de texto. Como não é um métodoexato e usa uma forma de busca local, é projetado para lidar com bases de dados de tamanho grande.

Finalmente, [Chapelle et al. 2007] apresenta uma formulação do S3VM usando a técnica Branch-and-Bound para obter a solução ótima global, tentando aprender a suposição do separador de baixadensidade. O método é muito semelhante à nossa proposta, mas difere nos três principais processos:ramificação, poda e exploração, e é apropriado apenas para bases de dados de tamanho pequeno. Comoserá visto na Seção 4, foram implementadas estratégias alternativas para esses processos, tornando omodelo proposto mais eficiente e aplicável em bases de dados de tamanho médio.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

125

Page 126: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Busca Ordenada Branch-and-Bound para solução do Problema de Inferência Transdutiva usando SVM · 3

3. PRELIMINARES

3.1 Problema de classificação binária

Dado um conjunto de amostras X de tamanhom pertencentes a um espaço de entrada Rd de dimensãod com cada amostra xi associada a um escalar yi ∈ Y , pode-se definir o conjunto de treinamento deum problema de classificação como Z = zi = (xi, yi) | i ∈ 1, . . . ,m, xi ∈ X e yi ∈ Y . Em umproblema de classificação binária yi = −1 ou +1.

O principal objetivo em um problema de classificação é encontrar uma função que generalize apartir de um conjunto de dados utilizado para treinamento, ou seja, que seja capaz de classificarnovas amostras com uma acurácia considerada satisfatória. Esta função pode ser definida como umhiperplano com vetor normal w ∈ Rd, também chamado de vetor de pesos, e uma constante b ∈ R,chamado de viés. Este hiperplano deve separar o espaço de modo que as amostras (xi, yi) ∈ Z | yi =+1 fiquem em um subespaço separado por ele e (xi, yi) ∈ Z | yi = −1 no outro.

Para um conjunto de treinamento linearmente separável, é feita a busca por (w, b) sujeito a yi(w ·xi + b) ≥ 0,∀(xi, yi) ∈ Z. Para alguns conjuntos de treinamento, não haverá um hiperplano capaz deseparar as amostras, porque Z não é linearmente separável em seu espaço original mas torna-se em umespaço projetado de maior dimensão. Para Z aceitar uma margem γ ≥ 0 deve haver um hiperplanoH := x ∈ Rd : w · x+ b = 0 sujeito a yi(w · xi + b) ≥ γ, ∀ (xi, yi) ∈ Z.

Uma maneira possível de encontrar esse hiperplano é usar um classificador de larga margem. Essaclasse de algoritmo é capaz de definir uma distância entre o limite de decisão e as amostras.

3.2 Máquina de Vetor Suporte

Como mencionado anteriormente, uma maneira de encontrar o hiperplano para um problema declassificação é usando o algoritmo SVM. O SVM é um classificador de máxima margem [Boser et al.1992], o que significa que ele encontra um hiperplano que maximiza a distância entre as classes. OSVM é definido como um problema de otimização da seguinte maneira:

max(w,b)

(mini

yi(w · xi + b)

||w||

)

s. a. yi(w · xi + b) > 0,∀ (xi, yi) ∈ Z,onde γi = yi(w ·xi+b) é a margem funcional. Para se ter uma noção adequada de distância relacionadaao hiperplano, é preciso definir a margem geométrica γg. A distância perpendicular a partir dohiperplano H até a origem é |b|/||w||. Defini-se dois hiperplanos paralelos a H como H+ := x ∈Rd|w · x+ (b− γ) = 0 e H− := x ∈ Rd|w · x+ (b+ γ) = 0, com a distância entre eles dada por:

dist(H−,H+) =−(b− γ) + (b+ γ)

||w|| =2γ

||w|| ,

então γg := dist(H−,H+)/2 fornece a margem geométrica entre os hiperplanos H+ e H−. Com isso,o problema de otimização pode ser reescrito como:

max γg

s. a. yi(w · xi + b) ≥ ||w||γg,∀ (xi, yi) ∈ Z.

Fazendo γ = 1 = γg||w|| o valor mínimo da margem funcional, à formulação primal do SVM queminimiza a norma euclidiana, derivada por [Vapnik 1995], é obtida:

min1

2||w||2

s. a. yi(w · xi + b) ≥ 1,∀ (xi, yi) ∈ Z.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

126

Page 127: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · H. X. Araújo, R. Fonseca Neto, S. M. Villela

3.3 Aprendizado semissupervisionado e transdução

A aprendizagem semissupervisionada pode ser considerada estar entre a aprendizagem supervisionadae não supervisionada. A razão para isso é que, para encontrar um classificador, sua fase de aprendizadoutiliza não apenas um conjunto de treinamento Xl, com todas as amostras já rotuladas, mas tambémum conjunto de trabalho Xu de amostras não rotuladas. O objetivo de usar esses dois conjuntos é terum classificador melhor do que seria possível usando apenas um deles.

Da mesma forma como foi definido na Seção 3.1, o conjunto de treinamento Xl pode ser definidopara a aprendizagem semissupervisionada como Xl = (xi, yi)|i ∈ 1, . . . ,m. E o conjunto detrabalho como Xu = xj |j ∈ 1, . . . , k.

Um algoritmo de aprendizagem pode ter como resultado uma função indutiva ou transdutiva. Algo-ritmos com uma configuração indutiva após sua fase de aprendizado é capaz de produzir uma funçãof : X → y definida em todo espaço X . Pelo contrário, com uma configuração transdutiva, o resultadoseria uma função f : Xu → yu que só é capaz de rotular as amostras do conjunto de trabalho.

Para novas amostras em uma configuração indutiva, a função resultante pode ser utilizada parafazer previsões sobre os rótulos. Em uma configuração transdutiva, seria necessário retreinar o modeloincluindo as novas amostras no conjunto de trabalho para obter seus rótulos.

A aprendizagem semissupervisionada pode ser vista como uma extensão da inferência indutiva paramétodos discriminativos representados pelas hipóteses condicionais P (y|x). Ela também considera ouso de dados não rotulados representados pelo P (x) anterior. É fácil ver que P (x) influencia P (y|x)como no uso da Regra de Bayes para análise de discriminante.

Por outro lado, a ideia principal da aprendizagem transdutiva segue o fato de que, se você está limi-tado a uma quantidade restrita de informações, não se deve resolver o problema específico resolvendoum problema mais geral [Vapnik 1995].

Seguindo o modelo primal de SVM descrito na Seção 3.2, o problema de inferência transdutiva podeser formulado como:

minw,b,Yu

1

2||w||2

s. a.

yi(w · xi + b) ≥ 1,∀ (xi, yi) ∈ Xl,

yj(w · xj + b) ≥ 1,∀ xj ∈ Xu, yj ∈ Yu.

4. ALGORITMO TRANSDUTIVO

4.1 Espaço de estados e busca heurística

Um paradigma eficiente para lidar com a natureza combinatória do problema de inferência transdutivaé a busca heurística em que cada hipótese do problema é representada por um estado no espaço debusca. É possível citar, entre os principais métodos de busca, a busca ordenada (best-first) queemprega como estratégia de seleção a escolha do melhor entre todos os estados encontrados até omomento. No entanto, este método requer uma função de avaliação para medir o mérito dos estadose a condição de que esta função seja monótona decrescente para resolver problemas de maximização.Seguindo o algoritmo proposto em [Villela et al. 2015] o algoritmo Best-First Branch-and-BoundTransductive Classifier (BFBB-TC) foi desenvolvido acoplado a um SVM linear de margem rígida.Enquanto o AOS apresentado em [Villela et al. 2015] tem como objetivo solucionar o problema deseleção de características o BFBB-TC busca solucionar o problema de classificação transdutiva.

O algoritmo BFBB-TC usa os valores de margem do SVM como uma função de avaliação. Esta fun-ção de avaliação é monótona decrescente, satisfazendo a propriedade de admissibilidade e garantindo

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

127

Page 128: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Busca Ordenada Branch-and-Bound para solução do Problema de Inferência Transdutiva usando SVM · 5

a otimização da busca. Então, dado γm+1 como o valor real da margem máxima para uma hipótesede um estado filho e que γm seja o valor real da margem máxima para a hipótese de seu pai. Assim,para um conjunto de treinamento com m+1 amostras, γm+1 ≤ γm para todas transições de estados.

Os estados gerados, classificados pelos valores de margem, são armazenados em uma fila de priori-dade implementada como uma estrutura de heap denominada H.

4.2 Ramificação

Observando em sequência a Figura 1 o processo de ramificação pode ser explicado da seguinte forma:retire do heap H a solução atual de margem de maior valor (Figura 1a). Em seguida, introduza noespaço de treinamento as amostras não rotuladas do conjunto de trabalho. Se a nova solução for viávele não forçar a margem, a solução ótima foi encontrada. Caso contrário, existe uma margem de erroou solução de margem inviável e é possível atualizar o limite inferior calculando o valor da margemda amostra que está mais próxima do hiperplano (Figura 1b). Esse limite poderia ser melhorado poruma estratégia de balanceamento. Então, este exemplo é selecionado para ser rotulado e gera doisnovos estados S+ e S− que devem ser inseridos, após avaliação, no heap H (Figuras 1c e 1d).

(a) O hiperplano de má-xima margem do conjuntode treinamento. Amostraspositivas/negativas sãomarcadas como +/-. Alinha tracejada é a soluçãodo SVM indutivo.

(b) Inclusão do conjuntode trabalho (pontos). Alinha sólida é a soluçãoótima do SVM transdutore a tracejada pontilhadaé a solução balanceada daFigura 1a. A seta indica aamostra selecionada.

(c) O hiperplano demáxima margem (limitesuperior) do conjunto detreinamento considerandoa amostra selecionada,marcada com uma seta,como rótulo negativo.

(d) O hiperplano demáxima margem (limitesuperior) do conjunto detreinamento considerandoa amostra selecionada,marcada com uma seta,como rótulo positivo.

Figura 1: O processo de ramificação.

4.3 Avaliação e poda

O processo de ramificação produz dois novos conjuntos de treinamento Xl+ e Xl−, cada um com oconjunto de treinamento anterior e a amostra selecionada com um dos rótulos. O SVM é executadocom Xl+ e Xl− para obter as novas soluções com as margens γ+ e γ−. Em seguida, um novo limitesuperior para essa amostra é construído. Se não houver solução, o valor da margem será negativoe o respectivo estado deve ser eliminado e não inserido na estrutura da pilha. Além disso, todos osestados cujo valor de margem é menor que o limite inferior devem ser eliminados. Como sempre é feitaa seleção da amostra que está mais próxima do hiperplano separador, essa amostra é um candidatoem potencial para ser um vetor suporte na solução final quando o valor da margem é reduzido. Todavez que o limite inferior é atualizado, os estados na pilha H com um valor de margem menor do queo limite são removidos da pesquisa.

Nesse sentido, o algoritmo seleciona apenas uma pequena fração das amostras não rotuladas. Apropriedade de monotonicidade dos valores de margem é provada considerando o fato de que o novoproblema de margem máxima é mais restrito do que o problema do pai, observando o fato de que aadição de uma nova restrição reduz o espaço de hipóteses. Portanto, a nova solução deve ser igual ouinferior à solução do pai.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

128

Page 129: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · H. X. Araújo, R. Fonseca Neto, S. M. Villela

4.4 Pseudocódigo

O Algoritmo 1 descreve o Best-First Branch-and-Bound Transductive Classifier.

Algoritmo 1: Best-First Branch-and-Bound Transductive ClassifierEntrada: conjunto de treinamento Xl = (xi, yi) | i ∈ 1, . . . ,m;conjunto de trabalho Xu = xj | j ∈ m+ 1, . . . , k;Saída: rótulos do conjunto de trabalho Yu;

1 início2 inicializar max-heap H;3 computar a solução usando o SVM com Xl para o estado inicial S;4 inserir S em H;5 enquanto H não está vazio e a solução em S não é factível faça6 encontrar a amostra mais próxima (xnearest) ao hiperplano;7 computar novo limite inferior e atualizar se necessário;8 gerar novos conj de treinamento: Xl+ = Xl + xnearest,+1 e Xl− = Xl + xnearest,−1;9 remover xnearest de Xu;

10 computar soluções usando Xl+ e Xl− para os novos estados S+ e S−;11 remover S de H;12 remover de H todos os estados onde γ < limite inferior;13 se γ+ > limite inferior então14 inserir S+ em H;15 fim se16 se γ− > limite inferior então17 inserir S− em H;18 fim se19 selecionar novo S de H;20 fim enquanto

Resultado: rótulos do conjunto de trabalho Yu;21 fim

5. EXPERIMENTOS E RESULTADOS

Nos experimentos, foi feita uma comparação entre o algoritmo BFBB-TC e o TSVM proposto em[Joachims 1999] usando o programa SVM Light1. A escolha pelo TSVM para comparação foi feita porse tratar de um método heurístico computacionalmente mais eficiente mas que não encontra a soluçãoótima como o método de busca admissível proposto. O BFBB-TC foi implementado em Python e usacomo classificador o algoritmo SMO [Platt 1999] implementado na biblioteca Scikit-Learn [Pedregosaet al. 2011]. Para ambas as implementações, o conjunto de hiper-parâmetros foi o parâmetro deregularização C, com um valor de 10000, e o kernel escolhido foi linear. O valor escolhido parao parâmetro C faz com que a solução encontrada pelo SVM seja de margem rígida, o que se faznecessário para a monotonicidade da função objetivo e admissibilidade do método.

Para cada uma das bases, foram feitos experimentos com conjuntos de trabalho (WS) de tamanhos50, 100, 200 e 300. A base BCI, devido ao seu tamanho reduzido, teve um conjunto de trabalho detamanho máximo de 200. Esses conjuntos de trabalho foram criados a partir dos dados originais,fazendo 10 divisões aleatórias para selecionar as amostras para o conjunto de treinamento e conjuntode trabalho. O objetivo foi analisar o tamanho da margem e quanto do conjunto de trabalho foiexplorado na solução. A escolha da margem como métrica está relacionada a obtenção da soluçãoótima (de maior margem) e com uma possível melhor generalização da mesma. Para executar osexperimentos, o único pré-processamento feito foi normalizar os valores dos dados no intervalo [-1, 1].

1Disponível em http://svmlight.joachims.org/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

129

Page 130: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Uma Busca Ordenada Branch-and-Bound para solução do Problema de Inferência Transdutiva usando SVM · 7

5.1 Bases de dados

Para experimentação e análise do método, foram selecionadas quatro bases de dados do benchmark2

criado em [Chapelle et al. 2006]. A escolha das bases se deve por todas serem linearmente separáveis,o que é necessário para encontrar um hiperplano separador considerando a utilização do SVM commargem rígida. Na Tabela I são apresentadas informações sobre as bases.

Tabela I: Informações das bases de dados.

Base Atributos Amostras

Pos. Neg. Total

Digit1 241 734 766 1500USPS 241 1200 300 1500COIL2 241 750 750 1500BCI 117 200 200 400

5.2 Resultados

Na Tabela II são mostrados os valores médios para a margem obtida, com seu respectivo desvio padrão,para as dez execuções do TSVM e do BFBB-TC. A coluna “WS” indica o tamanho do conjunto detrabalho. A coluna “Não exp.” indica qual porcentagem do conjunto de trabalho não foi exploradana solução final do algoritmo BFBB-TC com o hiperplano que separa corretamente as amostras dosconjuntos de treinamento e de trabalho. A coluna “%” indica em porcentagem o quanto a margem doBFBB-TC encontrada foi maior que a do TSVM. Os melhores resultados são destacados em negrito.

Tabela II: Comparação entre BFBB-TC e TSVM.

Base WS TSVM BFBB-TC

Margem Margem % Não exp.

Digit1

50 0,05249 ± 0,00259 0,05391 ± 0,00155 2,71% 91,60%100 0,05265 ± 0,00345 0,05486 ± 0,00127 4,20% 92,90%200 0,05559 ± 0,00224 0,05794 ± 0,00211 4,23% 91,55%300 0,05723 ± 0,00497 0,06044 ± 0,00259 5,61% 91,27%

USPS

50 0,01272 ± 0,00047 0,01289 ± 0,00046 1,30% 98,20%100 0,01502 ± 0,00113 0,01529 ± 0,00107 1,74% 96,70%200 0,01946 ± 0,00133 0,01996 ± 0,00161 2,53% 95,10%300 0,02452 ± 0,00237 0,02513 ± 0,00247 2,51% 93,23%

COIL2

50 0,00798 ± 0,00052 0,00828 ± 0,00048 3,75% 95,00%100 0,00832 ± 0,00057 0,00864 ± 0,00040 3,85% 93,20%200 0,00980 ± 0,00051 0,01015 ± 0,00048 3,56% 91,85%300 0,01092 ± 0,00089 0,01135 ± 0,00076 3,91% 91,37%

BCI50 0,00627 ± 0,00076 0,00646 ± 0,00087 3,04% 90,80%100 0,00837 ± 0,00134 0,00870 ± 0,00139 3,90% 87,60%200 0,01645 ± 0,00387 0,01853 ± 0,00477 12,66% 84,95%

Conforme mostrado na Tabela II o algoritmo BFBB-TC alcançou uma margem maior em todosos casos, como esperado. Dado que uma margem maior é alcançada, espera-se que o classificadortambém tenha uma melhor generalização. Embora o TSVM seja capaz de encontrar uma solução,mesmo para bases de dados maiores, ela não é a solução ótima.

2As bases de dados podem ser encontrados em http://olivier.chapelle.cc/ssl-book/benchmarks.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

130

Page 131: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · H. X. Araújo, R. Fonseca Neto, S. M. Villela

Uma questão muito importante relacionada a esse método é que apenas um pequeno percentual,variando de 1,80 a 15,05%, do conjunto de trabalho foi realmente necessário para encontrar a soluçãofinal nos experimentos. Com um conjunto de trabalho de tamanho n existem 2n possíveis esquemasde rotulação para expandir no total, mas caso seja preciso expandir utilizando no máximo 10% dasamostras existiriam apenas 2k estados, onde k = 0, 1 · n. Levando isso em consideração, se tornapossível resolver problemas com conjuntos de trabalho maiores. Outro detalhe interessante é que nãoseria necessário saber previamente quais amostras do seu conjunto de trabalho são as mais importantes,o algoritmo determinará isso de acordo com o seu treinamento e a distribuição dos dados não rotulados.

6. CONSIDERAÇÕES FINAIS

Nesse trabalho, foi proposto o algoritmo BFBB-TC, que combina uma estratégia de busca ordenadacom a técnica branch-and-bound e o SVM para encontrar o esquema ideal de rotulação que resolveo problema de transdução. Os resultados, como mostrado na Tabela II, foram muito promissores,incentivando a continuidade dos estudos.

Considerando o fato de que a propriedade de monotonicidade da função de avaliação é preservadano espaço de características, como trabalho futuro, pretende-se desenvolver a implementação dual domodelo permitindo a possibilidade de inferência transdutiva não linear com o uso de funções kernel ea consequente solução de problemas não linearmente separáveis.

Também é considerada a possibilidade de alterar o SVM por um classificador de larga margemimplementado em uma configuração iterativa. Nesse caso, o problema de otimização pode ser resolvidode forma mais eficiente tomando como solução inicial a solução do problema pai [Villela et al. 2016],o que poderia melhorar a eficiência do método.

REFERÊNCIAS

Bennett, K. P. and Demiriz, A. Semi-supervised support vector machines. In Proceedings of the 1998 Conferenceon Advances in Neural Information Processing Systems II. MIT Press, Cambridge, MA, USA, pp. 368–374, 1999.

Boser, B. E., Guyon, I. M., and Vapnik, V. N. A training algorithm for optimal margin classifiers. In Proceedingsof the Fifth Annual Workshop on Computational Learning Theory. ACM, New York, NY, USA, pp. 144–152, 1992.

Chapelle, O., Schölkopf, B., and Zien, A., editors. Semi-Supervised Learning. MIT Press, Cambridge, MA, 2006.Chapelle, O., Sindhwani, V., and Keerthi, S. S. Branch and bound for semi-supervised support vector machines.

In Advances in Neural Information Processing Systems 19, B. Schölkopf, J. C. Platt, and T. Hoffman (Eds.). MITPress, Hyatt Regency Vancouver, in Vancouver, B.C., Canada, pp. 217–224, 2007.

Gammerman, A., Vovk, V., and Vapnik, V. Learning by transduction. In Proceedings of the Fourteenth Conferenceon Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pp. 148–155,1998.

Graepel, T., Herbrich, R., and Obermayer, K. Bayesian transduction. In Proceedings of the 12th InternationalConference on Neural Information Processing Systems. MIT Press, Cambridge, MA, USA, pp. 456–462, 1999.

Joachims, T. Transductive inference for text classification using support vector machines. In Proceedings of theSixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc., San Francisco, CA,USA, pp. 200–209, 1999.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prette-nhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot,M., and Duchesnay, E. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research vol. 12,pp. 2825–2830, 2011.

Platt, J. C. Fast training of support vector machines using sequential minimal optimization. In Advances in KernelMethods, B. Schölkopf, C. J. C. Burges, and A. J. Smola (Eds.). MIT Press, Cambridge, MA, USA, pp. 185–208,1999.

Vapnik, V. N. The Nature of Statistical Learning Theory. Springer-Verlag, Berlin, Heidelberg, 1995.Villela, S. M., Leite, S. C., and Fonseca Neto, R. Feature selection from microarray data via an ordered search

with projected margin. In Proceedings of the 24th International Conference on Artificial Intelligence. AAAI Press,Buenos Aires, Argentina, pp. 3874–3881, 2015.

Villela, S. M., Leite, S. C., and Fonseca Neto, R. Incremental p-margin algorithm for classification with arbitrarynorm. Pattern Recognition vol. 55, pp. 261–272, 2016.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

131

Page 132: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Entendendo a evolução das habilidades de jogadores defutebol através das pontuações do jogo eletrônico FIFA

Ivan R. Soares Jr., Renato M. Assunção, Pedro O. S. Vaz de Melo

Departamento de Ciência da Computação - Universidade Federal de Minas Gerais (UFMG)Belo Horizonte - MG - Brazil

ivansoares,assuncao,[email protected]

Resumo. A popularidade do futebol gera interesse em caracterizar o desenvolvimento de jogadores de elite, seja porrazões comerciais ou de entretenimento. A EA Sports, produtora da franquia de jogos eletrônicos FIFA, investe emavaliar os atletas para representá-los de forma realista. Neste artigo são estudadas as pontuações atribuídas em múltiplasatualizações como medições longitudinais e é avaliada a possibilidade de descrever as curvas de desenvolvimento atravésde um número relativamente pequeno de padrões. É proposta uma transformação das séries de medições que visaenfatizar formatos e são utilizadas técnicas de análise de agrupamentos nas observações, a saber k-means e SpectralClustering. São avaliados os resultados para múltiplas habilidades de jogadores em diferentes grupos de posições eapresentados 11 Padrões de Evolução identificados nos agrupamentos. É utilizado o índice Average Silhouette Width.

Categories and Subject Descriptors: I.5.3 [Pattern Recognition]: Clustering

Keywords: clustering, data mining, sports analytics

1. INTRODUÇÃO

O futebol é o esporte mais popular do mundo. O número de estimado espectadores supera 3 bilhões1e há mais de 100 mil atletas profissionais registrados2. O mercado das negociações de contratosde jogadores é multi-milionário e, além das partidas reais, até as video game mobilizam milhões depessoas. O FIFA é o carro chefe de sua produtora, a EA Sports, com mais de 15 milhões de unidadesvendidas em 20163. Esses são indicativos de que há interesse por parte dos clubes e dos fãs emcaracterizar a evolução do desempenho dos jogadores.

O FIFA é construído a partir de avaliações reais, disponibilizadas por 25 produtores, 400 curadorese uma rede com mais de 8.000 técnicos, olheiros e sócios-torcedores. O resultado é um conjunto ricoe de grande escala. Em vez de considerar apenas estatísticas simples, como posse de bola ou chutes agol, são atribuídas a cada jogador notas de 0 a 100 em habilidades como Finalização, Posicionamento,Marcação e Força (há pelo menos 25). Alguns atletas até dizem usar as avaliações para entender seuspontos fracos ou jogar algumas partidas virtuais para começar a conhecer seus futuros oponentes4.

Essas avaliações têm, portanto, grande potencial para aplicações de análise de dados esportivos.Parte desse potencial já foi explorado por outros trabalhos, como Cotta et al. [2016], que apresenta oconjunto de dados, Vroonen et al. [2017] e Soto-Valero [2017]. Dada a precisão com a qual os jogadoressão descritos no FIFA, neste trabalho propomos uma abordagem para caracterizar essa evolução dosatletas a partir de sua base de dados.

A abordagem proposta é inspirada em um trabalho similar realizado dentro do contexto de obrasliterárias: ainda em meados do século XX, o escritor Kurt Vonnegut, percebendo semelhança entre

1https://www.fifa.com/worldcup/news/2014-fifa-world-cuptm-reached-3-2-billion-viewers-one-billion-watched--27455192https://www.fifa.com/mm/document/fifafacts/bcoffsurv/emaga_9384_10704.pdf3https://www.forbes.com/sites/greatspeculations/2017/10/10/fifa-remains-eas-bread-and-butter/4https://www.datamakespossible.com/meet-data-master-ea-sports-fifa/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

132

Page 133: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · I. R. Soares Jr., R. M. Assunção e P. O. S. Vaz de Melo

algumas estórias, definiu o conceito de arcos emocionais para caracterizar livros de ficção e hipotetizouque há seis formas básicas dominantes. Vonnegut ainda sugeriu que computadores poderiam umdia ser usados para analisar sua proposta. Reagan et al. [2016] abordaram o problema com umametodologia que incluía algoritmos para clustering utilizados em dados com estrutura sequencial etécnicas estatísticas de análise de sentimentos.

Neste trabalho, através da elaboração de uma representação para as séries de pontuações e utilizandotécnicas de Cluster Analysis, investigamos a existência de formas análogas para as curvas de evoluçãodas habilidades de jogadores de futebol, dividindo-os de acordo com os grupos de posições em campo.Encontramos evidências que sugerem a existência dessas formas e exploramos os resultados com 11Padrões de Evolução, que ocorrem para múltiplas habilidades e se distinguem por suas característicase velocidades de melhoria, deterioração ou estagnação. Trabalhos futuros podem abordar aplicaçõescomo ferramentas de auxilio à identificação de talentos e à tomada de decisões estratégicas em campo.

2. TRABALHOS RELACIONADOS

Cotta et al. [2016] propõem a utilização das notas por habilidade da franquia de video games FIFA emaplicações de análise de dados esportivos, exemplificada com uma avaliação dos resultados de partidasreais a partir das pontuações dos jogadores em campo. Vroonen et al. [2017], utilizando a mesma fontede dados, apresentam o sistema APROPOS (Algorithm for PRediction Of the Potential Of Soccerplayers), baseado em k-nearest neighbors regression. Os autores avaliam critérios de similaridadeabsoluta e critérios baseados na evolução das pontuações dos jogadores. Soto-Valero [2017] utilizaGaussian mixture models para agrupar os jogadores a partir dos dados do FIFA, mas apenas com umavisão transversal, sem incorporar aspectos temporais, e sem separar os jogadores por grupos de posiçõesem campo, o que levou o autor a identificar apenas diferenças relacionadas a essas posições. Akhanliand Hennig [2017] apresentam uma metodologia para agrupar e visualizar estatísticas transversaissobre o desempenho de jogadores de futebol, principalmente variáveis de contagem.

Sardá-Espinosa [2017] apresenta uma visão geral do problema de agrupar séries temporais com baseem sua forma. Diferentes estratégias são identificadas pela função de distância e pelo procedimentode obtenção de protótipos adotado. Há ênfase em estratégias baseadas em Dynamic Time Warpinge no algoritmo k-Shape [Paparrizos and Gravano 2017], mas os autores apontam para a necessidadeconsiderar a aplicação na escolha de uma estratégia apropriada. Reagan et al. [2016] e McFee and Ellis[2014] apresentam exemplos envolvendo identificação de padrões em dados com estrutura sequencial.

A possibilidade de fazer predições a partir da busca de jogadores com séries de pontuações similaresapresentada por Vroonen et al. [2017] sugere a existência de padrões nessas séries. E este trabalhoexplora exatamente uma forma de identificá-los e revelar sua estrutura. Realizar uma análise emgrande escala dos padrões de evolução das habilidades em cada um dos grupos de posições, para omelhor de nosso conhecimento, sem precedentes na literatura, representa uma extensão importante.

3. METODOLOGIA

3.1 Base de Dados

Proveniência. A fonte original do conjunto de dados é o site SOFIFA5, mantido pela comunidade dejogadores do título. No site, há um registro de todas as pontuações desde a versão FIFA 07, incluindoatualizações. Cotta et al. [2016] realizaram uma coleta e apresentaram os detalhes de todos os dadosdisponíveis até o período (Outubro de 2015) e a mesma versão é utilizada neste trabalho.

5https://sofifa.com/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

133

Page 134: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Entendendo a evolução das habilidades de jogadores de futebol através das pontuações do jogo eletrônico FIFA · 3

20 22 24 26 28 30 32

60

80

100Séries originais

4 2 0 2 4

60

80

100Alinhamento

4 2 0 2 40.0

0.5

1.0Escala

Fig. 1. Exemplo do passo-a-passo da transformação. Esquerda: Séries originais. Meio: Séries re-indexadas considerandoa primeira ocorrência do valor máximo. Direita: Valores ajustados para intervalo entre 0 e 1.

Médias por idade. Principalmente para as versões mais recentes, o conjunto de dados inclui múltiplasavaliações de um mesmo jogador em um mesmo ano. Como no trabalho as pontuações são consideradasde acordo com as idades dos jogadores, a pontuação de um jogador em uma certa idade é obtida coma média das pontuações das avaliações que ele recebeu enquanto tinha aquela idade. As idades sãocalculadas a partir das datas de nascimento e das datas das atualizações.

Grupos de posições. Os registros dos jogadores informam sua posição. Exemplos: CB: Center-back(zagueiro central) e ST: Striker (finalizador). Essas posições são categorizadas em quatro grandesgrupos, de acordo com o critério utilizado pelo próprio jogo, que atribui uma cor para cada grupo. Asetapas de seleção de habilidades principais (Seção 3.2) e construção do grafo de similaridades (Seção3.6) são feitas separadamente para cada um deles, a saber: Ataque, Meio-campo, Defesa e Goleiros.

Jogadores com história curta. É comum que um atleta que tenha recentemente ingressado pelaprimeira vez em uma das equipes disponíveis no jogo já apareça na próxima atualização. Dessa forma,a visão parcial de sua carreira é bem restrita, tornando difícil a análise de seu desenvolvimento. Háum problema análogo com os anos finais. Para mitigar essas limitações, as análises foram restritasaos jogadores que têm pontuações disponíveis em pelo menos 5 (cinco) idades, totalizando 11,061.

3.2 Seleção das habilidades principais

Foram analisadas como são ponderadas as habilidades para o cálculo da pontuação geral (Overall), deforma a determinar quais são as mais relevantes para cada grupo de posições. A estimativa foi feitacom um modelo de regressão auxiliar, relacionando as demais pontuações com a pontuação geral paracada atualização. Foi usado o cálculo de importâncias de características6 disponível na implementaçãodo algoritmo Random Forests na biblioteca scikit-learn. As 5 habilidades mais relevantes para cadagrupo de posições foram selecionadas (elas podem ser vistas na Figura 5).

3.3 Padrão de evolução constante

Para parte dos atletas, as pontuações variam relativamente pouco. O intervalo de variação foi definidocomo a diferença entre a maior e a menor pontuação. Considerando as notas de 0 a 100, para cadagrupo de posições e para cada habilidade, jogadores cujo intervalo de variação fosse menor do que 5(cinco) pontos (12.95% do total) foram considerados como membros de um agrupamento com padrãode evolução constante.

3.4 Alinhamento e escala

As séries temporais utilizadas consistem das pontuações médias por idade para cada jogador em cadauma das habilidades principais. Dado o número pequeno de medições – tipicamente 8 – estratégias

6http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

134

Page 135: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · I. R. Soares Jr., R. M. Assunção e P. O. S. Vaz de Melo

Fôlego, cluster #1 (32.59%) Fôlego, cluster #2 (27.33%) Fôlego, cluster #3 (14.37%) Fôlego, cluster #4 (13.16%) Fôlego, cluster #5 (12.55%)

Pique, cluster #1 (26.96%) Pique, cluster #2 (22.61%) Pique, cluster #3 (17.17%) Pique, cluster #4 (16.96%) Pique, cluster #5 (16.30%)

Posicionamento, cluster #1 (26.42%) Posicionamento, cluster #2 (22.76%) Posicionamento, cluster #3 (20.33%) Posicionamento, cluster #4 (15.45%) Posicionamento, cluster #5 (15.04%)

Aceleração, cluster #1 (22.71%) Aceleração, cluster #2 (21.83%) Aceleração, cluster #3 (20.52%) Aceleração, cluster #4 (20.09%) Aceleração, cluster #5 (14.85%)

Força, cluster #1 (28.73%) Força, cluster #2 (25.22%) Força, cluster #3 (17.54%) Força, cluster #4 (15.35%) Força, cluster #5 (13.16%)

Fig. 2. Perfil dos agrupamentos encontrados utilizando k-means para jogadores de meio de campo com 8 pontuaçõesem idades diferentes. Cada linha exibe os agrupamentos para uma habilidade e eles são ordenados da esquerda para adireita em ordem decrescente de número de jogadores. As curvas exibem a mediana das pontuações para os jogadoresno agrupamento e as barras verticais indicam a dispersão, com extremidades nos quantis 25% e 75%.

baseadas em extração de características (feature-based) foram consideradas e julgadas como sendode aplicabilidade limitada no problema. Consequentemente, uma abordagem baseada nas própriasmedições (observation-based clustering) foi priorizada (Caiado et al. [2016] discutem essa distinção).

Um dos passos iniciais foi escolher uma transformação adequada para representá-las (Figura 1). Aescolha dessa transformação foi feita para refletir a ênfase em capturar similaridades no formato dastrajetórias, desassociando-as, por exemplo, do intervalo de variação. Além disso, como é possível terjogadores com padrões de evolução semelhantes, mas que ingressaram na carreira em idades diferentes,é necessário considerar o alinhamento das séries.

Em relação à escala, as séries foram ajustadas para o intervalo entre 0 e 1, referidas como pontuaçõesnormalizadas, sendo 0 a pontuação mínima do jogador e 1 a máxima. Para mitigar problemas como alinhamento, em vez de usar as idades como índice das pontuações, as séries foram reindexadasutilizando um intervalo de número inteiros de forma que a pontuação com índice 0 fosse a primeiraocorrência do valor máximo. Especificamente, sendo xi(t) a função que fornece a pontuação do i-ésimojogador na idade t (já tendo sido selecionada uma habilidade), Dxi seu conjunto domínio contendoas idades com pontuações disponíveis para o jogador e t∗i a menor idade na qual o jogador atinge suapontuação máxima, temos que as séries são representadas por vetores de tamanho (z+ − z− + 1),indexados por z ∈ [z−, z+], onde z− e z+ são o menor e o maior índice entre todos os jogadores,respectivamente. Ou seja, sendo Zi = t − t∗i : t ∈ Dxi o conjunto de índices do i-ésimo jogador,z− = mini min(Zi) e z+ = maxi max(Zi). A representação final ri da evolução de cada habilidadedos jogadores é obtida com a Equação 1, em que x−i = mint xi(t) e x+i = maxt xi(t) representam aspontuações mínima e máxima do jogador, respectivamente.

riz =

xi(z+t∗i )−x−i

x+i −x

−i

se z + t∗i ∈ Dxi ,

N.A. c.c.(z ∈ [z−, z+]) (1)

3.5 k-means Clustering

Foi feita uma análise preliminar utilizando k-means para avaliar se mesmo uma metodologia simplespoderia identificar regularidades nas séries, e uma inspeção dos resultados indica que sim. O número deagrupamentos foi fixado em 5 e foram selecionados apenas jogadores com pontuações em exatamente

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

135

Page 136: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Entendendo a evolução das habilidades de jogadores de futebol através das pontuações do jogo eletrônico FIFA · 5

8 idades diferentes. Não foi feito o alinhamento e as séries foram comparadas por suas distânciaseuclidianas. Tais configurações foram escolhidas considerando a facilidade de inspeção e o compromissoentre número de jogadores disponíveis e a abrangência em relação ao tempo de carreira deles. NaFigura 2, são exibidos os resultados para os jogadores em posições de meio de campo (são 330). Osagrupamentos obtidos não são utilizados nas demais etapas e são apresentados apenas para referência.

3.6 Spectral Clustering

Em [Meila 2016], a família de métodos conhecida como Spectral Clustering é apresentada como umaalternativa para o problema de encontrar agrupamentos que envolve a construção de um grafo pon-derado com similaridades par-a-par entre os elementos e a decomposição espectral de uma matrizcalculada a partir da de adjacência. Os autovetores são utilizados para obter uma representaçãonumérica dos elementos que reflete a estrutura do grafo. Vantagens desse tipo de método incluema capacidade de encontrar agrupamentos com formatos arbitrários (desde que haja separação) e aflexibilidade na escolha de funções de similaridade, que são menos restritivas que distâncias. A imple-mentação utilizada é a disponível na biblioteca scikit-learn. Foram configuradas opções para ativaro uso de afinidades pré-computadas e atribuir rótulos com o k-means nos Spectral Embeddings7. Oparâmetro n_components foi definido como 2. Os vetores obtidos para ri são referidos como ui.

3.6.1 Cálculo das similaridades. Von Luxburg [2007] discute diferentes possibilidades para a cons-trução do grafo de similaridades. A opção deste trabalho foi a de usar grafos totalmente conectadose função de similaridade gaussiana, com a qual a similaridade cai exponencialmente com o quadrado

da distância (Kij = e−d2ij

2σ2 ). Essa escolha foi feita para evitar grafos com múltiplos componentes oua atribuição do mesmo valor de similaridade para pares de pontos com distâncias muito diferentes.O parâmetro σ está relacionado à dispersão. Foi utilizado σ = 1, valor na mesma escala em que oscomponentes, ajustados para estar entre 0 e 1.

Após a reindexação feita para alinhar as séries na primeira ocorrência do valor máximo, o que seobtém são representações de tamanho fixo com índices inteiros em torno de zero e alguns valoresfaltantes. Eirola et al. [2013] discutem questões associadas à aplicação de métodos estatísticos e deaprendizado de máquina em conjuntos com essa característica. Os autores indicam que algumas dasestratégias comuns, como a imputação ou o uso de distâncias parciais, tendem a subestimar tantoas incertezas dos valores imputados quanto as distâncias. Dizem ainda que em situações práticas dereconhecimento de padrões, o foco costuma ser em pontos com alta similaridade e, portanto, falsospositivos são um problema maior do que falsos negativos. Por isso, apontam para estratégias que, emvez de subestimar, tendam a sobrestimar as distâncias. Os autores prescrevem o cálculo da distânciaesperada utilizando um modelo baseado na distribuição normal multivariada.

Neste trabalho, também são usadas distâncias sobrestimadas que privilegiam pontos com alta si-milaridade, conforme sugerem Eirola et al. [2013]. Os desvios amostrais sz de cada componente(calculados ignorando os valores faltantes) são usados para preencher os vetores de diferenças entrerepresentações |ri− rj | (∀i, j) nos índices não disponíveis em ri ou em rj . Sendo ∆(i, j) os vetores de

diferença resultantes, usa-se δij = ‖∆(i, j)‖2 −‖∆(i, i)‖2 (em particular, δii = 0) e Kij = e−δ2ij2 (fun-

ção gaussiana com σ = 1) para obter uma matriz simétrica W = (Kij+Kji

2 )ij com as similaridades.

3.6.2 Escolha do número de clusters. Halkidi et al. [2016] discutem o problema de determinar aquantidade de clusters diante do grande número de métodos disponíveis e de ajustes possíveis. Comonão há rótulos de referência, a escolha de índices de qualidade é mais difícil do que em um problemade classificação supervisionada ou de regressão. Os autores afirmam ainda que o número de índices

7http://scikit-learn.org/stable/modules/generated/sklearn.manifold.SpectralEmbedding.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

136

Page 137: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · I. R. Soares Jr., R. M. Assunção e P. O. S. Vaz de Melo

disponíveis na literatura é relativamente grande e que é importante reconhecer que clustering não éum problema unicamente definido. Geralmente, não há apenas um particionamento ótimo para umcerto conjunto de dados e as escolhas tanto do método quanto dos índices de validade dependem dosobjetivos da pesquisa e de critérios do domínio do problema.

Neste trabalho, o índice adotado foi o Average Silhouette Width (ASW) (também discutido emHalkidi et al. [2016]). Esse critério opera com a agregação das silhuetas, calculadas com uma razãosi em que são comparadas as distâncias médias de uma amostra com as demais do seu cluster (ai) ecom as do cluster mais próximo (bi) dada uma atribuição de rótulos ci que considera um número declusters k. O índice varia entre −1 (atribuição incorreta, valores próximos a −1 indicam bi ai) e 1(atribuição ótima, valores próximos a 1 indicam ai bi). Foi usada a definição dij = ‖ui − uj‖2 (uisão os Spectral Embeddings, veja a Seção 3.6). Para cada uma das execuções, foi escolhido o númerode grupos (k) que maximiza o índice (Equação 2). Adicionalmente, foi considerado o balanceamentoentre os tamanhos dos clusters. Os resultados podem ser vistos na Figura 5.

ai =1

nci − 1

j : cj=ci

dij bi = minl 6=ci

1

ncl

j : cj=l

dijsi =

1− aibi

se ai < bi

0 se ai = bibiai− 1 c.c.

ASW =1

n

i

si (2)

4. RESULTADOS

Após obter separadamente os clusters para cada habilidade principal dos jogadores em cada grupo deposições, foram produzidas as visualizações e constatou-se que haviam protótipos muito semelhantesocorrendo em resultados diferentes (Figura 3). Tal observação motivou um novo particionamento: foifeita uma aplicação de clustering para categorizar os protótipos de cada um dos grupos originais emPadrões de Evolução. Para essa tarefa, foi adotado um algoritmo que só depende das distâncias par-a-par, a saber, Agglomerative Clustering with Complete Linkage8. O mesmo índice (ASW, Equação2) foi usado para selecionar o k e o valor obtido foi 10. Ou seja, foram identificados mais 10 padrõesde evolução além do constante, sendo 11 o total. Os resultados podem ser visualizados na Figura 4.Nela, há também os percentuais de jogadores identificados com os respectivos Padrões de Evolução.

Os protótipos (Figura 4) foram obtidos a partir dos vetores de representação (Equação 1). As coressão utilizadas para indicar as ocorrências dos padrões de evolução (Figura 5). As curvas representamas medianas das pontuações normalizadas dos jogadores no cluster para cada índice. As espessurasdas linhas indicam o percentual dos jogadores com pontuação disponível naquele índice.

A Figura 5 exibe a frequência de cada padrão para 20 habilidades descritas no jogo. Observeque há habilidades com poucos padrões, como Ataque Posicionamento, com 3 padrões apenas, eoutras com mais, como Ataque Pique, com 8 padrões. No entanto, note que a frequência dos padrõesestá razoavelmente balanceada para cada habilidade e o padrão dominante varia de acordo com ahabilidade. Particularmente, observe que em habilidades como Finalização e Posicionamento, opadrão mais frequente apresenta tendência de melhoria, indicando um efeito da maturidade. ParaPique, o mais frequente é de deterioração. No Ataque e no Meio-campo, os padrões para Aceleraçãoe Pique são similares. E o mesmo ocorre entre habilidades dos goleiros. Também há diferenças

Ataque / Finalização, cluster #1 Ataque / Pique, cluster #4 Ataque / Aceleração, cluster #2 Ataque / Aceleração, cluster #7 Meio-campo / Pique, cluster #7 Goleiro / Chute, cluster #7

Fig. 3. Exemplos de protótipos semelhantes em posições e habilidades diferentes.

8http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

137

Page 138: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Entendendo a evolução das habilidades de jogadores de futebol através das pontuações do jogo eletrônico FIFA · 7

13.85% 13.05% 11.86% 11.83% 10.20%

10.13% 9.24% 8.56% 7.50% 3.79%

Fig. 4. Visualização dos 10 Padrões de Evolução obtidos, coloridos para identificar suas ocorrências (Figura 5).

AtaqueFinalização

AtaquePosicionamento

AtaquePique

AtaqueAceleração

AtaqueForça

Meio-campoFôlego

Meio-campoPique

Meio-campoPosicionamento

Meio-campoAceleração

Meio-campoForça

0.0

0.2

0.4

Freq

uênc

ia

ASW: 0.432

ASW: 0.487

ASW: 0.433 ASW: 0.432 ASW: 0.424ASW: 0.414 ASW: 0.433 ASW: 0.425 ASW: 0.426

ASW: 0.416

DefesaPique

DefesaInterceptações

DefesaMarcação

DefesaAceleração

DefesaDividida em pé

GoleiroReflexos

GoleiroPosicionamento

GoleiroElasticidade

GoleiroManejo

GoleiroChute

0.0

0.2

0.4

Freq

uênc

ia

ASW: 0.437

ASW: 0.462 ASW: 0.461

ASW: 0.436

ASW: 0.438 ASW: 0.433 ASW: 0.451

ASW: 0.456ASW: 0.418

ASW: 0.468

Fig. 5. Histogramas dos clusters para as habilidades de cada posição indicando seus Padrões de Evolução (Figura 4).

de diversidade de acordo com a habilidade considerada, vistas pelos diferentes números de padrõesidentificados.

Disponibilizamos exemplos de como os Padrões de Evolução aparacem nas séries de pontuações dosatletas. Foram selecionados jogadores com padrões com característica dominante de melhoria (Figura6), de deterioração (Figura 7) e com melhoria seguida de deterioração (Figura 8). Em tons de azul,são apresentados os jogadores de topo, ordenados pela mediana do atributo Overall. Em tons devermelho, são apresentados outros jogadores dos grupos, independentemente de sua pontuação geral.

5. CONCLUSÃO E TRABALHOS FUTUROS

Neste artigo, propomos uma metodologia para identificar padrões de evolução nas habilidades de atle-tas de elite do futebol a partir dos dados do FIFA. Em suma, a técnica normaliza as pontuações, asalinha considerando os valores máximos, define uma similaridade e utiliza algoritmos de clustering.Surpreendentemente, foram encontradas evidências de que as curvas de desenvolvimento das habili-dades podem ser caracterizadas por apenas 11 padrões, sendo um deles o constante. As escolhas dosnúmeros de clusters foram feitas com o índice ASW, que apresentou resultados entre 0.414 e 0.487,indicando que as atribuições de rótulos representam agrupamentos com uma separação adequada. Ospercentuais de jogadores em cada cluster são razoavelmente balanceados. Com uma análise qualita-tiva dos resultados, vimos que os padrões de evolução ocorrem em múltiplos grupos de posições e emhabilidades diferentes: são visões distintas do conjunto de dados sendo processadas separadamente e

6 4 2 0 2Idade reindexada

0.0

0.2

0.4

0.6

0.8

1.0

Pont

uaçã

o no

rmal

izada

15 20 25 30 35 40Idade

50

60

70

80

90

Pont

uaçã

o

Lionel MessiSergio AgüeroRobin van PersieSøren BergJon DalyJosmer Altidore

Fig. 6. Amostras de um agrupamento com tendência de melhoria. As pontuações são para a habilidade de Finalizaçãodos jogadores de Ataque. O agrupamento é o mais frequente. Esquerda: Representação. Direita: Série original.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

138

Page 139: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · I. R. Soares Jr., R. M. Assunção e P. O. S. Vaz de Melo

0 2 4 6 8Idade reindexada

0.0

0.2

0.4

0.6

0.8

1.0

Pont

uaçã

o no

rmal

izada

15 20 25 30 35 40Idade

50

60

70

80

90

Pont

uaçã

o Zlatan IbrahimovicWayne RooneyRobin van PersieGeijoFrancesco TavanoDarius Henderson

Fig. 7. Amostras de um agrupamento com tendência de deterioração. As pontuações são para a habilidade de Piquedos jogadores de Ataque. O agrupamento é o mais frequente. Esquerda: Representação. Direita: Série original.

4 2 0 2 4 6Idade reindexada

0.0

0.2

0.4

0.6

0.8

1.0

Pont

uaçã

o no

rmal

izada

15 20 25 30 35 40Idade

60

70

80

Pont

uaçã

o

Mario Balotelli BarwuahMirko VucinicCiro ImmobileScott VernonW. PaulistaSascha Mölders

Fig. 8. Amostras de um agrupamento com tendência de melhoria seguida de deterioração. As pontuações são para ahabilidade de Aceleração dos jogadores de Ataque. O agrupamento é o quinto em ordem de frequência.

resultando em protótipos similares. Também foram discutidas algumas intuições obtidas a partir dosagrupamentos e apresentados exemplos de como os padrões aparecem nas séries originais.

Há várias possíveis direções para estender este trabalho, incluindo: estudar a adição de outras in-formações sobre os atletas nas representações, tais como características físicas e mudanças de clube;investigar abordagens para incluir os jogadores com história curta nas análises, por exemplo, obtendodados de outras fontes sobre o tempo de carreira deles; explorar outras possíveis decisões metodológi-cas, como modelar as estruturas de correlação das séries, inclusive entre séries de habilidades diferentes;e propor novas formas de avaliação e usos dos padrões de evolução em tomadas de decisão.

REFERENCES

Akhanli, S. E. and Hennig, C. Some issues in distance construction for football players performance data. Archivesof Data Science 2 (1), 2017.

Caiado, J., Maharaj, E., and D’urso, P. Time series clustering. In C. Hennig, M. Meila, F. Murtagh, and R. Rocci(Eds.), Handbook of Cluster Analysis. CRC Press, USA, pp. 241–263, 2016.

Cotta, L., de Melo, P. O. V., Benevenuto, F., and Loureiro, A. A. Using fifa soccer video game data forsoccer analytics. In Proceedings of the KDD Workshop on Large-Scale Sports Analytics. San Francisco, USA, 2016.

Eirola, E., Doquire, G., Verleysen, M., and Lendasse, A. Distance estimation in numerical data sets withmissing values. Information Sciences vol. 240, pp. 115–128, 2013.

Halkidi, M., Vazirgiannis, M., and Hennig, C. Method-independent indices for cluster validation and estimatingthe number of clusters. In C. Hennig, M. Meila, F. Murtagh, and R. Rocci (Eds.), Handbook of Cluster Analysis.CRC Press, USA, pp. 595–618, 2016.

McFee, B. and Ellis, D. Analyzing song structure with spectral clustering. In ISMIR. pp. 405–410, 2014.Meila, M. Spectral Clustering. In C. Hennig, M. Meila, F. Murtagh, and R. Rocci (Eds.), Handbook of Cluster

Analysis. CRC Press, USA, pp. 147–164, 2016.Paparrizos, J. and Gravano, L. Fast and accurate time-series clustering. ACM Transactions on Database Sys-

tems 42 (2): 8, 2017.Reagan, A. J., Mitchell, L., Kiley, D., Danforth, C. M., and Dodds, P. S. The emotional arcs of stories are

dominated by six basic shapes. EPJ Data Science 5 (1): 31, 2016.Sardá-Espinosa, A. Comparing time-series clustering algorithms in r using the dtwclust package. https://cran.r-

project.org/web/packages/dtwclust/vignettes/dtwclust.pdf, 2017.Soto-Valero, C. A Gaussian mixture clustering model for characterizing football players using the EA Sports’ FIFA

video game system. RICYDE. Revista Internacional de Ciencias del Deporte 13 (49): 244–259, 2017.Von Luxburg, U. A tutorial on spectral clustering. Statistics and computing 17 (4): 395–416, 2007.Vroonen, R., Decroos, T., Van Haaren, J., and Davis, J. Predicting the potential of professional soccer players.

In Machine Learning and Data Mining for Sports Analytics ECML/PKDD 2017 workshop. Skopje, Macedonia, 2017.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

139

Page 140: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Caracterização da Mortalidade Infantil dos Estados de SantaCatarina e Amapá Utilizando Mineração de Dados

Wanderson L. G. Soares, Patrícia Lima, Luis E. Zárate, Mark A. Junho Song e Cristiane N. Nobre

Pontifícia Universidade Católica de Minas [email protected], [email protected], song, nobre,

[email protected]

Abstract. The objective of this article is to use the concepts of knowledge discovery in databases, specifically theconcepts of machine learning in the data mining phase, to characterize infant mortality in the state of Santa Catarina(with lower infant mortality rate) and in the state of Amapá (with the highest infant mortality rate). In this way, theclassifiers J48, JRip and Random Forest were used and a brief comparison was made between the results obtained by theclassifiers in both states. In addition, the database was preprocessed, which includes attribute selection and balancing,the application of data mining techniques and the analysis of the results of the respective models.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intel-ligence]: Learning

Keywords: Classification, Data Mining, Infant Mortality, Machine Learning.

1. INTRODUÇÃO

O estudo do índice de mortalidade infantil pode revelar detalhes sobre aspectos que precisam seraprimorados na população e trata-se de um fator decisivo sobre o desenvolvimento do estado. AMortalidade Infantil apresenta, sob o aspecto científico e social, uma forma de avaliar tanto a questãocomunitária, quanto as medidas de saúde adotadas em uma determinada região e trata-se de umevento que aflige o mundo inteiro [Black et al. 2010].

No trabalho de Hernandez et al. (2011) foi relatado que a MI possui aspectos associados aosproblemas de desigualdade social. Diante deste contexto, a taxa de MI é um parâmetro relevante quepoderá revelar as condições de saúde de uma determinada população [Vianna et al. 2010], e tambémcom o acesso dessa população aos serviços de saúde prestados [Brasil 2009].

Visando obter informações sobre MI, o governo brasileiro implantou o Sistema de Informações sobreMortalidade (SIM ) em 1975 e o Sistema de Informações sobre Nascidos Vivos (SINASC ) em 1990.O SIM é uma base de dados que inclui todos os registros sobre mortalidade e o SINASC reúneinformações sobre os nascimentos em todo o território brasileiro.

Com relação às bases de dados do SIM e do SINASC, o processo de Descoberta de Conhecimentoem Bases de Dados (Knowledge Discovery in Databases - KDD) é uma abordagem que possibilita ainferência de conhecimento a partir de uma grande base de dados [Felix 1998]. Segundo VIANNAet al. (2010), a utilização das técnicas de KDD é bem satisfatória na obtenção de conhecimento erelata-se que as técnicas de aprendizado de máquina estão entre as mais utilizadas no processo demineração de dados.

O objetivo deste trabalho é caracterizar a MI nos estados de Santa Catarina (com a menor taxa de

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

140

Page 141: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Wanderson L. G. Soares, Patrícia Lima, Luis E. Zárate, Mark A. Junho Song e Cristiane N. Nobre

MI ) e do Amapá (que apresenta a maior taxa de MI ) com a utilização dos 03 (três) classificadores:J48 com o plugin VTJ48, JRip e Random Forest, disponíveis no software Waikato Environment forKnowledge Analysis (WEKA). A justificativa pela escolha desses três classificadores está no fato deque o J48 e o JRip descrevem as regras de classificação, enquanto o Random Forest categoriza osatributos mais relevantes. Assim, este trabalho objetiva avaliar as regras e os atributos indicadospara se identificar os principais fatores que contribuem para a mortalidade infantil nos dois estadosconsiderados.

Este artigo está organizado da seguinte maneira: A Seção 2 contém o referencial teórico englobandoinformações sobre mortalidade infantil, mineração de dados e os respectivos classificadores: J48 como plugin VTJ48, JRip e Random Forest. A Seção 3 apresenta os trabalhos relacionados. A Seção4 descreve materiais e métodos, descrevendo a base de dados, o pré-processamento e as métricas deavaliação. A Seção 5 apresenta os resultados e discussões a partir das métricas de avaliação. A Seção6 apresenta as considerações finais e conclui com os trabalhos futuros.

2. REFERENCIAL TEÓRICO

A fundamentação teórica deste trabalho consiste em abordar os conceitos sobre a MI e o processo deKDD.

2.1 Mortalidade Infantil

A MI engloba os óbitos dos seguintes períodos: neonatal precoce (0-6 dias de vida), neonatal tardio(7-27 dias de vida) e pós-neonatal (28 e 364 dias de vida). Constata-se que durante o período neonatalprecoce ocorrem por volta de 50% dos óbitos infantis, podendo chegar até por volta de 66% duranteo período neonatal tardio [UNICEF et al. 2008].

Fig. 1. Taxa de Mortalidade Infantil no Brasil ao longo dos anos 2000 a 2015

Fonte: IBGE, Projeção da População do Brasil - 2013.

Segundo o Instituto Brasileiro de Geografia e Estatística (IBGE), a taxa de MI no Brasil temapresentado um declínio significativo e tem se mostrado associada com os fatores sociais e econômicos

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

141

Page 142: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Caracterização da Mortalidade Infantil de Santa Catarina e do Amapá Utilizando Mineração de Dados · 3

do nosso país [Goldani et al. 2001]. Segundo Costa et al. (2003), a redução da MI observada nos anosde 1980 esteve relacionada ao declínio da fecundidade. Relata-se que a taxa de MI foi de 52,02/1.000em 1989, para 35,57/1.000 em 1998. Na Figura 1, releva-se que a taxa de MI foi de 29,02/1.000 noano 2000, para 13,8/1.000 em 2015.

2.2 Mineração de Dados e Descoberta de Conhecimento

A mineração de dados pode ser descrita como a atividade de extrair conhecimento e/ou padrões apartir de uma grande quantidade de dados [Quilici-Gonzalez 2015]. Grande parte da literatura trata amineração de dados como descoberta de conhecimento em bases de dados (KDD – Knowledge Discoreyin Databases) e tem autores que consideram a mineração de dados como sendo uma etapa do processodo KDD [Carvalho et al. 2011]. Fayyad et al. (1996) relatam que as etapas de um processo KDD sãoas seguintes: Seleção, Limpeza e integração de dados, Transformação dos dados, Mineração de Dados,Avaliação e apresentação dos resultados.

2.2.1 Técnicas de Balanceamento. No mundo real, a quantidade de instâncias de diferentes classespoderá variar [Prati et al. 2003], por exemplo: poderá existir uma classe A com uma quantidadede instâncias muito superior quando comparada com a classe B, sendo assim a classe A será ma-joritária neste exemplo. É importante salientar que o desbalanceamento pode afetar negativamente oresultado de algoritmo baseado em aprendizado de máquina [Carvalho et al. 2011]. Diante de dadosdesbalanceados é importante realizar o balanceamento a partir das seguintes abordagens:

—Oversampling : consiste na replicação de instâncias da classe minoritária visando realizar o balan-ceamento, mas o acréscimo de instâncias poderá incorporar situações que nunca ocorreram naprática

—Undersampling : consiste na eliminação de instâncias da classe majoritária visando realizar o balan-ceamento, mas isso poderá levar à eliminação de dados relevantes que poderão comprometer aindução do modelo

2.3 Classificadores utilizados

Este trabalho utiliza os seguintes classificadores: J48, JRip e Random Forest.

2.3.1 J48 com o plugin VTJ48. Este trabalho utiliza o algoritmo J48, implementação em Javado algoritmo C4.5 (QUINLAN, 1993) na plataforma WEKA. Para ajustar os parâmetros do J48, foiutilizado o pluging VTJ48 1. O algoritmo C4.5 visa a geração de árvores de decisão permitindo otratamento de atributos numéricos e/ou nominais. Durante o treinamento, a cada nó o algoritmoseleciona um atributo que melhor subdivide o conjunto das amostras [Quinlan 2014].

2.3.2 JRip. O algoritmo Repeated Incremental Pruning to Produce Error Reduction (RIPPER)refere-se à versão otimizada do algoritmo Incremental Reduced Error Pruning (IREP) [Cohen 1995].O algoritmo (RIPPER) adota a abordagem de poda reduzida visando a redução de erros e a geraçãode regras adequadas. Este trabalho utiliza o algoritmo JRip, implementação em Java do algoritmo(RIPPER).

2.3.3 Random Forest. O algoritmo consiste em um grande número de árvores e adota a abor-dagem do voto majoritário para fazer a classificação. O respectivo classificador apresenta resultadosatisfatório mesmo com a presença de ruído/outliers [Khoshgoftaar et al. 2007] e as árvores do RandomForest são caracterizadas por terem suas entradas definidas de uma forma aleatória [Breiman 2001].

1Plugin disponível em: http://www.ri.fzv.um.si/vtj48/. Acessado em: 09 jun. 2018.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

142

Page 143: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Wanderson L. G. Soares, Patrícia Lima, Luis E. Zárate, Mark A. Junho Song e Cristiane N. Nobre

3. TRABALHOS RELACIONADOS

Todos os trabalhos descritos nesta seção estão envolvidos com a aplicação de técnicas de KDD na áreada saúde, os quais incluem o estudo sobre a MI e a tentativa de descoberta de padrões que possamresultar em alguma medida de intervenção para diminuir as taxas de MI.

Para Oliveira et al [2001], a mineração de dados pode ser utilizada como ferramenta para desenvolverum modelo de prevenção da mortalidade infantil. Os autores utilizaram técnicas de classificaçãoassociadas ao processo de KDD para traçar o perfil de recém-nascidos e identificar quais variáveisestão associadas à sua mortalidade. Os resultados estatísticos apresentam uma forte correlação aopeso do bebê, ao nível de apgar (exame que avalia o nível de adaptação do bebê à vida fora do útero)do primeiro e quinto minuto de vida, à duração da gestação (em semanas) e ao tipo de gravidez (única,dupla, etc).

Buscando trabalhos que corroborassem com a aplicação das técnicas de KDD, [Barcellos et al.2002] analisou a situação atual do geoprocessamento e da análise de dados na rede de saúde públicabrasileira. Os autores concluíram que as técnicas computacionais são de grande auxílio, devem sercada vez mais utilizadas como medidas de análises na área da saúde e que são necessários investimentospara capacitação de pessoas para realização deste trabalho.

No trabalho de Kitsantas et al [2006] o objetivo era identificar os subgrupos de mulheres com altorisco de desenvolver uma gestação onde o bebê nasça com baixo peso. Os dados são de sete regiõesgeográficas da Flórida, em que aplicando técnicas de mineração de dados foi possível identificar váriossubgrupos de alto risco, inclusive o baixo peso ao nascer que era a hipótese principal.

Segundo Vianna et al. [2010], são identificados padrões de características materno-fetais na prediçãoda MI utilizando mineração de dados. Para o estudo foi realizada a integração das bases de dados doSINASC, do SIM e do SIMI (Sistema de Investigação da Mortalidade Infantil do Paraná) com relaçãoao período de 2000 a 2004, a fim de reunir, através da aplicação dessas técnicas de mineração, umconjunto de ações voltadas às regras mais relacionadas à MI. Desta forma, este artigo concluiu quedevem ocorrer ações voltadas para mães adolescentes (principalmente as que já têm outro filho), mãescom problemas na gestação, mães com filhos que possuem baixo peso ao nascer e com pós-datismo.

4. MATERIAIS E MÉTODOS

Para realização da mineração de dados, a fim de caracterizar a MI nos estados de Santa Catarina (SC)e Amapá (AP) no ano de 2015, foram seguidas as subsequentes etapas: escolha da base de dados,pré-processamento da base de dados, utilização dos três classificadores: J48 com o plugin VTJ48,JRip e Random Forest, análise dos resultados das árvores de cada estado e comparação de resultados.

4.1 Base de Dados

A base de dados sobre mortalidade infantil foi obtida no site do DATASUS considerando os dados doperíodo de 2006 até 2015 e englobou neste trabalho os dados do SINASC e do SIM. Para cada ano epara cada estado, o DATASUS disponibiliza um arquivo com os dados do SIM e outro arquivo comos dados SINASC.

A taxa de MI é apresentada na Figura 2 para todos os estados brasileiros, inclusive o DistritoFederal, considerando o período de 2006 até 2015. A taxa de MI é o número de óbitos de menoresde um ano de idade, por mil nascidos vivos, por cada estado e ano considerado. É possível visualizarque os estados de Santa Catarina e do Amapá apresentam, respectivamente, as taxas de MI menor emaior, quando comparados com os demais estados do Brasil, incluindo o Distrito Federal (Figura 2).

No pré-processamento das bases foi realizada a integração dos dados do SIM e do SINASC, man-tendo os atributos comuns e unificando o atributo Local de Ocorrência do Óbito (LOCOCOROBI -

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

143

Page 144: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Caracterização da Mortalidade Infantil de Santa Catarina e do Amapá Utilizando Mineração de Dados · 5

Fig. 2. Taxa de MI no Brasil ao longo dos anos 2006 a 2015

SIM ) com o atributo Local Ocorrência do Nascimento (LOCOCORNASC - SINASC ), dando origemao campo Local de Ocorrência do Nascimento ou Óbito na base de dados unificada. Como resultadoobteve-se os atributos listados na Tabela I.

Tabela I. Campos e Descrições dos Atributos Mantidos Após o Pré-ProcessamentoAtributos DescriçãoIdade da Mãe Em anosEscolaridade da Mãe Em anosQuantidade de filhos vivos Numérico contínuoQuantidade de filhos mortos Numérico contínuoGravidez Única, dupla, tripla ou maisGestação Em semanasParto Ignorado, normal, cesáreoPeso Em gramas ao nascerLocal de ocorrência do nasci-mento ou óbito

Ignorado, hospital, outro estabelecimento de saúde, domicílio, via pública, outros

Sexo Ignorado, masculino, femininoRaça Branca, Preta, amarela, parda, indígenaClassificação Vivo, óbito infantil

Todos os registros que continham algum atributo com valor ausente e também um conjunto deregistros relacionados às inconsistências constatadas, ambos conjuntos de registros foram retirados dabase para criação do modelo, a fim de não afetarem os resultados da árvore de decisão. Foi realizadoeste pré-processamento com o objetivo de gerar uma única base de dados que englobasse as classesVivo e óbito infantil. Após unificadas, as bases continham instâncias desproporcionais quanto àsclasses (Tabela II), sendo necessária a aplicação de técnicas de balanceamento de dados.

Tabela II. Dimensões das Bases de Dados Unificadas, antes e após o balanceamentoAntes do balanceamento Após o balanceamentoSanta Catarina Amapá Santa Catarina Amapá

Vivo 74394 11885 331 87Óbito Infantil 331 87 331 87

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

144

Page 145: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Wanderson L. G. Soares, Patrícia Lima, Luis E. Zárate, Mark A. Junho Song e Cristiane N. Nobre

4.2 Pré-processamento dos Dados

Foi constatado um desbalanceamento entre a classe Vivo (classe majoritária) e a classe Óbito Infan-til (classe minoritária). É importante salientar que o desbalanceamento pode afetar negativamenteo resultado de algoritmos baseados em aprendizado de máquina. Diante deste fato, foi utilizado obalanceamento de classes utilizando-se a abordagem undersampling. Este balanceamento é caracteri-zado pelo fator de eliminar dados da classe majoritária produzindo um subconjunto aleatório de dadosvisando que a classe majoritária passe a ficar com o mesmo número de instâncias da classe minoritária.

4.3 Métricas de Avaliação

Para avaliação da qualidade dos modelos obtidos, foram utilizadas as métricas de precisão, sensibili-dade e F-measure.

Precisão (Equação 1) mede a proporção de instâncias classificadas em determinada classe que sãorealmente da classe.

Pr =V P

V P + FP(1)

Sensibilidade (Equação 2) mede a proporção de instâncias corretamente classificadas, dentre todasas instâncias de uma classe.

Sen =V P

V P + FN(2)

F-measure (Equação 3) representa a média harmônica entre precisão e sensibilidade.

F −measure =(w + 1) ∗ Sen ∗ Pr

Sen+ w ∗ Pr(3)

onde VP= Verdadeiros Positivos, FP=Falsos Positivos e FN = Falsos Negativos.

Para definir os conjuntos de treinamento e teste, foi utilizado o método cross-validation de 10dobras. Este método tem como objetivo avaliar a capacidade de generalização de um modelo [Kohaviet al. 1995].

5. RESULTADOS E DISCUSSÕES

As Tabelas III, IV e V apresentam as métricas de avaliação da qualidade dos modelos gerados, res-pectivamente, pelos classificadores J48 com o plugin VTJ48, JRip e Random Forest, assim como asanálises dos resultados.

Tabela III. Métricas de avaliação e qualidade do modelo: J48 com o plugin VTJ48Santa Catarina AmapáVivo Óbito Infantil Vivo Óbito Infantil

Precisão 0,889 0,936 0,812 0,932Sensibilidade 0,940 0,882 0,943 0,782F-Measure 0,913 0,908 0,872 0,850

A partir das árvores de decisão geradas pelo classificador J48 com o plugin VTJ48 para os estados,foi constatado que o atributo peso se mostra como o mais relevante em ambos os casos, classificando

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

145

Page 146: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Caracterização da Mortalidade Infantil de Santa Catarina e do Amapá Utilizando Mineração de Dados · 7

Tabela IV. Métricas de avaliação e qualidade do modelo: JRipSanta Catarina AmapáVivo Óbito Infantil Vivo Óbito Infantil

Precisão 0,871 0,914 0,787 0,970Sensibilidade 0,918 0,864 0,977 0,736F-Measure 0,894 0,888 0,872 0,837

Tabela V. Métricas de avaliação e qualidade do modelo: Random ForestSanta Catarina AmapáVivo Óbito Infantil Vivo Óbito Infantil

Precisão 0,898 0,925 0,835 0,922Sensibilidade 0,927 0,894 0,931 0,816F-Measure 0,912 0,909 0,880 0,866

260 instâncias de Santa Catarina e 65 do Amapá. No estado de SC, os bebês que nascem abaixo de2.215 gramas são muito propensos ao óbito, no estado do AP esse número sobe para 2.469 gramas.

Com relação ao classificador JRip, as principais regras geradas por este classificador consideraramo atributo peso como sendo o mais relevante, e analisando os resultados pode-se verificar que o pesomínimo para classificar como Vivo nos estados de Santa Catarina e Amapá foram, respectivamente2.220 e 2.469 gramas. Assim, os resultados do classificador JRip estão harmônicos com os resultadosdo classificador J48.

Em se tratando do Random Forest, o respectivo classificador considerou para o estado de SantaCatarina os seguintes três atributos mais relevantes dentro da seguinte ordem: idade da mãe, peso,quantidade de filhos vivos. Já para o estado do Amapá, os atributos mais relevantes foram: idade damãe, peso, quantidade de filhos mortos. Com base nos resultados do classificador Random Forest, épossível considerar que os atributos comuns mais relevantes, tanto para SC quanto para AP, foram:a idade da mãe e o peso. Considerando o número de nodos que utilizam esses atributos, os que sedestacam são o peso e a idade da mãe.

Com o intuito de avaliar o modelo utilizado após o balanceamento da base de dados, foi anali-sada a qualidade a partir das instâncias resultantes do pré-processamento sem balanceamento quenão participaram do cross-validation e os resultados com os percentuais de instâncias classificadascorretamente do J48 foram de 90% para SC e 82% para o AP. Já o JRip obteve 88% para SC e 91%para o AP. Finalmente, o Random Forest apresentou 92% para SC e 89% para o AP. Esses resultadosdemonstram que a maioria das instâncias foram corretamente classificadas e, sendo assim, os modelosgerados pelos classificadores: J48 com o plugin VTJ48, JRip e Random Forest são satisfatórios. Éimportante ressaltar que o atributo peso foi considerado relevante analisando os resultados dos trêsclassificadores: J48, JRip e Random Forest. Assim, estes resultados corroboram com o trabalhodesenvolvido por Barbas et al. (2009), onde bebês com menos de 2.500 gramas são considerados comalto risco, ou seja, possuem alta probabilidade de óbito antes de completar um ano de vida.

6. CONSIDERAÇÕES FINAIS

Através dos resultados gerados por cada classificador: J48 com o plugin VTJ48, JRip e RandomForest, pode-se observar que o atributo peso é relevante e que a MI é caracterizada basicamente porbebês com peso inferior a 2.215 gramas em SC e 2.469 gramas no AP. Como medidas preventivas,visando minimizar a taxa de MI, é necessário que hajam mais investimentos na área da saúde, já queo peso pode estar diretamente relacionado ào acompanhamento pré-natal da gestante.

Como proposta de trabalhos futuros, seria interessante aplicar as técnicas de KDD em todos osestados do território brasileiro e em todos os anos disponibilizados pelo DATASUS visando caracterizar

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

146

Page 147: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Wanderson L. G. Soares, Patrícia Lima, Luis E. Zárate, Mark A. Junho Song e Cristiane N. Nobre

a MI em todos os demais estados brasileiros e nortear os investimentos públicos para a diminuição dataxa de MI no país.

Agradecimentos

Os autores agradecem ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ) eà Coordenação de Aperfeiçoamento de Pessoal de Nível Superior(CAPES) pelo apoio financeiro.

REFERENCES

Barbas, D. d. S., Costa, A. J. L., Luiz, R. R., and Kale, P. L. Determinantes do peso insuficiente e do baixopeso ao nascer na cidade do rio de janeiro, brasil, 2001. Epidemiologia e Serviços de Saúde 18 (2): 161–170, 2009.

Barcellos, C. d. C., Ramalho, W. M., et al. Situação atual do geoprocessamento e da análise de dados espaciaisem saúde no brasil, 2002.

Black, R. E., Cousens, S., Johnson, H. L., Lawn, J. E., Rudan, I., Bassani, D. G., Jha, P., Campbell, H.,Walker, C. F., Cibulskis, R., et al. Global, regional, and national causes of child mortality in 2008: a systematicanalysis. The lancet 375 (9730): 1969–1987, 2010.

Brasil, M. d. S. Manual de vigilância do óbito infantil e fetal e do comitê de prevenção do óbito infantil e fetal, 2009.Breiman, L. Random forests. Machine learning 45 (1): 5–32, 2001.Carvalho, A., Faceli, K., LORENA, A., and GAMA, J. Inteligência artificial–uma abordagem de aprendizado

de máquina. Rio de Janeiro: LTC , 2011.Cohen, W. W. Fast effective rule induction. In Machine Learning Proceedings 1995. Elsevier, pp. 115–123, 1995.Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. The kdd process for extracting useful knowledge from volumes

of data. Communications of the ACM 39 (11): 27–34, 1996.Felix, L. C. M. Data mining no processo de extraçao de conhecimento de bases de dados. Ph.D. thesis, Universidade

de São Paulo, 1998.Goldani, M. Z., Barbieri, M. A., Bettiol, H., Barbieri, M. R., and Tomkins, A. Infant mortality rates

according to socioeconomic status in a Brazilian city. Revista de Saúde Pública vol. 35, pp. 256 – 261, 06, 2001.Hernandez, A. R., Silva, C. H. d., Agranonik, M., Quadros, F. M. d., and Goldani, M. Z. Análise de

tendências das taxas de mortalidade infantil e de seus fatores de risco na cidade de porto alegre, rio grande do sul,brasil, no período de 1996 a 2008. Cadernos de Saúde Pública vol. 27, pp. 2188–2196, 2011.

Khoshgoftaar, T. M., Golawala, M., and Van Hulse, J. An empirical study of learning from imbalanced datausing random forest. vol. 2, pp. 310–317, 2007.

Kitsantas, P., Hollander, M., and Li, L. Using classification trees to assess low birth weight outcomes. Artificialintelligence in medicine 38 (3): 275–289, 2006.

Kohavi, R. et al. A study of cross-validation and bootstrap for accuracy estimation and model selection. In Ijcai.Vol. 14. Montreal, Canada, pp. 1137–1145, 1995.

Oliveira, I. T. C. d. et al. Aplicação de data mining na busca de um modelo de prevenção da mortalidade infantil,2001.

Prati, R. C., Batista, G., and Monard, M. C. Uma experiência no balanceamento artificial de conjuntos de dadospara aprendizado com classes desbalanceadas utilizando análise roc. In Proc. of the Workshop on Advances & Trendsin AI for Problem Solving. Vol. 1. pp. 28–33, 2003.

Quilici-Gonzalez, José Artur de Assis Zampirolli, F. Sistemas inteligentes e mineração de dados, 2015.Quinlan, J. R. C4. 5: programs for machine learning. Elsevier, 2014.UNICEF, N. B. et al. Disponível em: http://www. unicef. org/brazil/pt/. Acesso em: junho de 2018 , 2008.Vianna, R. C. X. F., Moro, C. M. C. d. B., Moysés, S. J., Carvalho, D., and Nievola, J. C. Mineração de

dados e características da mortalidade infantil. Cadernos de Saúde Pública vol. 26, pp. 535–542, 2010.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

147

Page 148: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

A Biased Random-key Genetic Algorithm with Local SearchApplied to Unsupervised Clustering of Cultural Data

Applications Track

A. H. Aono1, R. M. de Oliveira2, B. O. Franchi1, J. S. Nagai1, H. E. S. Paz1,A. A. Chaves1, C. B. Martins1

1 Universidade Federal de São Paulo, [email protected]

2 Universidade do Estado de Minas Gerais, Brazil

Abstract. The relationship between culture and development has come to occupy a prominent place in the presenttime. From this perspective, culture is commonly said to be a constructive axis of identities, and also an economicfactor which generates wealth. Due to the ongoing need of implementing an institutional policy for culture at FederalUniversity of São Paulo, it was created a culture and extension project with the objective to contribute with the culturalactions in the college campuses. Sociocultural data from the university students was collected and herein we presenta different methodology of analyzing such kind of dataset. Using the metaheuristic optimization Biased Random-keyGenetic Algorithm with local search, we have achieved positive results in the identification of cultural subunits in theuniversity. Significant information to understand the students’ integration and different cultural habits was obtainedand a new way of visualizing this cultural scenario is herein proposed.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intel-ligence]: Learning

Keywords: metaheuristic, optimization, multivariate analyses, cultural profile

1. INTRODUCTION

According to Merriam-Webster dictionary [Merriam-Webster Dictionary 2002], culture means ’thecustomary beliefs, social forms, and material traits or a racial, religious, or social group; also thecharacteristic features of everyday existence (such as diversions or a way of life) shared by people in aplace or time’. Culture also can be considered the set of artificial social ideas, behaviors and practiceslearned from generation to generation through life in society [Kroeber 1949] and education [Morgado2016]. Through education individuals are exposed to new abilities and knowledge such as techniques,different ways of living, i.e., the culture of the group [Morgado 2016]. In such context, culture is oneof the fundamental instruments in the formation of more tolerant, generous, sensitive and creativeyoung people. Its acquisition and perpetuation is a social process, resulting from learning [Morgado2016]. Thus it can be said that culture is an inseparable part of the formation of the individual. It isinclusion and a gateway for building a more understandable, tolerant, and humane society.

Using this concept of culture is important to demonstrate that particular modes of expression andsocial interaction find explanations in habits, customs and beliefs shared by members of the samegroup or society [Resende and de Paula 2011]. In addition, organizational culture can influence theconstruction of identity, since in the context of institutions these individuals are transformed as theyadapt to the demands of the different social groups of which they are part. The relationship between

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

148

Page 149: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · A. H. Aono et. al.

culture and development has come, increasingly and rapidly, to occupy a prominent place in thepresent time. From this perspective, it is important to add to culture’s definition the constructiveaxis of identities, as a privileged space for achieving citizenship and social inclusion. [Canclini 2001]also corroborates the idea that culture can help solve social problems such as violence, unemployment,environmental degradation and social exclusion.

According to [Wang 2007], culture changes with changing economic, socio-political circumstances,commercial or political relations. However, cultures are constructed by people [Wang 2007]. Sayingthat the human being is a historical-cultural individual emphasizes the idea that the being is onlyhuman if inserted into a cultural group, which provides modes of human behavior. Thus, peopleare not mere objects of cultural influences, but subjects who can sift various influences and reject orintegrate them [Wang 2007]. [Barth 1998] points that based on most anthropological reasoning rests,culture is discontinuous, i.e., there are aggregates of people who essentially share a common culturewith interconnected differences. The integration of such groups, however, represents a key point onthe functioning of the whole society. [Taylor 1991] defines structural integration as the presence ofpersons from different cultural groups in a simple organization and points the importance of lookingbeyond organization-wide profile data to proper understand it. Examining cultural mix by function,level, and individual work group represents a way to understand how groups are highly segregated.

In this scenario, in order to assist the Extension and Culture Chamber (CaEC) of Federal Universityof São Paulo (UNIFESP) in its actions, a project with the purpose of creating a Cultural InformationDatabase was created and the identification of different cultural profiles would benefit the entireuniversity by visualizing how the students are organized in the institution. Since culture is nothing buta way to describe human behavior, it would follow that there are discrete groups of people, i.e. ethnicunits, to correspond to each culture [Barth 1998]. These groups might help the creation of specificcultural actions in order to enable the structural integration of these groups and the amplification ofcultural activities trough students’ habits.

2. PROPOSED APPLICATION

Since culture is learned through life in society and education [Kroeber 1949; Morgado 2016], theunderstanding of how different groups are organized in an educational institution and how they interactis the first step to comprehend how social, economic, cultural and educational characteristics mightinfluence the integration of groups and society segregation. According to [Barth 1998], there areaggregates of people who share a common culture in the society, but there’s also the presence ofinterconnected differences and therefore these differences are what separate those groups. Herein weare proposing the usage of a meta-heuristic optimization algorithm for unsupervised clustering inorder to identify segregate groups using cultural datasets. Using the socio-cultural characteristics ofa federal university students, the usage of such approach represents an innovation in anthropologicalstudies which are considered mainly observational. This methodology might be used to corroborate orcontrast systematic observations or theoretical explanations to the comprehension of social aspects.

As [Wang 2007] points, people are inserted into cultural groups, which provide modes of humanbehavior. In this paper, we are trying to identify these discrete groups in the university using theircultural characteristics. According [Barth 1998], the differences between cultures have been given muchattention; however the constitution of ethnic groups, and the nature of the boundaries between them,have not been correspondingly investigated. In the paper’s context, the characterization of students indifferent cultural groups might allow the academic community to understand which factors are mostrelevant to determine a social group, how cultural units are organized in the institution and whatindicatives can be used to identify groups with different cultural characteristics.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

149

Page 150: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

A Genetic Algorithm Applied to Unsupervised Clustering of Cultural Data - Applications Track · 3

3. BIASED RANDOM-KEY GENETIC ALGORITHM

The BRKGA was proposed by Gonçalves and Resende [Gonçalves and Resende 2011] and is a variationof the Random-Key Genetic Algorithms (RKGA) [Bean 1994]. The BRKGA represents a solutionwith a vector of random-keys, which are real numbers in the interval [0, 1]. This vector (also calledchromosome) is not considered as a solution of the problem. Therefore, it is necessary to decodethe vector to a real problem solution. For each problem, we define a specific decoder. This is adeterministic algorithm that takes chromosome information and returns a solution to the problem.The fitness of each solution is also computed by the decoder. The evolution process of the BRKGAis independent of the problem. A population of p random-key vectors evolves over a number ofgenerations. In each generation, the population is sorted by the fitness. Then, a small group withthe best pe solutions in fitness values (elite group) are copied without modification to the populationof the next generation. A number pm of random-key vectors, randomly generated (mutants), are alsointroduced into this population. The remainder of the population (p− pe− pm solutions) is producedthrough the process of crossover, by combining an elite parent with a non-elite parent of the currentpopulation. The parameterized uniform crossover [Spears and Jong 1995] is used in BRKGA.

The method randomly creates an initial population of random-keys vectors. Each vector has nrandom-key, such that, n is the number of objects in the data. The solution of the problem isaccomplished by corresponding random-key values by decoder. In decoder, the interval [0, 1] is dividedby k groups and the clusters are created with the objects that have the random-key in this interval.After decoding the solution, the fitness is calculated through the objective function proposed in Babakiet al. [Babaki et al. 2014]. Generally, the objective function to be minimized is the within-cluster-sums-of-squares (WCSS). The WCSS calculate by the distance from the elements (x) of the group toits centroid (C), as in Equation 1.

Z =∑

d2(x,C) (1)

According [Babaki et al. 2014], the distance between all cluster points (x) to centroid (C) is equalthe distance (d) between the elements of the same cluster, divided by the size of each cluster, as inEquation 2.

Z =∑

d2(x,C) =

∑x1,x2∈C d

2(x1, x2)

|C| (2)

Such that, x1 6= x2 belongs to the cluster C, and |C| is the cardinality of the cluster. Every pair oftwo points in C is included in the sum once, without repetition. The calculation of Z is done simplydividing a sum of distances of each cluster by the number of elements of this cluster. To acceleratethe convergence process of the BRKGA, we implemented a local search heuristic, which is applied toall offspring generated by BRKGA. The local search is applied in the decoded solution. The solutionfound by the local search is not transferred to the vector of random-keys. This preserves the diversityof BRKGA. The local search shifts the object of a cluster to the others. Each object is placedin a different cluster. The nearby solution (S′) receives the current solution (S) and accomplishesmovements to the other clusters. When the neighbor solution (S′) is better than the current solution,the current solution (S) receives the neighboring solution (S′) and the best solution (S∗) is stored.This heuristic is run while the fitness of the solution is improved. Algorithm 1 presents the shiftheuristic proposed in this paper.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

150

Page 151: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · A. H. Aono et. al.

Algorithm 1 Shift local search (S)1: while (improve S ) do2: for (each object) do3: for (each cluster) do4: S′ ← S;5: S′ ← Move (an object to another clusters);6: if S′ better than S then7: S ← S′;8: STORE (the best solution S∗);9: end for

10: end for11: end while12: return (S∗)

4. METHODS

In this session, we describe the data used in this study, its collection process, the project to which thisstudy is linked, its respective approval in the ethics committee and how the BRKGA was used withthese data types.

4.1 Extension Project

With the need to implement an institutional policy for culture at UNIFESP, an extension projectwas created with the purpose of tracing the cultural profile of the undergraduate students of theInstitute of Science and Technology (ICT) of UNIFESP, assisting and guiding the cultural actionsof the campus in order to diminish the cultural difference between the different cultural profiles ofthe campus. To this end, a database containing sociocultural information of undergraduate studentshas been created for further analysis. Besides, this project is part of an extension program entitled‘+Cultura’, which wants to promote activities in the entire campus of São José dos Campos and otherpublic institutions in the region, supplying to students and the entire community means to promoteculture. The objective of the project is collecting social and cultural data, statistically analysing thecultural profile of the campus, and creating a database platform to store this kind of data.

4.2 Dataset

The data used in the paper was collected using printed questionnaires. The project was cleared bythe Institution’s Ethics Committee (CEP 57637616.2.0000.5505) and all students who have answeredsigned an Informed Consent Form, allowing the usage and publication of their data for academicpurposes. After two years of collection (2016 and 2017), it was obtained consistent data of 618students. Students’ entrances of the data range from 2010 and 2017, with a high concentration in2015 (23.5%), 2016 (31.5%) and 2017 (14,9%). Approximately 80% of the answers were collectedfrom students with full time classes and 95% corresponding to individuals with single marital status.Students’ ages ranged from 16 to 42, but 75% of them were less than 22 years old. In order to accessthe main students’ cultural activities, questions based on socio-economical aspects and cultural habitsand interests were selected and can be visualized in Table I.

4.3 Data analysis

After collecting the data, a manual curation was made in order to remove incorrect and incompleteanswers. The usage of the BRKGA algorithm considers the data represented in a complete weightedgraph. Each edge of the graph represents a student and its weights (distances or dissimilarities) are

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

151

Page 152: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

A Genetic Algorithm Applied to Unsupervised Clustering of Cultural Data - Applications Track · 5

Table I. Used variablesCategory Subcategories/AnswersReligion Catholicism, Evangelicalism, Afro-Brazilian Religions, Judaism, Islam, Spiritualism, Atheism,

Hinduism, Buddhism, OthersEducation Private School, Public School, Private School in a scholarship program

Extra Courses Courses for college admittance, Technical courses, Industrial training courses, Languagecourses, Others

Social class A, B, C, DEconomical Situation Not working, Working and economically dependent (partially), Working and economically

independent, University financial supportScholarship Financial status, Scientific initiation, Others

Admittance quotas Not used, Financial status, Skin color, Education in public schoolHobby Art fairs, Circus, Soirée, International concerts, National concerts, Gourmet events, Concerts

of classical music, Dancing performances, Reading books, Listening to music, Playing games,Watching series/movies, Going to bars, Dancing, Going to the mall, Singing, Playing a musicalinstrument, Writing, Sports, Crafts

Sports Fighting sports, Soccer, Olympic Gymnastics, Volleyball, Basketball, Aquatic sports, Gym,Artistic Activities

Reading habits Not reading, 1 to 3 books per year, 3 to 10 books per year, 10 to 20 books per year, morethan 20 books per year

Frequency Movies, Theater, Soccer stadiums, Museums, Mall, Parks, Concerts, Night clubsArtistic Activities Playing in a band, Playing a musical instrument, Dancing, Theater, Producing audiovisual

material, Drawing/Painting, Writing, Playing games, Others

calculated using the cosine similarity function, where the identification of the relation is calculated bylooking at the angle instead of magnitude. The BRKGA was implemented in C language and usedwith four different numbers of clusters (2, 3, 4 and 5). The used parameters were: (1) 100 individualsin the population; (2) 100 generations; (3) the size of the elite set in population was 0.2; (4) the numberof mutants to be introduced in population at each generation was 0.2; (5) the probability that an alleleis inherited from the elite parent was 0.6. After the identification of groups, a Principal CoordinatesAnalysis (PCoA) was performed in order to summarize and represent inter-object dissimilarity in alow-dimensional Euclidean space. In addition to preserve Euclidean and χ2 distances between objects,this analysis could preserve the distances generated by the cosine similarity metric.

In order to evaluate the efficiency and detect the differences between clusters, we selected thevariables with at least 50% or 25% of differences between two or more groups. After the identificationof these characteristics, they were plotted in a heat map, showing the relative abundance of studentsin each group. The performed analyses of the study were executed in a personal computer with Intel R©CoreTM i7-7500U CPU @ 2.70GHz × 16 GB of memory RAM.

5. RESULTS

With the aim of analyzing the differences between the four configurations (2, 3, 4 and 5 groups) usedin the BRKGA, the fig. 1 presents the results of the PCoAs performed with the different results.

Fig. 1. Principal Coordinates Analysis (PCoA) using cosine similarity metrics; individuals are labeled according toBRKGA results using 2, 3, 4 and 5 groups.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

152

Page 153: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · A. H. Aono et. al.

The clear separation of groups in PCoA is seen when using 2 and 3 groups. Even though the usageof 4 and 5 clusters generate groups with high overlapping of objects, the cultural interpretation usingthese results showed similar results as the others. The distribution of the quantity of elements betweengroups in the tests was not discrepant and presented the following quantities of elements: (1) 2 groups:424 and 194; (2) 3 groups: 168, 218 and 232; (3) 4 groups: 201, 138, 69 and 210; and (4) 5 groups:67, 92, 182, 169 and 108.

Using two clusters and a minimum percentage of distinction between groups of 50%, there was aclear distinction of students who had as one of their favorite activities ‘going or not to bars’ as showedin fig. 2. The first group (1G) was composed by approximately 80% of students who had indicatedthis activity as a favorite one in contrast to the second group (2G) where 81% of the students answeredthe opposite.

Fig. 2. Heat map of variables with at least 25% of difference between groups using two clusters.

Another interesting aspect to be noticed is that the frequency of going to night clubs corroboratesthe previous association. 70% of 2G answered that never go to night clubs in comparison to 1% of1G, which had the most associated frequencies to night clubs as monthly (55%) and weekly (28%).Reducing the minimum percentage of distinction between groups to 25%, it is clear that, associatedwith going to bars and night clubs, there was a medium interest of dancing and going to concertsby 1G contrasted by a low interest in these activities by 2G, what was expected based on previousconclusions.

Adding one more group to the analysis, this cultural distinction remained evident. With threegroups and 50% of minimum distinction percentage between groups, the contrast between studentswho considered night activities as hobbies continued to be clear. Two groups had approximately 77%and 80% of components with interest on going to bars (hobby) compared to 18% of the other group.With 25% of minimum distinction, these same groups showed a higher frequency on going to nightclubs, theaters and concerts as it can be seen in fig. 3. One more point that ratifies this distinction isthe presence of the religion variables with percent significance among groups. As expected, in groupswith more protestants, night habits were not observed with as much intensity as in the groups withmore catholics and atheists. It is also interesting to point that using two and three groups, peopleinterested in sports are also interested in going to bars or nightclubs. This might be explained due tothe fact of the presence of college entities associated with both sports and throwing parties. Howeverthis is not a general rule, what can be observed in fig. 2 and 3, which have a small amount of studentswho are not interested in night activities and are interested in sports.

With four clusters, the quantity of relevant variables with minimum 25% of difference among groupswas much more superior than the other tests (25 cases). The same previous interpretations aboutgoing to bars/nightclubs might be made, which can be seen in fig. 4, where there are variables with atleast 50% of difference between two groups or more. However in this case the heterogeneity betweengroups is evident. This quantity of clusters showed to be not appropriate to such analysis due tothe fact that it would not be so meaningful when used by itself, different from the previous groups,where its significance may be easily seen without other complementary observations. The last test was

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

153

Page 154: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

A Genetic Algorithm Applied to Unsupervised Clustering of Cultural Data - Applications Track · 7

Fig. 3. Heat map of variables with at least 25% of difference between two or more groups using three clusters.

similar to the usage of four clusters. The quantity of five groups also showed to be not appropriatefor this type of analysis. However, using a percent difference of 50% it could be noticed that twonew variables showed significance to the distinction of groups (absence of admittance quotas andeconomical situation of not working). One group separated from the others due to the presence ofindividuals who have different sources of income and people with quotas represent two distinct groupsthat contrast the other three.

Fig. 4. Heat map of variables with at least 50% of difference between two or more groups using four and five clusters.

6. DISCUSSION

The presented results show that it is possible to identify different cultural subunits in the university.The most different aspect among groups was a high distinction of students with night activitiesas a common leisure practice. The usage of BRKGA with different numbers of clusters presentedpunctual differences, but a high segregation similarity in this characteristic. Other leisure and artisticactivities did not present significant influence to the groups’ formation, which is compatible to [Barth1998], who presents the definition of culture as a discontinuous form of cultural interests. Herein theseparation due to individuals’ entertainment and pleasure-seeking at night time might be interpretedas the interconnected differences between students, while other interests and activities are the commonculture and practices in the university.

[Chatterton and Hollands 2002] state that changes occurring within cities related to night-timeeconomy act as one of the backdrops for understanding the cultural transformations in young peoplelives and in our study this concept was clearly understood when the previous interpretation is used.These results can be used by university’s departments interested in promoting culture in the instituteand also offer to life science researchers a different way of analyses using cultural data. Due to the factthat social interactions and not cultural interests could represent a key factor to students’ separation,the promotion of social and cultural actions in the university presenting different activities might be

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

154

Page 155: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · A. H. Aono et. al.

seen as a form of integrate these students, what is considered a key point in the whole society [Taylor1991].

[Malbon 1998] points that the unity of identity appears to be far less significant in contemporaryyouth culture than has been recognized by theorists of youth culture up to now. [Chatterton andHollands 2002] on the other hand emphasize the idea of how factors like educational background,parental income, and ethnicity are related to nightlife consumption practices, indicating aspects of howit can exclude groups. Having the idea that organizational culture can influence the construction ofidentity and the fact that the insertion of people into cultural groups provides modes of human behavior[Wang 2007], the study of these groups’ cultural distinctions brings a new way of understanding thesignificance of contemporary segregation and how it is linked to cultural habits and ways of living inthe context of the university.

7. CONCLUSION

This paper presented an analysis of unsupervised clustering using BRKGA and cultural data. Weachieved positive results by separating groups of students with clear distinguishable cultural charac-teristics, allowing the identification of particular modes of social interaction. Since the contexts ofsocial interactions are key factors in the opportunities to refashion ourselves and identify with others[Malbon 1998], the identification of different groups and the creation of university’s actions to promotestudents’ integration and more access to different forms of culture is extremely important to students’formation and expansion of their cultural identity. Understanding how the individuals are organizedis the first step to comprehend the segregation in the institute and what could be done to reduce it.

Acknowledgment

The authors would like to acknowledge the Extension and Culture Chamber (CaEC) of Federal Uni-versity of São Paulo and the Support Student’s Nucleus (NAE) of the institute.

REFERENCES

Babaki, B., Guns, T., and Nijssen, S. Constrained clustering using column generation. In International Conferenceon AI and OR Techniques in Constriant Programming for Combinatorial Optimization Problems. Springer, pp.438–454, 2014.

Barth, F. Ethnic groups and boundaries: The social organization of culture difference. Waveland Press, 1998.Bean, J. C. Genetic algorithms and random keys for sequencing and optimization. ORSA journal on computing 6 (2):

154–160, 1994.Canclini, N. G. Consumers and citizens: Globalization and multicultural conflicts. Vol. 6. U of Minnesota Press,

2001.Chatterton, P. and Hollands, R. Theorising urban playscapes: producing, regulating and consuming youthful

nightlife city spaces. Urban studies 39 (1): 95–116, 2002.Gonçalves, J. F. and Resende, M. G. Biased random-key genetic algorithms for combinatorial optimization. Journalof Heuristics 17 (5): 487–525, 2011.

Kroeber, A. L. The concept of culture in science. The Journal of General Education 3 (3): 182–196, 1949.Malbon, B. Clubbing: consumption, identity and the spatial practices of every-night life. Cool places: Geographies ofyouth cultures, 1998.

Merriam-Webster Dictionary. Merriam-webster. On-line at http://www. mw. com/home. htm, 2002.Morgado, A. C. As múltiplas concepções da cultura. Múltiplos Olhares em Ciência da Informaç 4 (1), 2016.Resende, F. G. and de Paula, A. V. Influência da cultura organizacional na (re) construção da identidade dos

trabalhadores: um estudo de caso em uma empresa de tratamento de resíduos no sul de minas gerais. Psicologia:teoria e prática 13 (3), 2011.

Spears, W. M. and Jong, K. D. D. On the virtues of parameterized uniform crossover. Tech. rep., NAVALRESEARCH LAB WASHINGTON DC, 1995.

Taylor. The multicultural organization. The executive, 1991.Wang, Y. Globalization enhances cultural identity. Intercultural Communication Studies 16 (1): 83, 2007.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

155

Page 156: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Agrupamento Fuzzy para Fluxo Contínuo de Dados – UmEstudo de Algoritmos Baseados em Blocos

R. K. Asbahr1, P. A. Lopes2, H. A. Camargo1

1 Universidade Federal de São [email protected]

[email protected] Itera

[email protected]

Abstract. Data Stream Mining (DSM) has become an important topic due to the increasing availability of largecollections of data. These data sets are characterized by having potentially infinite size, which prevents them frombeing stored in their entirety, and can generate examples with changeable statistical distribution according to time.These characteristics impose the need to create and use appropriate algorithms. Clustering algorithms are appropriatefor DSMs where the labeling of the examples is costly and time consuming. Fuzzy clustering algorithms present anadditional benefit in these contexts by allowing decision surfaces to be defined flexibly. The objective of this work wasto implement and analyze the behavior of chunk based fuzzy clustering algorithms for DSM. The experiments, using twosynthetic datasets and one real data set, allow us to extract analyzes regarding trends in the behavior of the algorithmsaccording to their abilities to treat two critical problems for this type of algorithm: change in the distribution of thedata and definition of the number of groups.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intelligence]: Learning

Keywords: data stream mining, fuzzy clustering, concept drift, machine learning

1. INTRODUÇÃO

Com a constante redução de custos das tecnologias observada atualmente, as fontes de dados crescem emvolume, velocidade e tornam-se contínuas ao longo do tempo. Essa realidade despertou o interesse da co-munidade científica para a necessidade de extrair conhecimento dessas fontes de dados, consolidando o temaconhecido como mineração em Fluxo Contínuo de Dados (FCD). Devido ao grande volume e a grande ve-locidade com que são gerados, tais conjuntos de dados não podem ser armazenados em sua totalidade. Alémdisso, frequentemente, os dados gerados por uma mesma fonte apresentam variações na sua distribuição [Gama2010]. Essas características, próprias do contexto de FCD, impõem a necessidade de criação e uso de algo-ritmos de extração de conhecimento capazes de tratar tanto a impossibilidade de armazenamento do conjuntocompleto quanto a possibilidade de mudanças nas tendências apresentadas por esses dados.

O Aprendizado de Máquina (AM) é a subárea da Inteligência Artificial que se refere à investigação demétodos computacionais capazes de adquirir conhecimento de forma automática [Mitchell 1997]. A maioriados algoritmos mais tradicionais de AM, no entanto, considera que o conjunto total de dados está disponível epode ser acessado a qualquer momento. Para fazer a extração de conhecimento útil em ambientes dinâmicos,métodos de AM devem ser adaptados para considerar novos dados de forma contínua. Dentro da área de FCD écomum verificar a falta de informação de classe, seja por conta da natureza do domínio ou pela dificuldade emrotular exemplos. Nesse caso, são necessárias abordagens utilizadas no aprendizado não supervisionado, entreas quais as mais investigadas são as de agrupamento de dados [Silva et al. 2013]. Algoritmos de agrupamento

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided that the copies arenot made or distributed for commercial advantage, and that notice is given that copying is by permission of the Sociedade Brasileira deComputação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

156

Page 157: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · R. K. Asbahr and P. A. Lopes and H. A. Camargo

para FCD são, em geral, propostos como extensões dos algoritmos de agrupamento conhecidos.

O objetivo deste trabalho é implementar e avaliar algoritmos de agrupamento fuzzy para FCD baseados naabordagem de blocos de dados (chunks) para gerar análises demonstrativas do comportamento dos algoritmos.Os algoritmos estudados foram escolhidos com foco em dois desafios relacionados a esse contexto: a respostaa mudanças que podem ocorrer ao longo do FCD e a definição do número de grupos do agrupamento. Umalgoritmo de agrupamento para FCD deve, não apenas sumarizar os dados vistos até o momento, mas detec-tar mudanças que ocorram na distribuição dos dados ao longo do tempo. Já a questão da definição prévia donúmero de grupos é inerente aos algoritmos de agrupamento particionais e, devido à sua influência nos resul-tados obtidos, deve ser tratada durante o processo. Assim, foram selecionados para as análises comparativas:um algoritmo que não possui mecanismo de captação de mudanças [Hore and Hall 2007b]; um algoritmo quealtera o número de blocos considerados nos agrupamento dos blocos seguintes [Hore and Hall 2007a]; um al-goritmo que possui um fator de decaimento, o qual define a taxa de esquecimento dos dados antigos [Jaworskiet al. 2012]; um algoritmo que apresenta uma proposta simples de definição dinâmica do número de grupos[Mostafavi 2012]. Os algoritmos foram implementados em R e os experimentos foram executados com doisconjuntos de dados sintéticos e um conjunto de dados reais.

Este artigo está organizado da seguinte forma. Na seção 2 são apresentados alguns trabalhos representativospara contextualizar a proposta apresentada aqui. Na seção 3, os algoritmos selecionados para estudo são ap-resentados resumidamente. Os experimentos e análises são descritos na seção 4 e as conclusões e trabalhosfuturos são abordados na seção 5.

2. TRABALHOS RELACIONADOS

Desde a última década, surgem cada vez mais métodos diferentes que aplicam processo de aprendizagem emFCD [Gama 2012]. Neste trabalho são abordados, especificamente, os algoritmos de agrupamento. Métodos ealgoritmos de agrupamento [Jain and Murty 1999] são ferramentas de análise de dados eficazes e, sendo assim,constituem um importante ramo da mineração de dados [Witten et al. 2017]. Os algoritmos de agrupamentofuzzy são aqueles que permitem que um objeto pertença a mais de um grupo com graus diferentes. Essapossibilidade de modelar as fronteiras entre grupos de forma gradual e imprecisa, ao invés de rígida, oferecemeios mais adequados para tratar diversos problemas reais [Bezdek 1981].

Algoritmos de agrupamento para FCD são, em geral, propostos como extensões dos algoritmos de agru-pamento conhecidos. A maior parte dos trabalhos encontrados atualmente está fundamentada em algoritmosparticionais, especificamente o algoritmo K-Means[Macqueen 1967]. Entre esses, é possível identificar duascategorias gerais de trabalhos: abordagens baseadas em framework on-line/off-line e baseadas em blocos de da-dos (chunks). As abordagens baseadas no framework on-line/off-line (FOO) possuem duas fases: sumarização,ou fase on-line, e agrupamento, ou fase off-line. O FOO foi inicialmente proposto em [Aggarwal et al. 2003],com o algoritmo CluStream. Entre os vários algoritmos propostos posteriormente, que adotam a abordagemFOO, destaca-se o algoritmo ClusTree[Kranen et al. 2011]. Nas abordagens baseadas em blocos de dados, osdados do fluxo são separados em blocos à medida que são gerados e um algoritmo de agrupamento é aplicadoseparadamente a cada bloco. Os centros de clusters obtidos em um bloco são utilizados nos blocos seguintescomo uma forma de manter o histórico dos dados mais antigos.

Encontra-se também, na literatura, propostas para explorar a flexibilidade do agrupamento fuzzy de dadosem FCD, sendo a maioria delas, variantes do algoritmo Fuzzy C-Means (FCM)[Bezdek 1981]. Em [Hore andHall 2007a], foi proposto um algoritmo chamado Stream FCM (SFCM), variante do FCM para FCD que agrupaos blocos de dados e, a cada agrupamento, mantém os centros de grupo ponderados, descarta os dados do blocoe une os centros ao próximo bloco para serem agrupados em conjunto, como uma forma de manter a históriados blocos anteriores. Essa proposta modifica uma versão anterior do algoritmo chamado Single Pass FCM(SPFCM), dos mesmos autores [Hore and Hall 2007b], a qual foi projetada visando permitir a escalabilidade doalgoritmo FCM para conjuntos de dados grandes. Ambos os trabalhos utilizam o agrupamento fuzzy ponderado(Weighted FCM – wFCM) proposto em [Hore and Hall 2007b]. Em [Hore et al. 2008] foi proposto ainda

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

157

Page 158: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Agrupamento Fuzzy para Fluxo Contínuo de Dados - Um Estudo de Algoritmos Baseados em Blocos · 3

outro algoritmo chamado Online FCM (OFCM) que também pode ser usado para agrupar FCD. O trabalhoapresentado em [Li et al. 2016] propõe duas versões de um algoritmo para FCD que utiliza um FCM ponderadode uma forma diferente daquela do wFCM, com base em densidade. Em [Jaworski et al. 2012] os autoresestendem o trabalho proposto em [Hore and Hall 2007a] com a inclusão de um fator de decaimento no cálculodos pesos dos dados, que reflete a velocidade de esquecimento dos pesos de dados antigos reduzindo suainfluência no resultado do agrupamento de dados mais recentes. O mesmo mecanismo é aplicado tambémcomo uma variante do algoritmo fuzzy possibilístico (Possibilistic C-Means - PCM)[Krishnapuram 1993]. Notrabalho descrito em [Mostafavi 2012], é apresentada uma estratégia simples, com base no FCM, que determinao número de grupos dinamicamente. Na próxima Seção serão descritos os algoritmos selecionados para oestudo apresentado neste artigo.

3. ALGORITMOS

Nesta Seção serão apresentados os algoritmos analisados, destacando suas principais características. Inicial-mente será apresentado o algoritmo Weighted Fuzzy C Means (WFCM)[Hore and Hall 2007b], que é a base detodos os algoritmos estudados.

3.1 Weighted Fuzzy C Means

O algoritmo WFCM [Hore and Hall 2007b] foi proposto como uma variante do Fuzzy C Means(FCM),para situações em que o conjunto de dados não pode ser armazenado em memória. A principal diferençacom relação ao FCM é que os centroides de grupo possuem pesos que representam, de forma sumarizada,os dados que pertencem a um grupo. O algoritmo é aplicado em blocos de dados e, após cada execução, oscentroides têm seus pesos calculados e são adicionados ao próximo bloco para serem agrupados na prÃsximaiterção. Inicialmente, todos os dados têm peso igual a 1. A cada bloco recebido, o WFCM gera uma matrizde pertinência com valores aleatórios e, com os dados do bloco e a matriz gerada, define os centroides iniciaisusando a equação 1 Nessa equação, ci são os centroides do algoritmo, k sendo o número de centroides, ej sãoos dados do bloco, wj são os pesos dos dados do bloco, uij são os elementos da matriz de pertinência, m é aconstante de fuzzificação e n é o número de dados contidos no bloco.

ci =

∑nj=1 wju

mij ej∑n

j=1 wjumij

, i = 1, ..., k. (1)

Após esse passo inicial, o algoritmo atualiza a matriz de pertinência, usando a equação 2 e, em seguida,atualiza os centroides usando a equação 1. Esses dois passos se repetem até que a condição de parada sejasatisfeita.

uij =

k∑

l=1

( ||ej − ci||||ej − cl||

) 2

m− 1

−1

(2)

O peso dos centros é calculado de acordo com a equação 3.

wi =

n∑

j=1

uijwj , i = 1, ..., k. (3)

3.2 Online Fuzzy C Means

O algoritmo Online Fuzzy C Means (OFCM) [Hore et al. 2008] foi originalmente proposto para agruparconjuntos de dados grandes, porém com tamanho definido. Este algoritmo separa os dados do conjunto dedados original em vários bloco e agrupa cada deles um separadamente, usando o Weighted Fuzzy C Means.Dessa forma, cada agrupamento gera um determinado número de centroides com seus respectivos pesos. O

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

158

Page 159: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · R. K. Asbahr and P. A. Lopes and H. A. Camargo

próximo passo do algoritmo é considerar todos os centroides de todos os grupos como dados ponderados eagrupá-los novamente, obtendo assim o agrupamento final.

Neste trabalho, foi desenvolvida uma adaptação do algoritmo para fluxo contínuo de dados. Como no con-texto de fluxo contínuo de dados os dados não podem ser armazenados na sua totalidade, a adaptação consisteem armazenar os dados que chemgam em um bloco até que fique cheio e agrupar os dados desse bloco, apenas.Esse processo se repete para um número de blocos e, de tempos em tempos, os centroides resultantes dessesagrupamentos são agrupados novamente.

3.3 Single Pass Fuzzy C Means

O algoritmo Single Pass Fuzzy C Means (SPFCM), proposto em [Hore and Hall 2007b] agrupa blocos dedados um a um. Cada bloco é agrupado usando o WFCM e, em seguida, os centroides gerados são adicionadosao bloco seguinte e utilizados como centroides iniciais no próximo agrupamento. Os pesos dos centroides doagrupamento anterior não são considerados no cálculo dos pesos dos centroides do agrupamento atual.

Neste trabalho foi utilizada a versão estendida do SPFCM, apresentada em [Hore and Hall 2007a], queconsiste em adicionar o conceito de tamanho de histórico variável ao algoritmo, ou seja, o número de blocosprecedentes considerados em cada novo agrupamento, podem ser considerados centroides ainda mais antigos.Ao definir o número de blocos anteriores que vão contribuir com seus centroides para o próximo agrupamento,define-se também uma maior ou menor influência dos dados mais antigos nesse agrupamento.

3.4 Weighted Fuzzy C Means com desvio de conceito

Como os dados do fluxo são infinitos, eles apresentam evolução com o passar do tempo, mas essas mudançaspodem ser bem sutis em um período pequeno de tempo [Jaworski et al. 2012].

O algoritmo WFCM por si só não é capaz de detectar e tratar a evolução dos dados, podendo considerar quea diferença no padrão dos dados seja um outlier (informação atípica, que não corresponde ao padrão das demaisinformações). O algoritmo WFCM considera que os pesos de todos os dados provenientes do fluxo tem semprepeso 1 como definido na equação 4, sendo wpj o peso de um dado j do bloco p e np o número de exemplos dobloco p.

wpj = 1, p ≥ 1, j = 1, . . . , np (4)

Dessa forma, é possível observar que todos os dados do fluxo têm mesma importância dentro do agrupa-mento, mesmo os dados mais antigos que já não necessariamente representam o comportamento padrão dofluxo. Para que o WFCM consiga tratar evolução dos dados, foi proposto em [Jaworski et al. 2012] uma formade ponderar os dados usando um fator de decaimento que aumenta o peso dos dados mais recentes, diminuindo,assim a influência dos dados antigos no agrupamento atual.

A solução proposta foi de atribuir aos dados um peso maior com base no peso dos dados passados, comomostra a equação 5. É possível observar que essa solução aumenta o peso dos dados progressivamente conformeeles são captados pelo algoritmo. Dessa forma os dados mais antigos vão perdendo peso por ter peso menorque o dos dados mais novos.

wpj+1 = wpj 2λ, wp1 = 1, p ≥ 1, j = 1, . . . , np − 1 (5)

Na equação 5, λ > 0 é o fator de decaimento, cujo valor reflete a velocidade de esquecimento da influênciados dados antigos nos resultados do agrupamento. Note que se λ = 0, a equação 5 se torna equivalente àequação 4. O WFCM-DC integra os centroides do agrupamento anterior ao agrupamento presente, para que osdados antigos tenham influência no cálculo dos novos centroides.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

159

Page 160: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Agrupamento Fuzzy para Fluxo Contínuo de Dados - Um Estudo de Algoritmos Baseados em Blocos · 5

3.5 Weighted Fuzzy C Means - Adaptive Cluster number

A definição prévia do número de grupos a serem descobertos é uma questão crucial para os algoritmos deagrupamento. No FCD, em particular, essa questão se torna ainda mais crítica, uma vez que, com a possívelmudança na distribuição dos dados, é possível que também mude o número de grupos. Com o objetivo eadaptar o número de grupos às variações do fluxo de dados, foi proposta em [Mostafavi 2012] uma abordagempara definir dinamicamente qual o melhor número de grupos a cada agrupamento chamada Weighted Fuzzy CMeans - Adaptive Cluster number (WFCM-AC). A estratégia utilizada consiste em agrupar cada bloco, usandoWFCM, com k, k-1 e k+1 grupos e selecionar aquele agrupamento que apresenta o melhor resultado com basena medida Xie-Beni.

4. ANÁLISE DE RESULTADOS

Os conjuntos de dados utilizados com suas características são apresentados na Tabela 1.

Tabela 1. Conjuntos usados para o agrupamento e informações sobre eles.

Os conjuntos BarsGaussAN0_10000 e Benchmark2_10000 são conjuntos sintéticos retirados do repositóriodo Computational Inteligence Group(CIG) [Group 2017]. Como descrito na tabela, os conjuntos KDD-Cup’99e Benchmark2_10000 não são estacionários, ou seja, os dados deles evoluem com o tempo. Os atributosnominais do KDD-Cup’99 foram desconsiderados para o agrupamento. Todos os algoritmos foram executadoscom o número de grupos igual a 3. Para o algoritmo SPFCM, foi definido o tamanho de histórico (número deblocos que contribuem com centroides para o agrupamento atual) igual a 5.

Fig. 1. Medidas Xie-Beni para todos os algoritmos com o conjunto BarsGaussAN0_10000.

A avaliação e comparação dos algoritmos será feita através da medida Xie-Beni e do tempo de execuçãodos algoritmos. A medida Xie-Beni [Xie 1991] consiste em calcular o quociente entre o erro quadrático médio

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

160

Page 161: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · R. K. Asbahr and P. A. Lopes and H. A. Camargo

de todos os pontos em relação a um centro e a distância média entre os centroides dos clusters. Para ter umamedida ótima, é necessário que o erro seja pequeno e que a distância entre os centros seja grande, o quesignifica que os pontos que têm maior pertinência ao grupo estão próximos entre si e distantes de pontos commenor pertinência. Os valores ótimos são os mais próximos de zero. SerÃa usada a medida implementada pelabiblioteca fclust, uma biblioteca da linguagem R que que contém o cálculo da medida Xie-Beni

Fig. 2. Medidas Xie-Beni para todos os algoritmos com o conjunto KDD-Cup’99.

Fig. 3. Medidas Xie-Beni para todos os algoritmos com o conjunto Benchmark2_10000.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

161

Page 162: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Agrupamento Fuzzy para Fluxo Contínuo de Dados - Um Estudo de Algoritmos Baseados em Blocos · 7

As figuras 1, 2 e 3 mostram os valores da medida Xie-Beni para cada um dos conjuntos de dados, calculadosa cada bloco de 1200 dados, até o total de 6000 dados. Analisando as figuras 1, 2 e 3, nota-se que o algoritmoWFCM-AC mostrou um comportamento estável, obtendo as menores (melhores) medidas Xie-Beni para ostrês conjuntos de dados. Sendo esse um algoritmo que ajusta dinamicamente o número de grupos, tal resultadoconfirma a importância da escolha do número para agrupar FCD.

O OFCM teve medidas baixas(boas) para apenas o conjunto Benchmark2_10000, que é um conjunto que hápouco ruído e é focado apenas na evolução dos dados. Apesar de apresentar desempenho satisfório, a medidanão mostra se o algoritmo consegue acompanhar a evolução dos dados, tendo em vista que o algoritmo analisao comportamento dos centroides.

O algoritmo SPFCM apresentou bons resultados com relação à medida Xie-Beni para os conjuntos de dadosBarsGaussAN0_10000 e KDD-Cup’99, comparáveis aos obtidos pelo WFCM-AC. Entretanto seu desempenhodecaiu no conjunto de dados Benchmark2_10000, o que pode ser explicado pelo fato desse conjunto apresentarmudanças na distribuição dos dados, situação para a qual o SPFCM não provê tratamento especial.

O algoritmo WFCM-DC teve comportamento similar ao do SPFCM nos dois primeiro conjuntos de dados(figuras 1 e 2). No conjunto Benchmark2_10000, apresentou melhoras sucessivas à medida que os dados foramtratados, apresentando melhores índices que o SPFCM, exceto na última avaliação (6000 dados). Essa evoluçãoevidencia que WFCM-DC foi capaz de captar as alterações na distribuição dos dados, o que não ocorreu como SPFCM.

Fig. 4. Tempo de execução para todos os algoritmos com o conjunto Benchmark2_10000.

Com relação a tempo de execução, analisando a figura 4, nota-se que os algoritmos SPFCM e WFCM-DCforam os mais rápidos com uma diferença significativa em relação aos outros dois algoritmos. Esse resultadoera esperado, já que SPFCM e WFCM-DC fazem um agrupamento a cada bloco de dados enquanto os al-goritmos OFCM e WFCM-AC precisam fazer mais de um agrupamento por iteração. O tempo de execuçãodos algoritmos OFCM e WFCM-AC é de alguns segundos, ao passo que os algoritmos SPFCM e WFCM-DCrequerem apenas alguns milésimos de segundos para terminar sua execução.

Enfim, é possível observar que cada algoritmo apresenta vantagens e desvantagens. Os algoritmos OFCM eWFCM-AC são capazes de obter precisões de agrupamento maiores que os algoritmos SPFCM e WFCM-DC,

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

162

Page 163: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · R. K. Asbahr and P. A. Lopes and H. A. Camargo

que, por sua vez, são mais rápidos.

5. CONCLUSÃO

Neste artigo, foram apresentados e discutidos os resultados da implementação e execução de algoritmos deagrupamento fuzzy baseados em blocos para FCD. Os algoritmos selecionados possuem diferentes caracterís-ticas relacionadas à identificação de mudanças na distribuição dos dados e definição no número de grupos. Osexperimentos, executados com três conjuntos de dados, permitiram extrair conclusões sobre o comportamentodos algoritmos utilizados. Espera-se, como contribuição deste trabalho, que as implementações dos algoritmose as análises realizadas possam ser utilizadas como embasamento para pesquisas futuras do nosso grupo depesquisa e da comunidade de inteligência computacional. Em continuidade ao estudo apresentado neste artigo,a próxima etapa prevista será a utilização de outras medidas de avaliação de agrupamento e a expansão deexperimentos com outros conjuntos de dados, visando consolidar as conclusões sobre o comportamento dosalgoritmos.

REFERENCES

AGGARWAL, C. C., HAN, J., AND WANG, J. & YU, P. S. A framework for clustering evolving data streams. In Proceedings of the 29thInternational Conference on Very Large Data bases. vol. 29, pp. 81âAS92, 2003.

BEZDEK, J. C. Pattern recognition with fuzzy objective function algorithms. https://doi.org/10.1007/978-1-4757-0450-1, 1981.GAMA, J. Knowledge discovery from data streams, 2010. Chapman and Hall.GAMA, J. A survey on learning from data streams: current and future trends. Progress in Artificial Intelligence. 1 (1): 45âAS55, 2012.

https://doi.org/10.1007/s13748-011-0002-6.GROUP, C. I. Data stream repository. http://github.com/CIG-UFSCar/DS Datas, 2017.HORE, P. AND HALL, L. O. & GOLDGOF, D. B. A fuzzy c means variant for clustering evolving data streams. In 2007 IEEE International

Conference on Systems, Man and Cybernetics, 2007a. https://doi.org/10.1109/ICSMC.2007.4413710.HORE, P. AND HALL, L. O. & GOLDGOF, D. B. Single pass fuzzy c means. In 2007 IEEE International Fuzzy Systems Conference,

2007b. https://doi.org/10.1109/FUZZY.2007.4295372.HORE, P., HALL, L. O., AND GOLDGOF, D. B. . C. W. Online fuzzy c means. n NAFIPS 2008 - 2008 Annual Meeting of the North

American Fuzzy Information Processing Society, 2008. https://doi.org/10.1109/NAFIPS.2008.4531233.JAIN, A. K. AND MURTY, M. N. & FLYNN, P. J. Data clustering: a review. ACM Computing Surveys 31 (3): 264–323, 1999.

https://doi.org/10.1145/331499.331504.JAWORSKI, M., DUDA, P., AND PIETRUCZUK, L. On fuzzy clustering of data streams with concept drift. Artificial Intelligence and Soft

Computing vol. 2, pp. 82–91, 2012.KRANEN, P., ASSENT, I., AND BALDAUF, C. & SEIDL, T. The clustree: Indexing micro-clusters for anytime stream mining. Knowledge

and Information Systems 29 (2): 249–272, 2011. https://doi.org/10.1007/s10115-010-0342-8.KRISHNAPURAM, R. & KELLER, J. M. A possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems 1 (2): 98–110, 1993.

https://doi.org/10.1109/91.227387.LI, Y., YANG, G., HE, H., AND JIAO, L. & SHANG, R. A study of large-scale data clustering based on fuzzy clustering. Soft Comput-

ing 20 (8): 3231–3242, 2016. https://doi.org/10.1007/s00500-015- 1698-1.MACQUEEN, J. Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium

on Mathematical Statistics and Probability vol. 1, pp. 281–297, 1967. https://doi.org/citeulike-article-id:6083430.MITCHELL, T. Machine learning. McGraw-Hill Education, 1997.MOSTAFAVI, S. & AMIRI, A. Extending fuzzy c-means to clustering data streams. 20th Iranian Conference on Electrical Engineering,

2012. https://doi.org/10.1109/IranianCEE.2012.6292449.SILVA, J. A., FARIA, E. R., BARROS, R. C., HRUSCHKA, E. R., AND CARVALHO, A. C. P. L. F. D. . G. J. Data stream clustering - a

survey. ACM Computing Surveys 46 (1): 1–31, 2013. https://doi.org/10.1145/2522968.2522981.WITTEN, I. H., FRANK, E., AND HALL, M. A. & PAL, C. Data mining: Practical machine learning tools and techniques. Morgan

Kaufmann Series in Data Management Systems., 2017.XIE, X. L. & BENI, G. A validity measure for fuzzy clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1991.

https://doi.org/10.1109/34.85677.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

163

Page 164: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Agrupamento Hierárquico e Multivisão de Eventospor meio de Grafos de Consistência

Paulo H. L. de Paula1, Westerley S. Reis2, Solange O. Rezende3, Ricardo M. Marcacini1

1 Universidade Federal de Mato Grosso do SulCâmpus de Três Lagoas (CPTL)

[email protected], [email protected] Universidade Federal de Mato Grosso do Sul

Faculdade de Computação (FACOM)[email protected]

3 Universidade de São PauloInstituto de Ciências Matemáticas e de Computação (ICMC)

[email protected]

Abstract. A análise de eventos tem recebido atenção recentemente devido à popularização de plataformas web parapublicação de conteúdo, especialmente portais de notícias, redes sociais, blogs e fóruns. Essas plataformas armazenameventos por meio de textos a respeito de diversos setores da sociedade e podem ser vistas como uma representaçãodigital (mundo virtual) dos eventos que ocorrem em nosso mundo real. Assim, agrupamento de eventos é uma tarefaimportante para organizar e mapear os eventos desse mundo virtual para nosso mundo físico, o que permite a realizaçãode diversos estudos sociais, políticos e econômicos. Nesse trabalho é apresentada uma abordagem para agrupamentohierárquico e multivisão de eventos extraídos de textos. As diferentes informações sobre os eventos, como informaçãotextual, informação temporal e informação geográfica são consideradas diferentes visões durante a tarefa de agrupamento.Enquanto as abordagens existentes exigem que o usuário defina parâmetros sobre como utilizar informação temporal egeográfica no agrupamento de eventos, a abordagem proposta permite aprender automaticamente restrições de tempo elocal. Para tal, foi proposta uma estrutura denominada grafo de consistência que representa o consenso de agrupamentosentre as diferentes visões. Uma avaliação experimental com oito conjuntos de eventos de benchmark revelou que aabordagem proposta é superior à abordagem tradicionalmente utilizada na área, apresentando ainda o diferencial depermitir a visualização das relações entre eventos por meio do grafo de consistência.

Categories and Subject Descriptors: H.2.8 [Database Management]: Database Applications; I.2.6 [Artificial Intel-ligence]: Learning

Keywords: análise de eventos, agrupamento multivisão, grafo de consistência

1. INTRODUÇÃO

A análise de eventos é uma tarefa útil para estudar fenômenos importantes que ocorrem em locaisespecíficos e em um determinado período de tempo [Hogenboom et al. 2016]. Diversos estudossociais, políticos e econômicos são beneficiados a partir de pesquisas envolvendo análise de eventos[Florence et al. 2017], como monitoramento de conflitos urbanos, análise de epidemias, estudo deefeitos climáticos, análise de opinião e sentimentos, análise de tendências econômicas, bem como aconstrução de indicadores inteligentes em diversos domínios, a exemplo de agronegócios e medicina.Embora a análise de eventos tenha sido mais frequentemente empregada para fenômenos que ocorramem locais georreferenciados (i.e., com latitude e longitude), a análise de eventos pode ser aplicada emqualquer problema em que se espera identificar causalidade entre eventos, ou seja, a relação entre um

Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

164

Page 165: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · Paula et al.

evento X (causa) e um evento Y (efeito) [Radinsky et al. 2012].

Mais recentemente, a análise de eventos tem ganhado destaque devido à popularização de platafor-mas web para publicação de conteúdo, especialmente portais de notícias, redes sociais, blogs e fóruns[Hou and Li 2015]. Essas plataformas armazenam eventos por meio de textos a respeito de diversossetores da sociedade e podem ser vistas como uma representação digital (mundo virtual) dos eventosque ocorrem em nosso mundo real [Radinsky and Horvitz 2013]. Nesse sentido, pesquisas computaci-onais envolvendo mineração de textos e aprendizado de máquina são importantes para extrair eventosa partir dos textos e então mapear os eventos desse mundo virtual para nosso mundo físico, o quepermite a realização de estudos práticos envolvendo a análise de grandes bases de eventos [Hogenboomet al. 2016].

Dentre diversos métodos para apoiar a análise de eventos, métodos de agrupamento são uma estra-tégia interessante para organizar eventos em grupos, de forma que eventos alocados em um mesmogrupo sejam relacionados entre si [Conrad and Bender 2016; Florence et al. 2017]. Além disso, o agru-pamento pode ser realizado de forma hierárquica, obtendo-se grupos e subgrupos de eventos. Dessaforma, a análise de eventos pode ser realizada em diversos níveis de granularidade. Outra importantecaracterística é que o agrupamento de eventos representa um tipo de aprendizado não supervisionado,ou seja, exige pouco esforço humano para o aprendizado de um modelo de agrupamento entre oseventos [Aggarwal 2018].

Um dos principais desafios em agrupamento de eventos é definir uma medida de proximidade queidentifique adequadamente quando dois ou mais eventos são relacionados entre si [Allan 2012; Radinskyet al. 2012; Radinsky and Horvitz 2013; Conrad and Bender 2016; Florence et al. 2017]. A maioriados trabalhos existentes exploram a similaridade textual entre os eventos, com o pressuposto deque eventos de conteúdo similar podem estar relacionados entre si. Além disso, as informações detempo e local de ocorrência entre eventos são utilizadas para restringir o cálculo da similaridade paraeventos publicados em um determinado período e região. Embora seja uma abordagem interessante, adefinição dessas restrições não é uma tarefa fácil, pois exige que o usuário defina a priori informaçõessobre duração e locais de ocorrência de eventos relacionados, informação que geralmente não estádisponível [Hou and Li 2015; Conrad and Bender 2016; Florence et al. 2017]. Por exemplo, muitoseventos apresentam o comportamento de propagação em cadeia, como epidemias, o que dificulta definirregiões de interesse. Um problema similar acontece quando há interesse em identificar sazonalidadena ocorrência de eventos, análise que pode ficar prejudicada com uso de restrições de tempo.

Nesse trabalho é apresentada uma abordagem para agrupamento hierárquico e multivisão de eventosextraídos de textos. Nesse caso, as diferentes informações sobre os eventos, como informação textual,informação temporal e informação geográfica são consideradas diferentes visões durante a tarefa deagrupamento. Ao contrário das abordagens existentes, na proposta aqui apresentada as restriçõesde tempo e local são aprendidas automaticamente explorando os padrões extraídos no conjunto deeventos. Para lidar com o agrupamento hierárquico e multivisão, é proposta e avaliada uma estruturadenominada grafo de consistência que representa o consenso de agrupamentos entre as diferentes visões.O grafo de consistência proposto também é uma forma de indicar as relações entre pares de eventos,sendo uma estrutura útil para apoiar a análise de causalidade entre eventos. Para analisar a eficáciada proposta, foi realizada uma avaliação experimental com oito conjuntos de eventos de benchmark.Os resultados revelaram que a abordagem proposta é superior à abordagem tradicionalmente utilizadana área, apresentando ainda o diferencial de permitir a visualização das relações entre eventos pormeio do grafo de consistência.

2. TRABALHOS RELACIONADOS

Na área de mineração de textos e aprendizado de máquina, um evento é comumente definido como algoque ocorre em determinado tempo e local [Allan 2012]. Um dos trabalhos pioneiros para análise de

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

165

Page 166: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 3

eventos extraídos a partir de textos foi publicado por [Yang et al. 1998], que foi um projeto financiadopela DARPA (Defense Advanced Research Projects Agency), com o objetivo de construir uma base deconhecimento com eventos relacionados a partir de diversas fontes de notícias da web. Nesse trabalho,um evento i é representado em um espaço m-dimensional ei = (t1, t2, ..., tm), composto por m termos,em que tj indica o peso do termo j para o evento i, como ausência ou presença, frequência ou uso deponderação TFIDF (Term Frequency - Inverse Document Frequency) [Aggarwal 2018] cuja frequênciado termo no documento é ponderada pelo inverso do número de documentos em que o termo ocorre.

Nos primeiros trabalhos envolvendo análise de eventos, os termos eram representados por palavras-chave extraídas do texto dos eventos. Em trabalhos posteriores, foram investigadas formas de dife-renciação entre esses termos por meio de componentes dos eventos, como informação textual, infor-mação temporal e informação geográfica [Horie et al. 2016]. Em especial, destacam-se representaçõesque organizam os termos do evento em múltiplas visões, de forma que os termos possam indicarcomponentes do tipo what (o quê?), when (quando?) e where (onde?). Dessa forma, um eventoei = (t

v(1)1 , t

v(1)2 , ..., t

v(2)1 , t

v(2)2 , ..., t

v(3)1 , t

v(3)2 , ...) possui mais de um tipo de visão v(l), possibilitando

ser diferenciadas durante o cálculo da proximidade entre dois eventos.

Nos últimos anos foram propostas medidas de proximidade que consideram diferentes visões de umobjeto, sendo útil para tarefas de agrupamento de eventos [Radinsky and Horvitz 2013; Deza 2014]. AEquação 1 define uma medida de similaridade entre dois eventos ei e ej baseada em três componentes(what, when e where), na qual os termos α, β e γ indicam a importância de cada componente.Uma vez definida a medida de similaridade, então diversos algoritmos de agrupamento (particional ehierárquico) podem ser empregados.

sim(ei, ej) = αsimv(what)(ei, ej) + βsimv(when)(ei, ej) + γsimv(where)(ei, ej) (1)

Uma das principais críticas ao uso de uma única medida de proximidade para combinar as diferentesvisões dos eventos é a dificuldade em lidar com a escala individual da medida de similaridade em cadavisão, bem como definir seus respectivos níveis de importância. Além disso, a medida de similari-dade de cada visão contém um conjunto de parâmetros para serem definidos conforme o domínio daaplicação, como limiar mínimo de similaridade de conteúdo, granularidade temporal e limiar mínimopara distância geográfica entre dois eventos. O conjunto de todos esses parâmetros torna o uso dessaabordagem muito difícil na prática, pois exige que usuários definam a priori informações sobre oseventos que, na prática, pretendiam obter a posteriori como resultado da própria análise da base deeventos.

Abordagens mais recentes exploram métodos de agrupamento que permitem a interação com o usuá-rio para minimizar a complexidade de definição dos parâmetros de cada componente. No trabalhode [Conrad and Bender 2016], usuários fornecem exemplos de eventos de interesse que são utilizadoscomo semente para obtenção do agrupamento de forma semissupervisionada. De forma similar, notrabalho de [Florence et al. 2017], usuários fornecem restrições de granularidade temporal e geográ-fica (raio máximo permitido com a distância entre dois eventos). Tais restrições são propagadas eincorporadas no algoritmo de agrupamento hierárquico por meio de restrições cannot-link (eventosque não devem ser agrupados) e must-link (eventos que devem ser agrupados) e, então, é utilizado ummétodo de agrupamento semissupervisionado para organização dos eventos em grupos e subgrupos.Embora as abordagens semissupervisionadas reduzam a complexidade na definição dos parâmetrosdas componentes, é interessante que tal etapa possa ser realizada de forma automática a partir dospadrões existentes na própria base de eventos.

Neste trabalho, há interesse em investigar métodos de aprendizado multivisão como uma alternativapara lidar com as múltiplas componentes de um evento. Em vez de combinar diversas medidas desimilaridades em uma única medida, o aprendizado multivisão visa obter uma hipótese (e.g. ummodelo de agrupamento) em cada visão dos dados e então maximizar a concordância entre hipóteses

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

166

Page 167: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · Paula et al.

distintas [Zhao et al. 2017]. Embora existam diversas abordagens para agrupamento multivisão, agrande maioria é proposta apenas para agrupamento particional. Além disso, não foi encontrado naliteratura estratégias de agrupamento hierárquico e multivisão para lidar com as especificidades dodomínio de eventos.

A motivação desta proposta é que ao considerar um agrupamento individual em cada visão serápossível identificar padrões específicos para as componentes what, when e where. Em seguida, a ma-ximização do consenso entre cada modelo de agrupamento permite considerar tais padrões no modelode agrupamento final, eliminando a necessidade de o usuário definir os parâmetros das componentes.Para tal, é proposta neste trabalho a estrutura de um grafo de consistência entre eventos como umaforma de maximizar a concordância entre diferentes componentes.

3. ABORDAGEM PROPOSTA

3.1 Formulação do Problema

O resultado de um modelo de agrupamento hierárquico H para uma base com n eventos pode serrepresentado por meio de uma matriz

H =

a11 a12 · · · a1na21 a22 · · · a2n...

.... . .

...an1 an2 · · · ann

= aij ∈ Rn×n (2)

em que aij indica o nível em que os eventos ei e ej foram agrupados na hierarquia. Dois eventos nãosimilares só serão unidos no grupo raiz (que contém todos os eventos) e assim receberá o valor aij = 0.

Dessa forma, considere que Hv(what), Hv(when) e Hv(where) sejam os modelos de agrupamento hie-rárquico em cada componente da base de eventos, ou seja, em cada visão. Um agrupamento multivisãoH∗ é de tal forma que minimiza a discordância entre os agrupamentos hierárquicos individuais con-forme definido na Equação 3, em que C = what, when,where são as componentes do evento, av(c)ij

indica o nível de agrupamento entre os eventos ei e ej na componente c ∈ C, e a∗ij indica o nível deagrupamento entre os eventos ei e ej no agrupamento hierárquico multivisão.

ρ(H∗) =∑

c∈C

n∑

i,j=1

‖av(c)ij − a∗ij‖2 (3)

Encontrar a matriz H∗ que minimiza a função p(H∗) é um problema computacionalmente difícil(NP-Hard), sendo necessário o uso de abordagens iterativas e/ou heurísticas para obter soluções emtempo aceitável, porém convergindo a um ótimo local. Nas próximas seções são descritas as etapasda abordagem aqui proposta, tanto para agrupamento hierárquico em cada visão quanto para a etapade aprendizado multivisão via grafo de consistência.

3.2 Agrupamento nas Visões Textual (what), Temporal (when) e Geográfica (where)

A primeira etapa da abordagem proposta consiste em obter um modelo de agrupamento para cadavisão do conjunto de eventos. Na prática, isso significa definir uma medida de similaridade para cadacomponente e, em seguida, aplicar algum método de agrupamento. Para a visão textual (componentewhat) é utilizada a medida de similaridade cosseno, definida na Equação 4, que explora as palavras-chave do texto de dois eventos ei e ej .

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

167

Page 168: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 5

simwhat(ei, ej) =ei · ej‖ei‖‖ej‖

(4)

Para a visão temporal, o objetivo é agrupar eventos que ocorreram em períodos próximos, geral-mente com base na data de publicação. No entanto, durante o pré-processamento algumas expressõestemporais podem ser normatizadas para extração de datas, indicando que um evento pode ter uma oumais datas associadas. A similaridade é baseada na diferença de marca temporal timestamp, definidana ISO 86011, conforme a Equação 5 que utiliza as datas de dois eventos ei e ej . A função TS(ei)retorna um conjunto de timestamps de um evento ei. Observe que, neste caso, se um evento possuiduas ou mais datas associadas, então a distância temporal é dada pela distância temporal média.

simwhen(ei, ej) =1

|TS(ei)|.|TS(ej)|∑

q∈TS(ei)

r∈TS(ej)

1

‖q − r‖2 + 1(5)

Em relação à visão geográfica, o objetivo é agrupar eventos que ocorreram em regiões próximasconforme coordenadas de latitude e longitude. Tais coordenadas são extraídas do texto dos eventospor meio de pré-processamento para reconhecimento de entidades nomeadas (nomes de locais) seguidode um processo de geocoding, que consulta uma base de dados expressões georreferenciada2. A simila-ridade entre dois eventos utiliza como base a métrica de Haversine, que estima a distância geográficaentre duas coordenadas em uma esfera. A métrica de Haversine é convertida em similaridade naEquação 6, que se aproxima de 1 quando duas coordenadas estão próximas e de 0, caso contrário.As funções sin, arcsin e cos são funções trigonométricas. Já as variáveis latei e lonej representam ascoordenadas latitude e longitude, respectivamente, de um evento ei (e de forma análoga para ej).

simwhere(ei, ej) =1

1 + 2r arcsin

(√sin2

(latei−latej

2

)+ cos(latei) cos(latej ) sin

2(

lonei−lonej

2

)) (6)

Ao definir medidas de similaridade apropriadas para cada visão, os agrupamentosHv(what),Hv(when)

e Hv(where) podem ser obtidos considerando padrões da base de eventos sem a necessidade de definiçãode parâmetros de limiares para cada componente. Na próxima seção, os agrupamentos individuais sãocombinados por meio de aprendizado multivisão.

3.3 Aprendizado Multivisão via Grafo de Consistência

Neste trabalho é proposta uma estrutura denominada grafo de consistência para obter uma soluçãoaproximada do problema de agrupamento multivisão. Considere um grafo G = (V,E,W), em queV = e1, e2, ..., en indica um conjunto não vazio de eventos (vértices), E = (ei, ej) ∀i 6= j indicaum conjunto de relação de pares de eventos (arestas) e W é uma matriz que indica o peso de cadaaresta (relação entre eventos).

O objetivo do grafo de consistência é identificar pares de eventos que foram alocados nos mesmosgrupos em todos os modelos de agrupamento, ou seja, nas componentes what, when e where. A ideiabásica é que se dois eventos possuem conteúdo similar, foram publicados em mesmo intervalo temporale ocorreram em regiões próximas, então há uma maior probabilidade de que estejam relacionados. Opeso da aresta indica, então, a consistência da relação entre dois eventos.

1ISSO 8601 é um padrão internacional de definição de marcação temporal emitida pela Organização Internacional dePadronização.2Nesse trabalho foi utilizada a API de Geocoding do projeto Websensors: https://websensors.net.br/

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

168

Page 169: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · Paula et al.

O aprendizado do grafo de consistência é realizado pela construção da matriz de pesos Wn×npara cada par de arestas, conforme Equação 7, que utiliza como entrada os modelos de agrupamentohierárquico Hv(what), Hv(when) e Hv(where) de cada visão, em que C = what, when,where.

W =

w11 w12 · · · w1n

w21 w22 · · · w2n

......

. . ....

wn1 wn2 · · · wnn

= wij ∈ Rn×n, wij =

c∈C

n∑

i,j=1

consistency(av(c)ij ) (7)

A função consistency(.) da Equação 7 tem a finalidade de verificar se os eventos ei e ej foramalocados nos mesmos grupos em todas as visões, respeitando-se um determinado nível da hierarquia.A literatura dedicada à análise de agrupamento discute que o nível de agrupamento pode ser superes-timado pelo piso b√nc (menor número inteiro menor ou igual a

√n) em que n é o número de eventos.

Por exemplo, ao considerar n = 100 eventos, dois eventos serão conectados no grafo de consistênciase, e somente se, tais eventos foram alocados juntos nas três visões what, when e where a partir donível 10 em todas as hierarquias. Caso contrário, a função consistency(.) irá retornar o valor 0 paraindicar que não há relação entre esse par de eventos.

O agrupamento hierárquico e multivisão final H∗, que minimiza a discordância entre as múltiplasvisões dos eventos, é obtido aplicando-se um método de agrupamento hierárquico a partir da matrizde pesos W. É importante observar que o valor 0 indica ausência de aresta no grafo de consistência.Assim, na etapa de agrupamento hierárquico, tais relações devem ser desconsideradas, o que podegerar estruturas de árvores não binárias. Outra observação importante é que, na prática, W podeser vista como uma matriz de similaridades entre pares de eventos que foram agrupados juntos, deforma consistente, em todas as visões. Assim, é uma solução aproximada para o problema formuladona Equação 3.

4. AVALIAÇÃO EXPERIMENTAL

Para avaliar a eficácia da abordagem proposta, foi conduzida uma avaliação experimental envolvendooito conjuntos de dados de eventos de benchmark proveniente da Reuters RCV23. Nesses conjuntos dedados, cada evento possui uma categoria manualmente rotulada pela Reuters. Além disso, os eventospossuem informação sobre data de publicação, palavras-chave e informação geográfica. Um sumáriodos conjuntos de dados utilizados é apresentado na Tabela I.

Table I. Visão geral dos conjuntos de dados utilizados para a avaliação experimental.Conjunto de dados #Eventos #Atributos #Categorias

What When WhereBUSINESS TRANSACTIONS (BT) 17802 409 362 189 4CONSUMER FINANCES (CF) 1085 79 276 66 3INFLATION (INF) 2126 46 321 150 2INVESTMENTS (INV) 19064 206 349 150 4LAWSUITS (LAW) 19543 568 365 208 2NATURAL DISASTERS (ND) 12582 411 364 231 3REPORTS (REP) 22079 563 365 227 4TRADE RESERVES (TR) 8850 209 361 217 3

Dado um agrupamento hierárquico H, a qualidade da solução é calculada por meio de um critériode acurácia conforme definido da Equação 8. Nessa medida, #ParesCorretamenteAgrupados indica

3Reuters RCV2: https://trec.nist.gov/data/reuters/reuters.html

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

169

Page 170: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

KDMiLe - Symposium on Knowledge Discovery, Mining and Learning - Algorithms Track · 7

a quantidade de pares de eventos que foram corretamente agrupados (e.g. da mesma categoria) e#TotalParesReferencia indica o número máximo de pares de eventos que deveriam ser agrupadosconsiderando a informação manualmente rotulada do conjunto de dados — desconsiderando possíveisrepetições e a raiz da hierarquia.

ACC =#ParesCorretamenteAgrupados

#TotalParesReferencia(8)

A abordagem proposta foi comparada com um método tradicional na área que utiliza uma únicamedida de similaridade para combinar todas as componentes (conforme discutido na Seção 2). Nessecaso, a definição dos parâmetros para as componentes de cada visão foi baseada em análies experi-mental de trabalhos anteriores [Conrad and Bender 2016; Florence et al. 2017]: um limiar de 15 diaspara similaridade temporal e um limiar de no máximo 500km para similaridade geográfica entre doiseventos. Foi definido o mesmo peso de importância para todas as visões. Em todos os experimentosfoi utilizado o método de agrupamento hierárquico UPGMA, considerado um dos estado-da-arte paradados textuais.

Na Tabela II é apresentada uma comparação experimental entre a abordagem proposta e a abor-dagem de referência. Dentre 8 conjuntos de dados de eventos analisados, a abordagem propostaapresentou maior acurácia em 6 conjuntos de dados. O único conjunto de dados em que a abordagemproposta obteve acurácia inferior foi o Inflation (INF) que, por apresentar um pequeno conjunto deeventos, não foi eficaz na construção do grafo de consistência. Por outro lado, em geral há um signifi-cativo percentual de melhora em relação à abordagem de referência, chegando em até 29% de melhorapara o conjunto de dados Reports (REP).

Table II. Comparação experimental entre a abordagem proposta e a abordagem de referência da literatura.Abordagem BT CF INF INV LAW ND REP TRReferência 0.93 0.90 0.98 0.91 0.90 0.87 0.62 0.93Proposta 0.95 0.96 0.88 0.97 0.90 0.93 0.80 0.98

% de Melhora 2.2 6.7 -10.2 6.6 0.0 6.9 29.0 5.4

Fig. 1. Visualização do grafo de consistência para o conjunto de dados Natural Disasters (ND). Cada evento foi coloridode forma a distinguir suas diferenste categorias.

A melhoria obtida com a abordagem proposta é proveniente principalmente do grafo de consistênciaentre eventos, que tem a vantagem de se adaptar conforme os padrões de cada visão, ao invés dedepender dos parâmetros (limiares) a serem informados antes do processo. Tal estrutura também

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

170

Page 171: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · Paula et al.

define de forma implícita a importância de cada visão. Quando uma determinada visão não apresentauma estrutura de grupo adequada para um subconjunto de eventos, tais eventos naturalmente sãoeliminados do grafo de consistência. Para exemplificar a qualidade do grafo de consistência, na Figura1 é ilustrada a relação entre pares de eventos considerados consistentes para o conjunto de dadosNatural Disasters (ND)4. É possível observar que a ideia de relacionar no grafo de consistência apenasos eventos que concordam em agrupamentos provenientes das três componentes what, when e where éuma estratégia robusta, ao menos, para identificar eventos (nós) de uma mesma categoria (indicadapor meio de cores distintas na visualização).

5. CONSIDERAÇÕES FINAIS

Neste trabalho foi apresentada uma nova abordagem para agrupamento hierárquico e multivisão comouma alternativa para análise exploratória de eventos. Dentre as principais contribuições, vale desta-car a proposta de um grafo de consistência como estrutura para combinar modelos de agrupamentoprovenientes das múltiplas visões dos eventos, como informação textual, temporal e geográfica.

Os resultados experimentais indicam que a abordagem proposta é promissora, obtendo acurácia deagrupamento superior à abordagem tradicional utilizada. Além disso, a presente proposta possui avantagem de realizar agrupamento de eventos sem a necessidade de definir parâmetros relacionados aoslimiares de similaridade temporal e geográfico, que geralmente é uma tarefa árdua para os usuários.

As direções para trabalhos futuros envolvem incorporar outras visões dos eventos, como nomes depessoas, organizações e tópicos latentes. Ainda, espera-se avaliar o impacto de diferentes métodos deagrupamento hierárquico na análise de eventos.

6. AGRADECIMENTOS

Este trabalho contou com o apoio das seguintes agências de fomento: FAPESP (Processo 2017/08804-2), Fundect-MS (Processo 14/08996-0), CAPES, CNPq e FINEP. Os autores agradecem a NVIDIApela doação de GPUs (GPU Grant Program).

REFERENCES

Aggarwal, C. C. Machine learning for text. Springer, 2018.Allan, J. Topic detection and tracking: event-based information organization. Vol. 12. Springer, 2012.Conrad, J. G. and Bender, M. Semi-supervised events clustering in news retrieval. In Recent Trends in News

Information Retrieval Workshop. pp. 21–26, 2016.Deza, M. M. Distances and similarities in data analysis. In Encyclopedia of Distances. Springer, pp. 323–339, 2014.Florence, R., Nogueira, B., and Marcacini, R. Constrained hierarchical clustering for news events. In Proceedings

of the 21st International Database Engineering & Applications Symposium. ACM, pp. 49–56, 2017.Hogenboom, F., Frasincar, F., Kaymak, U., de Jong, F., and Caron, E. A survey of event extraction methods

from text for decision support systems. Decision Support Systems vol. 85, pp. 12–22, 2016.Horie, S., Kiritoshi, K., and Ma, Q. Abstract-concrete relationship analysis of news events based on a 5W repre-

sentation model. In Int. Conference on Database and Expert Systems Applications. Springer, pp. 102–117, 2016.Hou, L. and Li. Newsminer: multifaceted news analysis for event search. KBS Journal vol. 76, pp. 17–29, 2015.Radinsky, K., Davidovich, S., and Markovitch, S. Learning causality for news events prediction. In Proceedings

of the 21st International Conference on World Wide Web. ACM, pp. 909–918, 2012.Radinsky, K. and Horvitz, E. Mining the web to predict future events. In Proceedings of the 6th ACM International

Conference on Web Search and Data Mining. ACM, pp. 255–264, 2013.Yang, Y., Pierce, T., and Carbonell, J. A study of retrospective and on-line event detection. In Proceedings of

the 21st Annual International ACM SIGIR Conference. ACM, pp. 28–36, 1998.Zhao, J., Xie, X., Xu, X., and Sun, S. Multi-view learning overview: Recent progress and new challenges. Information

Fusion vol. 38, pp. 43–54, 2017.

4A visualização foi obtida por meio da biblioteca VIS.js (http://visjs.org/)

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

171

Page 172: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Classificação Multirrótulo com Mapas de Kohonen eVizinhanças Vencedoras

J. G. M. Barbirato1, R. Cerri2

Universidade Federal de São Carlos, [email protected], [email protected]

Abstract. O problema convencional de classificação no contexto do aprendizado de máquina consiste em classificarexemplos de conjuntos de dados em categorias pré-definidas, de acordo com uma ou mais características semelhantes.Contudo, alguns conjuntos de dados possuem classes com intersecções, ou seja, exemplos podem pertencer a mais de umaclasse simultaneamente. Exemplos desses problemas podem ser encontrados, por exemplo, na identificação de gênerosde livros e na classificação de imagens. Esses tipos de problemas são denominados multirrótulo. O objetivo deste artigoé propor um novo método de classificação multirrótulo com Mapas de Kohonen. A ideia é utilizar o neurônio vencedordo processo competitivo do mapa auto-organizável, juntamente com a vizinhança ao redor desse neurônio, para aclassificação de dados. Assim, um novo exemplo é classificado nas classes pertencentes aos exemplos de treino mapeadospara o neurônio vencedor e sua vizinhança. A linguagem Python e a biblioteca de aprendizado de máquina Scikit-Learnforam utilizadas para implementação do modelo da rede neural, para implementação das medidas de avaliação, e para ageração de conjuntos de dados sintéticos. A utilização de uma vizinhança de neurônios foi comparada com uma propostaanterior utilizando apenas um neurônio vencedor. Os resultados mostraram que a utilização de uma vizinhança ao redordo neurônio vencedor é promissora, obtendo melhores reesultados.

Categories and Subject Descriptors: I.2.6 [Artificial Intelligence]: Learning

Keywords: aprendizado de máquina, classificação, classification, machine learning, mapas de kohonen, multilabel, mul-tirrótulo, neural networks, redes neurais, self-organizing maps

1. INTRODUÇÃO

Em aprendizado de máquina, a classificação convencional consiste em separar conjuntos de dados emclasses, de forma a se rotular um exemplo em uma determinada classe. Para isso, pode-se utilizar,por exemplo, a semelhança dos atributos de um exemplo a ser classificado, com os atributos de outrosexemplos de treinamento. Contudo, há situações nas quais apenas um rótulo não modela adequada-mente o problema. É o caso da categorização de documentos, do diagnóstico médico e da classificaçãode imagens; um documento geralmente envolve mais de uma área de conhecimento, assim como umpaciente pode sofrer de duas doenças simultaneamente. Para essas situações, utiliza-se a classificaçãomultirrótulo, em que um novo exemplo é associado a um conjunto de classes simultaneamente.

Diversos modelos de aprendizado de máquina, na literatura, se adaptam a problemas desse tipo.Entre esses, estão as redes neurais artificiais, modelos que tentam simular o comportamento do cére-bro humano para tomada de decisões. Trata-se de um modelo fortemente inspirado no processo deaprendizado humano, em que as informações passam por uma estrutura de neurônios: as sinapsestransformam e processam as entradas.

Um desses modelos é o Mapa de Kohonen ou Mapa Auto-Organizável. Em seu uso convencional,Mapas de Kohonen são redes neurais estruturadas em uma superfície bidimensional de neurônios,de modo que os neurônios se auto-organizam formando regiões no mapa – determinando grupos ou

Copyright©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

172

Page 173: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · J. G. M. Barbirato and R. Cerri

classes de exemplos. Assim, pode-se utilizar a regra dos vizinhos mais próximos para classificar umnovo exemplo. O neurônio geometricamente mais próximo da entrada é denominado como ”neurôniovencedor” e, evidentemente, categoriza a entrada.

Diante do exposto, o presente artigo tem por objetivo, dentro do contexto de redes neurais artificiais,utilizar neurônios de uma região do Mapa de Kohonen para a classificação multirrótulo de exemplos.Para isso, será estendido o trabalho proposto por [Colombini et al. 2017], a fim de que as classesatribuídas a uma entrada de teste sejam escolhidas não apenas com base em um único neurôniovencedor, mas também com base na vizinhança ao redor desse neurônio. Utilizando conjuntos dedados artificiais e reais, esse trabalho visa investigar se a utilização de uma vizinhança de neurôniosao redor do neurônio vencedor leva a melhores resultados se comparado com a utilização de apenasum neurônio vencedor.

2. CLASSIFICAÇÃO MULTIRRÓTULO

Na literatura de aprendizado de máquina, problemas de classificação convencionais são chamadosde problemas simples-rótulo ou monorrótulo. Nesses problemas, um classificador é treinado em umconjunto de exemplos que estão associados com uma única classe l de um conjunto de classes disjuntasL, onde |L| > 1. Se |L| = 2, então o problema é chamado de problema de classificação binária, ese |L| > 2, o problema é chamado de problema de classificação multiclasse. Em uma classificaçãomultirrótulo, os exemplos de treino estão associados a um conjunto de classes Y ⊆ L, sendo |Y | >1 [Tsoumakas et al. 2009].

Muitos trabalhos têm sido propostos na literatura de classificação multirrótulo, mas poucos utilizamredes neurais artificiais, e especificamente mapas de Kohonen. [Zhang and Zhou 2006] propõe autilização de redes neurais multicamadas para classificação multirrótulo. Os autores propuseram umamedida de erro multirrótulo para ser incorporada no algoritmo back-propagation, associando umneurônio de saída a cada classe do problema. A ideia central dessa medida de erro é considerar oserros em todos os neurônios no momento do cálculo do erro de um neurônio específico.

Em [Borges and Nievola 2012], foi desenvolvido um método utilizando uma rede neural competitivapara classificação multirrótulo em cenários onde as classes pertencem a uma hierarquia. O métodosegue a mesma ideia de treinamento utilizada nos mapas de Kohonen. A rede neural consiste de umacamada de entrada, formada pelos atributos dos exemplos, e de uma camada de saída, na qual cadaneurônio corresponde a um nó da hierarquia. Assim como nos mapas de Kohonen, o processo detreinamento da rede consiste de três etapas: competição, cooperação e adaptação.

No trabalho de [Cerri et al. 2016], redes neurais para classificação multirrótulo foram utilizadas paraclassificação de funções de proteínas também em cenários hierárquicos. Bons resultados foram obtidospor meio da utilização de redes perceptron multicamadas (Multi-layer Perceptron), associando umarede neural a cada nível da hierarquia [Cerri et al. 2016].

Seguindo a ideia de [Cerri et al. 2016], recentes trabalhos [Wehrmann et al. 2017; Wehrmann et al.2018] também utilizaram redes neurais artificiais para problemas multirrótulo hierárquicos. Porém,ao invés de dividir o problema como feito por [Cerri et al. 2016] otimizando funções locais, os autorespropuseram arquiteturas para otimização de funções tanto locais quanto globais (considerando todasas classes simultaneamente).

O trabalho proposto por [Colombini et al. 2017] inspira grande parte do presente artigo. Naqueletrabalho, os autores demonstraram que a tarefa de classificação multirrótulo utilizando Mapas de Ko-honen é promissora, mesmo trazendo resultados de classificação utilizando apenas o neurônio vencedor.Assim, neste trabalho propomos uma extensão do método de [Colombini et al. 2017], utilizando, alémdo neurônio vencedor, uma vizinhança ao redor desse neurônio.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

173

Page 174: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Classificação Multirrótulo com Mapas de Kohonen e Vizinhanças Vencedoras · 3

2.1 Medidas de avaliação

Medidas de avaliação convencionais não são adequadas para problemas multirrótulo, pois uma classifi-cação pode ser parcialmente correta. Assim, seguiu-se o trabalho proposto por [Godbole and Sarawagi2004].

Seja C um classificador multirrótulo, com Li = H(xi) o conjunto de rótulos previstos por C paraum exemplo xi; Yi o conjunto de classes verdadeiras, e X o conjunto de exemplos. Assim, [Godboleand Sarawagi 2004] propõem as medidas de precisão (precision) e revocação (recall), conforme asEquações 1 e 2; medidas estas utilizadas no presente artigo.

precisão (C, X) =1

|X|

|X|∑

i=1

|Yi ∩ Li||Li|

(1)

revocação (C, X) =1

|X|

|X|∑

i=1

|Yi ∩ Li||Yi|

(2)

As medidas de precisão e revocação podem ser combinadas da medida-F (F-measure), apresentadana Equação 3. Essa medida também é utilizada nos experimentos desse trabalho.

medidaf (C,X) = 2 × precisão (C, X) × revocação (C, X)

precisão (C, X) + revocação (C, X)(3)

3. MAPAS DE KOHONEN

Mapas auto-organizáveis, SOM (Self-Organizing Maps) ou Mapas de Kohonen são modelos de redesneurais cujos neurônios artificiais se dispõem em uma grade usualmente bidimensional e são interliga-dos. O caráter auto-organizável desse modelo torna seu aprendizado não supervisionado, por padrão.Seu desenvolvimento como um modelo de redes neurais é motivado biologicamente porque sinais deentradas semelhantes estimulam neurônios de uma mesma região e de maneira ordenada. Além disso,ocorre o denominado aprendizado competitivo, visto que os neurônios competem entre si para seremativados. Os neurônios sintonizados - denominados de neurônios vencedores - tornam-se ordenadoscom relação uns aos outros. Assim, a localização espacial dos neurônios torna-se indicativo de ca-racterísticas contidas no padrão de entrada, formando um mapa topográfico dos padrões de entrada,agrupando neurônios que mapeiam entradas com características semelhantes. Cada neurônio do mapapossui um vetor de pesos que está relacionado às características dos dados de entrada. A Figura 1ilustra um Mapa de Kohonen recebendo um novo exemplo para mapeamento.

Para os procedimentos de treinamento e de teste, o neurônio vencedor é geralmente dado peladistância Euclidiana entre o exemplo de entrada e os pesos dos neurônios. O neurônio de menordistância Euclidiana é denominado como vencedor. A Equação 4 representa o cálculo da distânciaEuclidiana entre o neurônio k com o exemplo xi, onde N representa o número de características(atributos) do exemplo entrada e wk representa o vetor de pesos do neurônio k.

dk(x) =

√√√√N∑

i=1

(xi − wki)2 (4)

Quando um exemplo é mapeado para um neurônio, os pesos do mesmo são ajustados de maneiraque exemplos semelhantes sejam mapeados para a mesma região do mapa. A vizinhança do neurônio

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

174

Page 175: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · J. G. M. Barbirato and R. Cerri

Entrada

Matriz deneurônios

Conexõessinápticas

Neurôniovencedor

Fig. 1. Mapa de Kohonen com grade bidimensional de neurônios recebendo um exemplo de entrada. Percebe-se quetodos os neurônios da grade se interligam com o exemplo.

vencedor também tem os pesos ajustados de modo que se crie uma vizinhança de neurônios semelhan-tes. Após a determinação do neurônio vencedor, seus pesos precisam ser aproximados à entrada, e issose dá utilizando uma função de vizinhança. É razoável escolher a função Gaussiana, representada naEquação 5, onde hji representa a vizinhança do neurônio vencedor i formado pelos neurônios excitadosj; d representa a distância Euclidiana calculada do neurônio vencedor; σ é um parâmetro que definea largura da função, utilizado no contexto do Mapa de Kohonen comumente por um valor da funçãode aprendizado.

hij = e−d2

2σ2 (5)

Assim, o ajuste dos pesos ∆w do neurônio j dado um exemplo x e uma taxa de aprendizado η écalculado de acordo com a Equação 6. Dessa forma, o processo de treinamento se repete com todosos exemplos. Evidentemente, é esperado que quanto mais dados de treinamento a rede receba comoentrada, melhor ajustados serão os pesos e mais precisos serão os resultados.

∆wj = ηhji(x − wj) (6)

Para a tarefa de classificação, as classes de todos os exemplos são representadas por um vetorbinário. Neste, a posição j corresponde à j-ésima classe. Se um exemplo é classificado na j-ésimaclasse, a posição j do vetor recebe o valor 1, e 0 caso contrário. Cada neurônio n possui Sn vetoresbinários de classe, significando que Sn exemplos de treino foram mapeados para esse neurônio, ouseja, ele é o neurônio vencedor para esses Sn exemplos.

Para a classificação de um exemplo de teste, o mesmo é mapeado para o mapa de neurônios. Apósidentificado o neurônio vencedor n, a classificação desse exemplo se dá por um vetor binário vn cujosvalores são as médias aritméticas das respectivas classes dos Sn vetores binários de treino associadosao neurônio vencedor, como apresentado na Equação 7. Nessa equação, Snj representa o conjunto deexemplos de treino mapeados para o neurônio n que pertencem à j-ésima classe do problema.

vnj =|Snj |Sn

(7)

Após a obtenção do vetor vn, um limiar precisa ser utilizado para que seja obtida a classificaçãofinal binária. Assim, utilizando por exemplo um limiar de valor 0, todas as posições cujos valores sãomaiores ou iguais a 0 recebem o valor 1, e 0 caso contrário.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

175

Page 176: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Classificação Multirrótulo com Mapas de Kohonen e Vizinhanças Vencedoras · 5

4. MÉTODO PROPOSTO UTILIZANDO UMA VIZINHANÇA DE NEURÔNIOS

Neste artigo, pretende-se explorar os vetores binários não só do neurônio vencedor, mas também dasua vizinhança. Sendo Hn o conjunto formado pelo neurônio vencedor n e seus neurônios vizinhos,a Equação 7 pode ser facilmente reescrita de acordo com a Equação 8, agora considerando umavizinhança de neurônios ao redor do neurônio vencedor.

vnj =

[∑Hn

k∈Hn|Skj |

]

|Hn| (8)

A Equação 8 calcula a média entre todos os vetores binários do neurônio vencedor e seus vizinhospara classificar um novo exemplo, estabelecendo, assim, uma “vizinhança vencedora”. A Figura 2ilustra o processo de classificação utilizando o método proposto. É importante ressaltar que os vetoresbinários usados no cálculo são os vetores de classes dos exemplos de treino que foram mapeados paraa rede durante o processo de treinamento. Para uma classificação binária final, um limiar deve serutilizado.

Fig. 2. Ilustração do processo de classificação utilizando o neurônio vencedor e seus 1-vizinhos mais próximos (Fonte:autoral).

5. MODELO BASELINE

Alguns trabalhos relacionados a aprendizado de máquina e redes neurais [Mao et al. 2016] mostramque o uso de um modelo baseline para comparar resultados traz conclusões mais evidentes. Por isso,adotou-se o modelo de classificação proposto por [Colombini et al. 2017] como baseline, já que opresente artigo propõe uma extensão para o trabalho citado.

O Algoritmo 5.1 apresenta o método de classificação proposto por [Colombini et al. 2017]. Trata-se do procedimento executado após o treinamento da rede. Nota-se que há apenas um neurôniovencedor escolhido para determinar a classe de um exemplo de teste. Assim, nossa proposta consistena modificação do cálculo do vetor protótipo vj utilizando a Equação 8.

6. EXPERIMENTOS

Os experimentos consistiram em adaptar a implementação de [Colombini et al. 2017] para utilizar osneurônios vizinhos do neurônio vencedor - e os exemplos por eles rotulados - para classificar um novo

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

176

Page 177: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · J. G. M. Barbirato and R. Cerri

Algorithm 5.1: Procedimento de Classificação da rede SOM multirrótuloFunção: classificação-SOM-Multirrótulo(X,e)Entrada Xtreino = [q, (a + l)]: conjunto de dados com q exemplos, a

atributos e l rótulosXtest = [m, a]: conjunto de dados com m exemplos e a atributosW = [n, a]: matriz de pesos com n neurônios e a pesosSaida P = [m, q]: matriz de predição com m linhas e l colunaspara j ← 1 ate m // Seleciona o neurônio vencedor da grade de

neurônios Ωo(xteste

j ) = argmink||xtestj −wk||k ∈ Ω;

// Recupera os exemplos de treino mapeados no neurônio vencedorT ←exemplo mapeados em o(xteste

j );// Recupera o vetor protótipovj ← média dos vetores de classes de T ;// Associa o vetor protótipo ao exemploxteste∗

j ← xtestej + vj ;

pj ← vj ;retorne P ;

exemplo de teste. Para isso, implementou-se o modelo da rede neural, as medidas de avaliação, e osmétodo de treino e de teste na linguagem Python utilizando a biblioteca de aprendizado de máquinaScikit-Learn [Pedregosa et al. 2011]. Essa biblioteca também foi utilizada para a geração de conjuntosde dados multirrótulo sintéticos.

A biblioteca Scikit-learn fornece um módulo para criação de conjuntos de dados para classificaçãomultirrótulo. Podem ser fornecidos parâmetros como o número de exemplos da base de dados, onúmero de características de cada exemplo, e o número médio de rótulos de cada exemplo. Assim,foram gerados conjuntos de dados artificiais com diferentes características. Além disso, foram uti-lizadas as bases de dados reais cal500, emotions e flags, disponíveis em http://mulan.sourceforge.net/datasets-mlc.html. A Tabela I exibe as características de cada base de dados. Nota-se queforam geradas nove variações para uma base de dados sintética, combinando número de atributos enúmero de rótulos (classes).

Base de dados Número de exemplos Número de atributos Número de rótulosSintética 150 5, 15, 30 3, 5, 10cal500 502 64 174emotions 593 72 6flags 194 14 12

Table I. Características de cada base de dados utilizada.

As classes de cada exemplo são representadas por um vetor binário de n posições, sendo n o númerototal de classes do conjunto de dados. Para os experimentos, foi utilizada a estratégia de validaçãocruzada 10-fold cross-validation para separar a base de dados em conjuntos de treino e teste.

O Mapa de Kohonen implementado é o de uma Self-Organizing Map padrão, como descrito naSeção 3. Tanto o método de classificação baseline quanto a nova proposta foram implementadosutilizando a linguagem Python e a biblioteca Scikit-Learn .

Como parâmetros da rede, utilizou-se uma taxa de aprendizado inicial de 0.1, com decaimento entreépocas de treinamento seguindo a Equação 9, e coeficiente de decaimento igual a 1000; como funçãode vizinhança, utilizou-se a gaussiana apresentada na Equação 4. Além disso, utilizou-se σ = 1000como coeficiente de decaimento da função de vizinhança.

Para o cálculo da matriz pj na Equação 8, a matriz de saída do Algoritmo 5.1 foi normalizada paraconter valores no intervalo [−1, 1]. Assim, foi possível a obtenção de uma melhor separação entre as

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

177

Page 178: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

Classificação Multirrótulo com Mapas de Kohonen e Vizinhanças Vencedoras · 7

classes, permitindo a aplicação de um limiar de valor 0 para coverter o vetor de médias vj em umvetor binário com valores 1 e 0. Todas as posições que continham valores iguais ou maiores que 0recebiam o valor 1, e 0 caso contrário.

ϕ(epoca + 1) = ϕ(epoca) × e(epoca×log ϕ0

1000 ) (9)

Para resultados relacionados ao classificador proposto, variou-se o tamanho da vizinhança entre1, 2 e 3 vizinhos mais próximos do neurônio vencedor. Tanto para o método baseline, como para ométodo proposto, foram aplicadas as variações apresentadas na Tabela II, com exceção da largura davizinhança, que para o baseline é sempre 0. Assim, foram comparadas duas variações do baseline eseis variações do método proposto.

Parâmetros VariaçõesDimensão da grade 5x5 e 10x10Largura da vizinhança 0 (baseline) 1, 2 e 3 vizinhos mais próximos

Table II. Variações de parâmetros utilizados nos experimentos. Todas as permutações foram utilizadas para a apuraçãodos resultados.

7. RESULTADOS

O resultado da implementação de todos os módulos e das tabelas completas geradas como resultadosencontram-se em https://github.com/joaobarbirato/python-SOM-MLL/. A Tabela III mostra asmedidas-f em cada base de dados - cal500, emotions, flags e os nove conjuntos de dados geradossinteticamente.

Baseline PropostoBase de dados 5x5 10x10 k=1 5x5 k=1 10x10 k=2 5x5 k=2 10x10 k=3 5x5 k=3 10x10Sintet.: 3 classes, 5 atr. 0,538 ± 0,069 0,447 ± 0,220 0,499 ± 0,160 0,516 ± 0,088 0,466 ± 0,130 0,557 ± 0,048 0,469 ± 0,095 0,591 ± 0,100Sintet.: 5 classes, 5 atr. 0,354 ± 0,120 0,429 ± 0,076 0,500 ± 0,120 0,422 ± 0,120 0,541 ± 0,050 0,453 ± 0,140 0,529 ± 0,058 0,493 ± 0,064Sintet.: 10 classes, 5 atr. 0,272 ± 0,071 0,262 ± 0,073 0,321 ± 0,078 0,292 ± 0,060 0,331 ± 0,064 0,321 ± 0,074 0,318 ± 0,091 0,329 ± 0,051Sintet.: 3 classes, 15 atr. 0,444 ± 0,150 0,371 ± 0,110 0,433 ± 0,100 0,456 ± 0,080 0,363 ± 0,150 0,516 ± 0,110 0,470 ± 0,087 0,534 ± 0,088Sintet.: 5 classes, 15 atr. 0,387 ± 0,092 0,416 ± 0,086 0,344 ± 0,120 0,461 ± 0,150 0,418 ± 0,073 0,439 ± 0,100 0,559 ± 0,100 0,477 ± 0,083Sintet.: 10 classes, 15 atr. 0,264 ± 0,077 0,238 ± 0,060 0,290 ± 0,057 0,282 ± 0,069 0,277 ± 0,054 0,259 ± 0,073 0,283 ± 0,040 0,318 ± 0,090Sintet.: 3 classes, 30 atr. 0,491 ± 0,098 0,444 ± 0,097 0,395 ± 0,160 0,492 ± 0,130 0,401 ± 0,140 0,501 ± 0,090 0,499 ± 0,140 0,526 ± 0,110Sintet.: 5 classes, 30 atr. 0,394 ± 0,130 0,337 ± 0,140 0,456 ± 0,036 0,381 ± 0,077 0,478 ± 0,079 0,421 ± 0,098 0,491 ± 0,120 0,466 ± 0,100Sintet.: 10 classes, 30 atr. 0,254 ± 0,055 0,299 ± 0,077 0,312 ± 0,038 0,285 ± 0,061 0,313 ± 0,060 0,329 ± 0,051 0,320 ± 0,076 0,319 ± 0,071cal500 0.257 ± 0,020 0,242 ± 0,020 0,257 ± 0,040 0,260 ± 0,020 0,234 ± 0,010 0,246 ± 0,020 0,245 ± 0,020 0,254 ± 0,020emotions 0,424 ± 0.070 0,374 ± 0,080 0,433 ± 0,030 0,441 ± 0,060 0,414 ± 0,070 0,353 ± 0,050 0,386 ± 0,040 0,387 ± 0,050flags 0,458 ± 0,060 0,440 ± 0,050 0,452 ± 0,050 0,464 ± 0,070 0,426 ± 0,080 0,422 ± 0,110 0,436 ± 0,060 0,378 ± 0,070

Table III. Medidas-F entre os exemplos de cada base de dados utilizando o método baseline e o método proposto declassificação para três diferentes camadas de neurônios vizinhos.

Como pode ser observado na Tabela III, a utilização de uma vizinhança de neurônios levou amelhores resultados se comparado ao modelo baseline. Fica claro também que a escolha correta dotamanho da vizinhança deve ser combinada com a escolha correta dos valores dos outros parâmetros.

8. CONSIDERAÇÕES FINAIS

Pelos experimentos pode-se verificar que, na maioria dos casos, a utilização de uma vizinhança deneurônios levou a um melhor desempenho se comparado a utilização de apenas um neurônio vencedor.Assim, a proposta da arquitetura de rede neural se faz adequada para utilização em problemas declassificação multirrótulo.

Sugere-se, para trabalhos futuros, testar os impactos de alguns parâmetros no resultado final. Porlimitações do presente estudo, não foram exploradas diversas possibilidades de funções de vizinhançaou funções de aprendizado; não foram medidos os tempos de processamento de cada método, limitando

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

178

Page 179: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · J. G. M. Barbirato and R. Cerri

análises de desempenho; não foi testado o uso de camadas mais extensas que 3 vizinhos mais próximospara a determinação da classe. Além disso, os resultados mostram que é necessário explorar a relaçãoda largura da vizinhança vencedora com outros parâmetros, como o número de exemplos na base dedados.

Essas análises adicionais têm potencial de serem exploradas em trabalhos futuros, para que se possainferir mais profundamente no modelo proposto.

REFERENCES

Borges, H. and Nievola, J. Multi-label hierarchical classification using a competitive neural network for proteinfunction prediction. In International Joint Conference on Neural Networks. pp. 1–8, 2012.

Cerri, R., Barros, R. C., P. L. F. de Carvalho, A. C., and Jin, Y. Reduction strategies for hierarchical multi-labelclassification in protein function prediction. BMC Bioinformatics 17 (1): 373, Sep, 2016.

Colombini, G. G., de Abreu, I. B. M., and Cerri, R. A self-organizing map-based method for multi-label classification.In Neural Networks (IJCNN), 2017 International Joint Conference on. IEEE, pp. 4291–4298, 2017.

Godbole, S. and Sarawagi, S. Discriminative methods for multi-labeled classification. In Pacific-Asia conference onknowledge discovery and data mining. Springer, pp. 22–30, 2004.

Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A. L., and Murphy, K. Generation and comprehension ofunambiguous object descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition.pp. 11–20, 2016.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer,P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., andDuchesnay, E. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research vol. 12, pp.2825–2830, 2011.

Tsoumakas, G., Katakis, I., and Vlahavas, I. Mining multi-label data. In Data mining and knowledge discoveryhandbook. Springer, pp. 667–685, 2009.

Wehrmann, J., Barros, R. C., Dôres, S. N. d., and Cerri, R. Hierarchical multi-label classification with chainedneural networks. In Proceedings of the Symposium on Applied Computing. SAC ’17. ACM, New York, NY, USA, pp.790–795, 2017.

Wehrmann, J., Cerri, R., and Barros, R. Hierarchical multi-label classification networks. In Proceedings of the35th International Conference on Machine Learning, J. Dy and A. Krause (Eds.). Proceedings of Machine LearningResearch, vol. 80. PMLR, Stockholmsmässan, Stockholm Sweden, pp. 5225–5234, 2018.

Zhang, M.-L. and Zhou, Z.-H. Multilabel neural networks with applications to functional genomics and text catego-rization. IEEE transactions on Knowledge and Data Engineering 18 (10): 1338–1351, 2006.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Algorithms Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

179

Page 180: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

HR Analytics e Mineração de Dados para Seleção de PessoasApplications Track

I. A. N. Sousa1, E. Spina2

Universidade de São Paulo, [email protected]

Abstract. A área de Analytics tem crescido de maneira expressiva tanto em escopo como em variedade de aplicações.

Organizações têm investido de maneira crescente nos últimos anos na área da gestão de Recursos Humanos. Dentre as

principais aplicações de Analytics, destaca-se a área de HR Analytics, uma abordagem que se baseia em dados para tomar

melhores decisões sobre pessoas em uma organização. A mineração de dados destaca-se como um dos principais meios

de obtenção de resultados para viabilizar essa prática. Estudos que envolvem HR Analytics têm crescido nos últimos

anos, mas poucas dessas investigações realizam trabalhos quantitativos ou experimentais. Nesta pesquisa, aplica-se

uma metodologia de mineração de dados para otimização de um processo de seleção de pessoas em uma Organização

da Sociedade Civil. Os resultados indicam que as métricas de avaliação desse processo podem ser melhoradas e que o

uso dessa metodologia de mineração de dados pode contribuir com a otimização do processo de seleção.

Categories and Subject Descriptors: H.2.8 [Data Mining]: Data Mining Applications

Keywords: Gestão de Recursos Humanos, HR Analytics, Mineração de dados, Seleção de pessoas

1. INTRODUÇÃO

Organizações têm investido de maneira crescente nos últimos anos na área da gestão de RH (RecursosHumanos). Esta área é reconhecida cada vez mais como um recurso estratégico na busca por vantagemcompetitiva [da Silva Baylão and de Sousa Rocha 2014] [Dulebohn and Johnson 2013].

Com o avanço da computação, pesquisadores têm desenvolvido sistemas de suporte à decisão, sis-temas especialistas e usado análise de dados para melhorar os resultados da gestão de RH. A área deanálise de dados, ou em inglês Analytics, têm crescido de maneira expressiva tanto em escopo comoem variedade de aplicações [Shmueli et al. 2017] [Chien and Che 2006].

Dentre as principais aplicações de Analytics, destaca-se a área de HR (Human Resources) Analytics.HR Analytics é uma abordagem que se baseia em evidência para tomar melhores decisões sobre pessoasem uma organização. Esse conceito consiste em ferramentas e tecnologias que varia desde relatóriossimples de métricas até a elaboração de modelos preditivos [Marler and Boudreau 2016].

Nesse contexto, a mineração de dados destaca-se como um dos principais meios de obtenção de novosresultados para estudos analíticos [Chien and Che 2006]. Mineração de dados se refere aos métodosutilizados para viabilizar a prática de Analytics [Shmueli et al. 2017]. Ela consiste no processo deidentificação de padrões originais e válidos baseado no uso de dados [Strohmeier and Piazza 2012].

Estudos que envolvem essas abordagens de HR Analytics e suas aplicações têm crescido de maneiraexpressiva nos últimos anos, como pode ser visto na figura 1 [Marler and Boudreau 2016].

Este trabalho foi realizado durante uma bolsa de estudos financiada pelo CNPq (Conselho Nacional de Desenvolvi-mento Científico e Tecnológico). Agradecimento à ONG Instituto CEO do Futuro (http://ceodofuturo.org.br/) peladisponibilização dos dados da pesquisa. Agradecimento ao apoio do CEST (Centro de Estudos Sociedade e Tecnologia).Copyright c©2018 Permission to copy without fee all or part of the material printed in KDMiLe is granted provided thatthe copies are not made or distributed for commercial advantage, and that notice is given that copying is by permissionof the Sociedade Brasileira de Computação.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

180

Page 181: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

2 · I. A. N. Sousa and E. Spina

Fig. 1. Publicações em HR Analytics.

Porém, apesar do interesse e atuação na área de HR Analytics estar em crescimento, poucas dessasinvestigações realizam trabalhos quantitativos ou experimentais [Marler and Boudreau 2016].

Baseado nisso, esta pesquisa tem como intuito contribuir para a área de HR Analytics com umaabordagem analítica por meio de um estudo exploratório de análise de dados em uma das principaisfrentes da gestão de RH, a seleção de pessoas. Nesse contexto, aplica-se uma metodologia de mineraçãode dados com o objetivo de otimizar o processo de seleção de pessoas em um caso de estudo investigado.

2. HR ANALYTICS

2.1 Seleção de pessoas

Seleção de pessoas possui um papel fundamental na gestão de RH, pois determina a qualidade deentrada do pessoal em uma organização. Ou seja, essa área é responsável por agregar competênciase talentos necessários para colaborar na busca por vantagem competitiva diante de um contextoaltamente complexo [da Silva Baylão and de Sousa Rocha 2014] [de Andrade Caxito 2012].

O processo de seleção consiste na tomada de decisão do candidato a ser escolhido para atuarem determinada função da organização. Ele tem função realizar uma comparação do padrão decaracterísticas dos candidatos com um referencial estabelecido para o processo de seleção. Esse rigorde escolha ocorre com o intuito de manter ou aumentar o desempenho do pessoal, para com issocolaborar com a eficácia da organização [da Silva Baylão and de Sousa Rocha 2014].

2.2 Mineração de dados

A mineração de dados consiste em uma série de técnicas que possuem diferentes abordagens parasolucionar problemas. De maneira geral, são métodos avançados de análise de dados utilizados paratrabalhar com variáveis em busca de padrões razoáveis [Han et al. 2012][Shmueli et al. 2016].

Os principais métodos utilizados para mineração de dados são a classificação, predição, regrasde associação, análise preditiva, redução de dados, visualização e exploração de dados, aprendizadosupervisionado e não supervisionado [Shmueli et al. 2016] [Shmueli et al. 2017].

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

181

Page 182: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

HR Analytics and Data Mining para Seleção de Pessoas - Applications Track · 3

2.3 Abordagens da mineração de dados

Diante da variedade de tarefas de mineração de dados, cada aplicação busca utilizar uma tarefaespecífica ou uma combinação de tarefas que possa melhor se adequar para resolução de sua questãolevantada na definição da proposta de mineração de dados. As abordagens de mineração de dadosdescrevem como o processo é conduzido. Ele pode ser conduzido por meio das abordagens top-downe bottom-up, como pode ser visto na figura 2 extraída de [da Costa Côrtes et al. 2002].

Fig. 2. Abordagens para aplicação da mineração de dados, extraída de [da Costa Côrtes et al. 2002].

A abordagem top-down funciona como um teste de hipótese, pois ela é utilizada quando há umaideia pré-concebida que se deseja confirmá-la ou refutá-la. Já a abordagem bottom-up funciona comouma busca de conhecimento, pois se inicia o processo com uma exploração de dados com o intuito dedescobrir padrões que sejam úteis ao conhecimento. Há também uma terceira abordagem chamadade híbrida que funciona como a combinação das duas [da Costa Côrtes et al. 2002].

3. APLICAÇÃO EM UM CASO REAL

Esta pesquisa utiliza uma estrutura de mineração de dados para recursos humanos baseada no modeloapresentado pela figura 3, que é voltado para processos de seleção de pessoas [Chien and Che 2006].Seu uso permite a extração de padrões sobre o conjunto de dados dos candidatos de um processo paraum melhor entendimento dos dados e suporte na tomada de decisão da seleção de pessoas.

3.1 Definição do problema e determinação dos objetivos

Este experimento é baseado em dados reais de uma OSC (Organização da Sociedade Civil) que atuacom ensino e assistência social. Segundo os membros da organização, a cada processo há mais inscritose fica mais difícil decidir na seleção apenas com as pontuações coletadas na dinâmica e entrevista.Como os recursos são limitados, eles só podem trabalhar com um número máximo de 55 estudantespara suas ações sociais. Ou seja, a seleção dos candidatos a serem escolhidos no processo deve serbem elaborada. Se essa elaboração não ocorrer de uma forma bem articulada, a tendência é tanto deaumentar o número de evasão do programa, como também de uma má realização de suas atividades.

A partir disso, tem-se como objetivo do negócio, tornar a seleção mais rápida e eficiente. Ouseja, determinar as principais métricas de avaliação e diminuir a subjetividade de escolha. Com isso,almeja-se melhorar a aderência dos candidatos selecionados de acordo com os objetivos da seleção, deforma que ele atenda com mais assertividade aos requisitos estipulados pela organização.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

182

Page 183: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

4 · I. A. N. Sousa and E. Spina

Fig. 3. Estrutura de mineração de dados para seleção de pessoas, baseado em [Chien and Che 2006].

3.2 Estrutura de mineração de dados para seleção de pessoas

Os atributos utilizados na análise se baseiam nas métricas adotadas no processo de seleção para avaliaros candidatos. Esses atributos correspondem com os resultados das etapas da dinâmica em grupo eda entrevista individual. Eles são obtidos por meio da pontuação gerada nessas etapas do processo deseleção. A partir disso, são obtidos 252 dados por meio da coleta advinda dos formulários preenchidospelos avaliadores no decorrer das etapas, e então ao fim do processo são transferidos para planilhas.

Na etapa da dinâmica em grupo, cada candidato recebe uma nota, de zero a cinco, e conta com asmétricas de avaliação: Iniciativa (Initiative), Organização (Organization), Trabalho em equipe (Team

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

183

Page 184: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

HR Analytics and Data Mining para Seleção de Pessoas - Applications Track · 5

work), Motivação (Motivation), Comprometimento (Commitment) e Comunicação (Communication).Nessa etapa, ele pode ser A (Aprovado) ou R (Reprovado) pelo avaliador. Na etapa da entrevistaindividual são praticamente as mesmas métricas, com exceção da Iniciativa. E então, pode ser A(Aprovado), R (Reprovado), ou sujeito a V (Verificação) para deixar a decisão do status de aprovaçãodo candidato para o fim do processo.

Na entrevista, há uma métrica singular da Assiduidade (Attendance), porém ela é isolada e nãocontribui na geração da pontuação para seleção dos candidatos, apenas contribui como peso de decisãonos desempates. Essa métrica é gerada por meio de uma pergunta simples e direta sobre a participaçãode cada candidato no programa. Ela é categorizada pelo avaliador, com as opções de resposta:

—A: candidatos que têm certeza de que irão para o final e absolutamente não faltarão;—B: candidatos que pensam que vão até o fim, mas talvez venham a faltar algum dia;—C: candidatos que não têm muita certeza se irão até o final.

A tabela do processo seletivo utilizada para a pesquisa não estava em uma formatação adequada.Portanto, realiza-se uma estruturação desses dados para transformação em dados prontos para análise.Nisso, são aplicadas técnicas de limpeza para dados faltantes, como a estimação pela média de valoresdos dados que devem estar presente em cada local baseado nos dados anteriores e posteriores. Tambémsão excluídas as linhas de dados quando quase todos os dados da linha se encontram faltantes.

A construção do modelo da investigação é conduzido segundo uma abordagem bottom-up. Ou seja,busca-se analisar os dados sobre a seleção, explorar seu comportamento e extrair padrões que possammelhorar o processo. A fase de análise e avaliação do modelo é a responsável pela revisão e avaliaçãodo modelo elaborado para confirmação da sua validade para o momento de extração de conhecimento.Nesta investigação, são realizadas análises à respeito de dois objetivos para obtenção de conhecimento:busca por padrões não óbvios e a confirmação de hipóteses existentes. A fase da interpretação eextração de conhecimento consiste na extração de conhecimento dos modelos analisados. Os resultadosda mineração de dados são avaliados e interpretados para viabilizar a confirmação do conhecimentoextraído. Por fim, finaliza-se a aplicação da estrutura de mineração com o uso do conhecimentoadquirido. Esse conhecimento pode ser a base de suporte para tomadas de decisão da organização eser usado para gerar estratégias para o processo de seleção.

4. MINERAÇÃO DE DADOS E CONSTRUÇÃO DO MODELO

Na construção do modelo, busca-se primeiramente compreender o comportamento dos dados em re-lação a uma variável-chave em um processo de seleção, o status de aprovação. Pode-se observar queem ambas as distribuições das figuras 4 e 5, o status de aprovação tende a ser maior em valores depontuação mais altos, mas apesar disso, alguns candidatos com pontuações mais baixas ainda sãoaprovados. Nota-se na entrevista individual, que o padrão de distribuição dos candidatos aprovados edos sujeitos à Verificação é bastante semelhante, podendo até tornar-se o mesmo parâmetro.

Para explorar o porquê alguns candidatos com notas mais baixas são aprovados, utiliza-se a técnicado Agrupamento. Por meio dessa técnica, candidatos com pontuações de métricas semelhantes sãoagrupados e grupos com pontuações diferentes são divididos. A divisão desses agrupamentos daspontuações das características dos candidatos resulta nos grupos representados pela figura 6. Osgrupos não-destacados (em branco) são compostos em sua totalidade pelos candidatos aprovados. Ogrupo destacado em azul representa os candidatos reprovados em sua totalidade. Já o grupo destacadoem vermelho representa os candidatos amplamente reprovados, mas com algumas aprovações em suacomposição. A partir disso, verifica-se que o grupo vermelho representa candidatos que possuemcaracterísticas semelhantes de reprovação, mas que apesar disso, tem alguns candidatos bem sucedidos.Ou seja, o grupo vermelho possui no geral candidatos com pontuações semelhantes de reprovação nasmétricas contabilizadas mas que por algum motivo são aprovados pelos avaliadores.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

184

Page 185: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

6 · I. A. N. Sousa and E. Spina

Fig. 4. Distribuição da pontuação da Dinâmicaem grupo em relação ao status.

Fig. 5. Distribuição da pontuação da EntrevistaIndividual em relação ao status.

Fig. 6. Agrupamento pelas pontuações das métricas.

Para explorar o porquê dessas aprovações, busca-se saber no agrupamento vermelho o que difere oscandidatos aprovados dos demais. Para isso, realiza-se um ranking das métricas que trazem o maiorganho de informação (information gain) para a análise de aprovação, sendo que a medida usada éa quantidade de ganho de informação. Os resultados obtidos trazem a resposta de quais métricaspossuem o maior peso na avaliação. Na dinâmica em grupo, o maior ganho de informação vemdo Trabalho em equipe, depois da Comunicação e Iniciativa. Na entrevista individual, ele vem doComprometimento, seguido pela Motivação e Trabalho em Equipe, expresso pela figura 7.

Na análise do quanto esses candidatos bem sucedidos diferem dos demais, o gráfico de disper-são é utilizado para verificar qual é a relação entre esses candidatos e as pontuações de cada umadas métricas avaliadas. Ao verificar cada item, nota-se que aqueles que oferecem maiores valores deComprometimento ou Trabalho em Equipe, apesar de terem características predominantemente seme-lhantes aos reprovados, possuem maior probabilidade de serem aprovados na seleção. Como a métricaComprometimento é a que traz o maior ganho de informação, analisa-se, por meio do agrupamento

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

185

Page 186: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

HR Analytics and Data Mining para Seleção de Pessoas - Applications Track · 7

Fig. 7. Rankeamento do ganho de informação das métricas.

vermelho, o gráfico da dispersão dos candidatos aprovados em relação às suas pontuações, apresen-tado pela figura 8. Este gráfico indica que candidatos com maiores pontuações de Comprometimento,mesmo tendo várias semelhanças com outros reprovados, conseguiram aprovação.

Fig. 8. Gráfico de dispersão da pontuação pela aprovação da métrica de comprometimento.

Por fim, utiliza-se uma árvore de decisão para classificar os candidatos que respondem mais posi-tivamente à pergunta final sobre o desejo de comparecer de forma assídua ao programa de formação.Nota-se então, que os candidatos que tiveram a maior taxa de aprovação em todas as etapas doprocesso foram aqueles que tiveram o maior nível de Assiduidade nessa pergunta, visto pela figura 9.

Fig. 9. Árvore de decisão da porcentagem de aprovação pelo nível de Assiduidade dos candidato.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

186

Page 187: Proceedings of the 6th Symposium on Knowledge Discovery ... · Cerri, Andr e Luis Debiaso Rossi (Eds.) 6th SYMPOSIUM ON KNOWLEDGE DISCOVERY, MINING AND LEARNING October 22 to 25,

8 · I. A. N. Sousa and E. Spina

5. CONCLUSÕES

Percebe-se na revisão teórica que apesar de haver um crescimento de pesquisas na área de HR Analy-tics, poucos dos estudos são empíricos. Nesta pesquisa, busca-se contribuir com uma investigaçãoquantitativa da mineração de dados aplicada ao contexto de HR Analytics. Para isso, busca-se inves-tigar uma das áreas mais prioritárias da gestão de RH, que é o processo de seleção de pessoas, poisele quem define as qualidades e competências do pessoal que vai fazer parte da organização.

A experiência dos membros da organização coloca a métrica Assiduidade como isolada e últimamétrica a ser analisada de maneira categórica. Os resultados analíticos provam que essa métrica trazbastante assertividade ao processo, pois corresponde com uma relação proporcional com a taxa deaprovação, mesmo sem utilizar essa métrica na geração da pontuação do processo.

Os resultados da mineração de dados proporcionam a construção de um modelo que utiliza métricascomo Comprometimento, Trabalho em equipe e Assiduidade como métricas de influência na Aprovaçãoe Reprovação dos candidatos. Por sua importância, percebe-se que é possível colocar um peso maiorpara essas métricas na avaliação. Essa proposta faz com que os avaliadores sejam mais criteriosos aojulgar tais métricas e com isso podem aumentar sua representatividade na geração da pontuação final.

O conhecimento das principais métricas de seleção é incorporado ao processo dessa organização comofator de suporte na seleção dos candidatos. Desta forma, tem-se destacado quais métricas colaboramde maneira mais efetiva como apoio na tomada de decisão, já que foram obtidas baseado no históricoquantitativo de classificação dos candidatos. Assim sendo, essa pesquisa traz como contribuição paraum processo de seleção, não necessariamente só de pessoas, que buscar encontrar as métricas que maispesam em uma seleção é encontrar uma forma mais ótima de tomar decisões.

Para finalizar, por meio da aplicação da metodologia de mineração de dados no processo de seleçãoinvestigado, percebe-se que o uso de técnicas analíticas colabora com a otimização do processo pormeio da descoberta de padrões não óbvios. Essa consolidação de conhecimento também pode serusada para melhorar outas atividades de gestão em organizações. Para trabalhos futuros, podemser realizadas novas análises em processos de seleção, não apenas de seleção de pessoas para entradana organização, mas também de várias outras áreas da atuação do HR Analytics, como seleção parapromoção ou demissão. Pode ser feito também como trabalho futuro o estudo em outros processos deseleção para refinamento do modelo de forma a melhorar ainda mais a tomada de decisão.

REFERENCES

Chien, C.-F. and Che, L.-F. Data mining to improve personnel selection and enhance human capital: A case study inhigh-technology industry, 2006.

da Costa Côrtes, S., Porcaro, R. M., and Lifschitz, S. Mineração de dados: Fncionalidades, técnicas e abordagens,2002.

da Silva Baylão, A. L. and de Sousa Rocha, A. P. A importância do processo de recrutamento e seleção de pessoalna organização empresarial, 2014.

de Andrade Caxito, F. Recrutamento e Seleção de Pessoas, 2012.Dulebohn, J. H. and Johnson, R. D. Human resource metrics and decision support: A classification framework, 2013.Han, J., Kamber, M., and Pei, J. Data mining: concepts and techniques, 2012.Marler, J. H. and Boudreau, J. W. An evidence-based review of hr analytics, 2016.Shmueli, G., Bruce, P., Yahav, I., Patel, N., and Lichtendahl, K. Data mining for business analytics: Concepts,techniques, and applications in r, 2017.

Shmueli, G., Bruce, P. C., Yahav, I., Patel, N. R., and Kenneth C. Lichtendahl, J. Data Mining for BusinessAnalytics: Concepts, Techniques, and Applications, 2016.

Strohmeier, S. and Piazza, F. Domain driven data mining in human resource management: A review of currentresearch, 2012.

Symposium on Knowledge Discovery, Mining and Learning, KDMILE 2018 - Applications Track.

6th KDMiLe – Proceedings October 22-25, 2017 – Sao Paulo, SP, Brazil

187


Recommended