Mineração de dados para padrões de classificação

UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO

CURSO: BACHARELADO EM SISTEMAS DE INFORMAÇÃO

DISCENTE: LUANA PEREIRA BARRETO

RAIMUNDO LEANDRO ANDRADE MARQUES

PAULO HENRIQUE DE MORAIS

Mineração de dados para padrões de Classificação

Angicos /RN

09 de julho de 2014

Sumário

1. Introdução ................................................................................................. 3

1.1 Base de dados Breast Cancer ................................................................... 3

1.2 Base de dados Dermatology ..................................................................... 3

1.3 Base de dados Echocardiogram ............................................................... 4

1.4 Base de dados Ecoli .................................................................................. 4

1.5 Base de dados Glass ................................................................................. 4

1.6 Base de dados Heart Disease ................................................................... 4

1.7 Base de dados Ionosphere........................................................................ 4

1.8 Base de dados Musk ................................................................................. 5

1.9 Base de dados Page Blocks ...................................................................... 5

1.10 Base de dados Segmentation ................................................................... 5

1.11 Base de dados Sonar ................................................................................ 5

1.12 Base de dados Spambase ......................................................................... 6

1.13 Base de dados Vehicle .............................................................................. 6

1.14 Base de dados Yeast ................................................................................. 6

1.15 Base de dados Bands................................................................................ 6

2. Descrição do problema e Base de Dados ................................................. 7

2.1. Divisão das bases ..................................................................................... 7

2.2. Pré-processamento ................................................................................... 8

3. Resultados e Análise das Avaliações ....................................................... 8

3.1. Taxa de Porcentagem Correta usando o método de Redes Neurais ........ 9

3.2. Taxa de porcentagem correta ................................................................. 10

4. Conclusão.......................................................................................................12

5. Bibliografia.............................................................................................................14

1. Introdução

Esse trabalho aborda a utilização da mineração de dados, para

solucionar o problema de organização do constante fluxo de informações que

surgem diariamente. Com esse volume cada vez maior, torna-se trabalhoso

visualizar ou extrair informações e transformar os dados em conhecimento, que

otimizam a análise de padrões históricos para se conseguir uma previsão dos

fatos futuros.

As bases de dados são apresentadas abaixo, onde podemos observar

as seguintes informações:

Descrição do problema,

Relevância do problema,

Frequência da ocorrência do problema,

Dados disponíveis,

A descrição da variável, quando possível.

1.1 Breast Cancer

Uma técnica de captar características de uma imagem digitalizada de

pacientes com câncer de mama, para diagnosticar o tipo de câncer de mama.

Existem duas possíveis classes observadas pela técnica de mineração de

dados benigno ou maligno. Baseado na análise citopatológica de amostras de

célula da mama de pacientes, pode se identificar em qual estagio o câncer se

encontra, podendo agilizar o tratamento. Informações adicionais na Tabela 1.

1.2 Dermatology

Essa base de dados tem como função captar informações dos exames

histopatológicos determinados por análise das amostras microscópica sobre

doenças para identificar qual o tipo da doença (psoríase e dermatite

seborreica), Infelizmente essa doença em seu estágio inicial possui as mesmas

características clinicas dificultando os resultados dos exames. A captação das

informações também requer de um conjunto de dados com informações sobre

o histórico familiar do paciente, é atribuído o valor 1 se paciente possui ao

menos um caso da doença na família e 0 caso contrário. Essa base refere-se

a 26 atributos clínicos considerado no diagnóstico de afecções dermatológicos.

Informações adicionais na Tabela 1.

1.3 Echocardiogram

Essa base de dados capta informações sobre pacientes que já

sofreram ataques do coração, os pacientes são submetidos a um exame de

ecocardiograma, para identificar se a sobrevida do paciente é superior a 1 ano

ou não. Informações adicionais na Tabela 1.

1.4 Ecoli

Base de dados de classificação para provê estudo biológico molecular

e celular, observando a presença de carga em N-terminal de lipoproteínas,

identificando o local de proteínas periplasmáticas. Informações adicionais na

Tabela 1.

1.5 Glass

Um estudo da classificação dos tipos de vidro, para determinar se o

vidro é flutuante ou não. Esse levantamento de informações foi motivado por

investigações criminológicas, na cena do crime, o vidro quebrado pode ser

usado como prova, se identificado corretamente. Informações adicionais na

Tabela 1.

1.6 Heart Disease

Essa base de dados recolhe informações sobre a doença cardiovascular, Os

exames são captados por sinais eletrocardiograma possuindo características

especificas de acordo com os tipos de arritmias e sua classificação depende da

morfologia do sinal. Podendo haver vários padrões da síndrome que é extremamente

prejudicial para os pacientes. Informações adicionais na Tabela 1.

1.7 Ionosphere

São observados os padrões descobertos regiões de alta atmosfera

onde existe Íons e elétrons em quantidade suficiente para afetar a propagação

das ondas de rádio. A cintilação ionosférica é causada pelas irregularidades

ionosféricas, este fenômeno afeta os sistemas de telecomunicações e os

sistemas de navegação aérea orientada por satélites e de posicionamento

preciso. A base é composta de 351 instâncias com 34 atributos mais a classe a

qual pertence, os atributos são o número de pulsos detectados no radar.

Informações adicionais na Tabela 1.

1.8 Musk

Este conjunto de dados descreve um conjunto de 92 moléculas, dos

quais 47 são julgados por especialistas humanos para serem almíscares e os

restantes 45 moléculas são julgadas não-almíscares. O objetivo é aprender a

prever se novas moléculas será almíscares ou não almíscares. No entanto, as

características 166 que descrevem essas moléculas depender da forma exata,

ou conformação, da molécula. Vez que as obrigações pode girar, uma única

molécula pode adotar muitas formas diferentes. Para gerar este conjunto de

dados, as conformações de baixa energia do que as moléculas foram gerados

e, em seguida, filtrada para remover as conformações altamente semelhantes.

Isso deixou 476 conformações. Então, um vetor de características foi extraído

que descreve cada conformação. Informações adicionais na Tabela 1.

1.9 Page Blocks

Esse conjunto de dados tem sido usado para experimentar diferentes

métodos de simplificação. O problema consiste em classificar todos os blocos

da página, Um passo importante é separar o texto de áreas gráficas e com

efeitos. Sendo necessário verificar todas as instancias para que haja um baixo

ruído nos dados catalogados. Informações adicionais na Tabela 1.

1.10 Segmentation

Base de dados de segmentação de imagem subdivide uma imagem em

regiões ou objetos que a compõem; nível de detalhe depende do problema.

Segmentação para quando objetos de interesse ao problema são detectados.

criada para classificar cada pixel, a separação dos pixeis relativos a cada

objeto, ou região, é uma etapa fundamental para o sucesso do processo de

análise da imagem. Informações adicionais na Tabela 1.

1.11 Sonar

Conjunto de dados usado para classificação dos sinais sonoros, o

objetivo é descriminar entre sinais, sonoro saltado fora de um cilindro de metal

e o de uma rocha. O conjunto de dados contém sinais obtidos a partir de uma

variedade de diferentes ângulos. O rótulo associado a cada registro contém a

letra "R" se o objeto É uma rocha e "M" se for uma mina (cilindro de metal).

Este conjunto de dados pode ser usado de várias maneiras diferentes para

testar a aprendizagem, velocidade, qualidade de aprendizagem final,

capacidade de generalização, ou combinações. Informações adicionais na

Tabela 1.

1.12 Spambase

Essa base determina se um e-mail é spam ou não. O conceito de

“Spam” é diverso: anúncios de produtos, sites na web de ganhar dinheiro,

esquemas rápidos, correntes, pornografia. Os próprios usuárias são

responsáveis por habilitar os conteúdos como spam já os não-spam vieram de

trabalhos pesquisado e e-mails pessoais. Se o e-mail foi considerado spam é

atribuído o valor 1 se não o valor 0. Informações adicionais na Tabela 1.

1.13 Vehicle

A base de dados tem como objetivo classificar um veículo de acordo

com as características da sua silhueta, os veículos são classificados em 4

classes(OPEL, SAAB, BUS, VAN). A base de dados é composta de 846

instâncias com 18 atributos que descrevem a silhueta do carro a partir de

medidas geométricas. Informações adicionais na Tabela 1.

1.14 Yeast

É uma base de dados que capta informações biológicas que esta

relacionada à classificação de funções de proteínas. Está base contém

microvetores de expressões e perfis filogenéticos. Informações adicionais na

Tabela 1.

1.15 Bands

Ferramentas de aprendizagem de máquina mostram a promessa

significativa para a aquisição de conhecimento, especialmente quando a

expertise humana é inadequada. Recentemente, os atrasos de processos

conhecidos como bandas cilindros em rotogravura foram substancialmente

mitigado usando regras de controle descobertos por indução de árvore de

decisão. Nosso trabalho exemplifica uma metodologia mais geral que

transforma a tarefa de aquisição de conhecimento a partir de um em que as

regras são diretamente suscitou de um especialista, para uma em que um

sistema de ensino é responsável pela geração de regra. As principais

responsabilidades do especialista humano são avaliar os méritos de regras

geradas, e para orientar a aquisição e classificação de dados necessários para

a indução da máquina.

Essas responsabilidades exigem o especialista para fazer o que um

especialista faz melhor: para exercer o seu conhecimento. Este parece ser um

ajuste mais natural para as capacidades de um especialista do que as

exigências das metodologias tradicionais que os especialistas enumeram

explicitamente as regras que eles empregam. Informações adicionais na

Tabela 1.

2. Descrição do problema e Base de Dados

2.1. Divisão das bases

As bases foram classificadas e expostas na Tabela 1 a seguir, resume

as principais características dessas bases. Nessa tabela, a segunda coluna

apresenta o conjunto de dados características, a terceira apresenta as

características dos atributos, a quarta contém as tarefas associadas, a quinta

os números de instancias, a sexta coluna o número de atributo, e a sexta

coluna os valores ausentes das bases estudadas.

Tabela 1 Descrição das bases de dados

Base de dados

Conjunto de dados

Características

Características de Atributo

Tarefas associadas

Número de instâncias

Número de atributos

Valores ausentes

Breast Cancer

Multivariado Real Classificação 569 32 Não

Dermatology Multivariada Categórico,

Integer Classificação 366 33 Sim

Echocardiograma

Multivariada Categórico interger,real

Classificação 132 12 Sim

Ecoli Multivariada Real Classificação 336 8 Não

Glass Multivariada Real Classificação 214 10 Não

Heart Diasease

Multivariada Categórico, integer real

Classificação 303 75 Sim

Ionosphere Multivariado Integer, real Classificação 351 34 Não

Musk Multivariado Número inteiro Classificação 476 168 Não

Page Blocks Multivariado Integer, real Classificação 5473 10 Não

Segmentation

Multivariado Real Classificação 2310 19 Não

Sonar Multivariado Real Classificação 208 60 N/D

Spambase Multivariado Integer, real Classificação 4601 57 Sim

Vehicle Multivariado Número inteiro Classificação 946 18 N/D

2.2. Pré-processamento

Essa fase inclui algumas operações de manipulação de dados, a

remoção de ruídos ou subcamadas, coletando informação que serão usadas na

captação de conhecimento. Posteriormente são decididas as estratégias usuais

para manusear os campos que não são necessários no processo posterior de

mineração de dados.

Foram selecionados nas 15 bases os dados que possuem informações

que são importantes para o estudo. Posteriormente foi realizado um tratamento

para assegurar a qualidade das informações representada pelos dados obtidos.

Foram utilizados os métodos k-nn, árvores de decisão, naive bayesian

learning e Redes Neurais.

A última etapa desde trabalho teve como foco a análise estatística dos

modelos construídos, que faz uso de um conjunto de funções estatísticas para

avaliação de classificadores e determinar o modelo de classificação mais

adequado.

3. Resultados e Análise das Avaliações

As tabelas 2 e 3 trazem as configurações utilizadas para cada um dos

métodos citados anteriormente. Foram utilizadas 39 configurações, com

objetivo encontrar aquela que melhor se adeque aos problemas.

Tabela 2 Configurações para K-NN, Arvores de decisão e Naive Bayes.

Código Configuração

KNN1 K-NN com k = 5 KNN2 K-NN com k = 7

KNN3 K-NN com k = 9

AD1 Arvore de decisão com poda e mínimo de padrões igual a 1 AD2 Arvore de decisão com poda e mínimo de padrões igual a 2

AD3 Arvore de decisão com poda e mínimo de padrões igual a 3

AD4 Arvore de decisão com poda e mínimo de padrões igual a 4 AD5 Arvore de decisão sem poda e mínimo de padrões igual a 1

AD6 Arvore de decisão sem poda e mínimo de padrões igual a 2

AD7 Arvore de decisão sem poda e mínimo de padrões igual a 3 AD8 Arvore de decisão sem poda e mínimo de padrões igual a 4

NB Naive Bayes com parametros em default

Yeast Multivariada Real Classificação 1484 8 Não

Bands Multivariada Categórico,real Classificação 512 39 Sim

Tabela 3 Configurações para redes neurais artificiais

Código Máximo de Iterações Taxa de Aprendizado Quantidade de neurônios

RN1 100 0.01 4

RN2 100 0.01 10 RN3 100 0.01 20

RN4 100 0.1 4

RN5 100 0.1 10 RN6 100 0.1 20

RN7 100 0.3 4

RN8 100 0.3 10 RN9 100 0.3 20

RN10 500 0.01 4

RN11 500 0.01 10 RN12 500 0.01 20

RN13 500 0.1 4

RN14 500 0.1 10 RN15 500 0.1 20

RN16 500 0.3 4

RN17 500 0.3 10

RN18 500 0.3 20 RN19 1000 0.01 4

RN20 1000 0.01 10

RN21 1000 0.01 20 RN22 1000 0.1 4

RN23 1000 0.1 10

RN24 1000 0.1 20 RN25 1000 0.3 4

RN26 1000 0.3 10

RN27 1000 0.3 20

3.1. Porcentagem Correta para as Redes Neurais

Na Tabela 4 são apresentados, os valores de porcentagem correta das

configurações de rede neural descritas na Tabela 3. A estimativa da acurácia

foi feita utilizando um método oferecido pela ferramenta WEKA chamado de

cross-validation (Santos & Azevedo, 2005). Este método apresenta maior

confiabilidade.

Os testes com as redes neurais foram feitos em duas etapas. Na

primeira, todas as redes classificaram as bases, usando o valor da semente

igual a 0. As configurações vencedoras, ou seja, aquelas que apresentaram

melhor porcentagem de acertos, foram então selecionadas para uma próxima

etapa, onde classificaram novamente as bases, dessa vez, utilizando os

seguintes valores de semente: 5, 7, 13, 23 e 42.

Tabela 4 Porcentagem de acerto utilizando redes Neurais

Nome da base Rede neural Resultado Valor da

semente

Bands RN11 77.90% 7

Breast Cancer RN1 96.41% 7

Ecoli RN9 88.01% 3

Glass RN27 70.25% 42

Vehicle RN15 84.19% 7

Yeast RN20 62.10% 7

Dermatology RN24 97.46% 42

Echo Cardiogram RN12 94.45% 3

Heart Disease RN3 57.92% 42

Ionospheret RN16 91.23% 13

Musk RN27 94.38% 7

Page Blocks RN24 90.99% 23

Segmentation RN21 75.90% 23

Sonar RN16 78.89% 23

Spambase RN12 87.66% 3

3.2. Porcentagem correta para KNN, Arvores de Decisão e Naive

Bayes

A Tabela 5 apresenta os resultados de porcentagem correta, usando

os métodos: arvores de decisão, KNN e Naive bayes. Outra vez, foi utilizado o

cross-validation para validação dos testes.

Tabela 5 Porcentagem de acerto utilizando utilizando KNN, Arvores de Decisão e Naive Bayes.

Base Configuração Resultado

Breast Cancer KNN1 95,88%

Dermatology NB 97,1%

Echocardiogram AD1 96,41%

Ecoli KNN3 88,41%

Heart Disease NB 76,6%

Glass AD3 68,93%

Yeast NB 60,54%

Vehicle AD5 73,5%

Sonar KNN1 82,28%

Ionosphere AD6 89,83%

Page Blocks AD4 90,94

Segmentation AD5 80,86%

Spambase NB 89,8%

Bands AD1 78.25%

Musk KNN1 83.68%

A tabela 6 apresenta as configurações mais adequadas para cada base

de dados. O número entre parênteses ao lado das configurações de rede

neural, está se referindo ao valor da semente usado para essa configuração.

Como podemos verificar através dessa tabela, as configurações de rede neural

se sobressaem em relação a outros métodos de classificação.

Através dela, também podemos observar que a base com maior

porcentagem de acertos foi a Dermatology, com 97,46%, e a base com pior

porcentagem foi a Yeast, com apenas 62,10%, ambas classificadas através de

redes neurais.

Tabela 6: Melhores configurações encontradas para cada base.

Base Configuração Resultado

Breast Cancer RN1 (7) 96.41%

Dermatology RN24 (42) 97.46%

Echocardiogram AD1 96,41%

Ecoli KNN3 88,41%

Heart Disease NB 76,6%

Glass RN27 (42) 70.25%

Yeast RN20 (7) 62.10%

Vehicle RN15 (7) 84.19%

Sonar KNN1 82,28%

Ionosphere RN16 (13) 91.23%

Page Blocks RN24 (23) 90.99%

Segmentation AD5 80,86%

Spambase NB 89,8%

Bands AD1 78.25%

Musk RN27 (7) 94.38%

4. Conclusão

De maneira resumida, como podemos verificar através do gráfico 1, para

as bases utilizadas nesse trabalho, as redes neurais apresentaram melhor

desempenho, sendo mais eficientes em classificar 53% delas, as arvores de

decisão ficaram em segundo lugar, com eficiência em 20% das bases, por

último, ficaram o KNN e o Naive Bayes, com apenas 13% de eficiência.

Gráfico 1: Eficiência dos métodos diante das bases examinadas.

Ainda que levem mais tempo para serem treinadas, é evidente a

superioridade das redes neurais diante de outros métodos. No entanto, ainda

não é possível determinar antecipadamente que ela será mesmo mais eficiente

que outro método para uma determinada base. O pesquisador deverá então

utilizar-se de sua experiência, para escolher que métodos que ele acha que

serão mais adequados ao problema que ele está tratando.

É preciso entender também, que alterando uma ou outra configuração do

método escolhido, poderão haver melhorias significativas, de modo que o

pesquisador deve testar quais os limiares de cada método, ou seja, o até que

ponto alterar uma determinada configuração vai melhorar o processo de

classificação. Esse é um processo custoso, mas satisfatório, quando a

configuração ideal para o problema que estamos trabalhando é encontrada.

0,53

0,20

0,13

0,13

Redes Neurais Arvores de Decisão KNN Nayve Baise

Bibliografia

ROBERTO, C. Um Estudo Sobre Mineração de Dados em Redes

Sociais. Universidade de Passo Fundo (UPF), Dezembro\2008 <http://mtc-

m18.sid.inpe.br/col/sid.inpe.br/mtc-m18%4080/2009/06.22.15.52/doc/publicacao.pdf >.

13\07\2014.

REZENDE, C,F,L. Mineração de Dados Aplicado à Análise e Predição de Cintilação

Ionosférica. INPE, 2009 <http://urlib.net/sid.inpe.br/mtc-m18@80/2009/06.22.15.52>

13\07\2014.

Date post:	21-Feb-2023
Category:	Documents
Upload:	independent
View:	0 times
Download:	0 times

Mineração de dados para padrões de classificação

Documents