Date post: | 21-Feb-2023 |
Category: |
Documents |
Upload: | independent |
View: | 0 times |
Download: | 0 times |
UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO
CURSO: BACHARELADO EM SISTEMAS DE INFORMAÇÃO
DISCENTE: LUANA PEREIRA BARRETO
RAIMUNDO LEANDRO ANDRADE MARQUES
PAULO HENRIQUE DE MORAIS
Mineração de dados para padrões de Classificação
Angicos /RN
09 de julho de 2014
Sumário
1. Introdução ................................................................................................. 3
1.1 Base de dados Breast Cancer ................................................................... 3
1.2 Base de dados Dermatology ..................................................................... 3
1.3 Base de dados Echocardiogram ............................................................... 4
1.4 Base de dados Ecoli .................................................................................. 4
1.5 Base de dados Glass ................................................................................. 4
1.6 Base de dados Heart Disease ................................................................... 4
1.7 Base de dados Ionosphere........................................................................ 4
1.8 Base de dados Musk ................................................................................. 5
1.9 Base de dados Page Blocks ...................................................................... 5
1.10 Base de dados Segmentation ................................................................... 5
1.11 Base de dados Sonar ................................................................................ 5
1.12 Base de dados Spambase ......................................................................... 6
1.13 Base de dados Vehicle .............................................................................. 6
1.14 Base de dados Yeast ................................................................................. 6
1.15 Base de dados Bands................................................................................ 6
2. Descrição do problema e Base de Dados ................................................. 7
2.1. Divisão das bases ..................................................................................... 7
2.2. Pré-processamento ................................................................................... 8
3. Resultados e Análise das Avaliações ....................................................... 8
3.1. Taxa de Porcentagem Correta usando o método de Redes Neurais ........ 9
3.2. Taxa de porcentagem correta ................................................................. 10
4. Conclusão.......................................................................................................12
5. Bibliografia.............................................................................................................14
1. Introdução
Esse trabalho aborda a utilização da mineração de dados, para
solucionar o problema de organização do constante fluxo de informações que
surgem diariamente. Com esse volume cada vez maior, torna-se trabalhoso
visualizar ou extrair informações e transformar os dados em conhecimento, que
otimizam a análise de padrões históricos para se conseguir uma previsão dos
fatos futuros.
As bases de dados são apresentadas abaixo, onde podemos observar
as seguintes informações:
Descrição do problema,
Relevância do problema,
Frequência da ocorrência do problema,
Dados disponíveis,
A descrição da variável, quando possível.
1.1 Breast Cancer
Uma técnica de captar características de uma imagem digitalizada de
pacientes com câncer de mama, para diagnosticar o tipo de câncer de mama.
Existem duas possíveis classes observadas pela técnica de mineração de
dados benigno ou maligno. Baseado na análise citopatológica de amostras de
célula da mama de pacientes, pode se identificar em qual estagio o câncer se
encontra, podendo agilizar o tratamento. Informações adicionais na Tabela 1.
1.2 Dermatology
Essa base de dados tem como função captar informações dos exames
histopatológicos determinados por análise das amostras microscópica sobre
doenças para identificar qual o tipo da doença (psoríase e dermatite
seborreica), Infelizmente essa doença em seu estágio inicial possui as mesmas
características clinicas dificultando os resultados dos exames. A captação das
informações também requer de um conjunto de dados com informações sobre
o histórico familiar do paciente, é atribuído o valor 1 se paciente possui ao
menos um caso da doença na família e 0 caso contrário. Essa base refere-se
a 26 atributos clínicos considerado no diagnóstico de afecções dermatológicos.
Informações adicionais na Tabela 1.
1.3 Echocardiogram
Essa base de dados capta informações sobre pacientes que já
sofreram ataques do coração, os pacientes são submetidos a um exame de
ecocardiograma, para identificar se a sobrevida do paciente é superior a 1 ano
ou não. Informações adicionais na Tabela 1.
1.4 Ecoli
Base de dados de classificação para provê estudo biológico molecular
e celular, observando a presença de carga em N-terminal de lipoproteínas,
identificando o local de proteínas periplasmáticas. Informações adicionais na
Tabela 1.
1.5 Glass
Um estudo da classificação dos tipos de vidro, para determinar se o
vidro é flutuante ou não. Esse levantamento de informações foi motivado por
investigações criminológicas, na cena do crime, o vidro quebrado pode ser
usado como prova, se identificado corretamente. Informações adicionais na
Tabela 1.
1.6 Heart Disease
Essa base de dados recolhe informações sobre a doença cardiovascular, Os
exames são captados por sinais eletrocardiograma possuindo características
especificas de acordo com os tipos de arritmias e sua classificação depende da
morfologia do sinal. Podendo haver vários padrões da síndrome que é extremamente
prejudicial para os pacientes. Informações adicionais na Tabela 1.
1.7 Ionosphere
São observados os padrões descobertos regiões de alta atmosfera
onde existe Íons e elétrons em quantidade suficiente para afetar a propagação
das ondas de rádio. A cintilação ionosférica é causada pelas irregularidades
ionosféricas, este fenômeno afeta os sistemas de telecomunicações e os
sistemas de navegação aérea orientada por satélites e de posicionamento
preciso. A base é composta de 351 instâncias com 34 atributos mais a classe a
qual pertence, os atributos são o número de pulsos detectados no radar.
Informações adicionais na Tabela 1.
1.8 Musk
Este conjunto de dados descreve um conjunto de 92 moléculas, dos
quais 47 são julgados por especialistas humanos para serem almíscares e os
restantes 45 moléculas são julgadas não-almíscares. O objetivo é aprender a
prever se novas moléculas será almíscares ou não almíscares. No entanto, as
características 166 que descrevem essas moléculas depender da forma exata,
ou conformação, da molécula. Vez que as obrigações pode girar, uma única
molécula pode adotar muitas formas diferentes. Para gerar este conjunto de
dados, as conformações de baixa energia do que as moléculas foram gerados
e, em seguida, filtrada para remover as conformações altamente semelhantes.
Isso deixou 476 conformações. Então, um vetor de características foi extraído
que descreve cada conformação. Informações adicionais na Tabela 1.
1.9 Page Blocks
Esse conjunto de dados tem sido usado para experimentar diferentes
métodos de simplificação. O problema consiste em classificar todos os blocos
da página, Um passo importante é separar o texto de áreas gráficas e com
efeitos. Sendo necessário verificar todas as instancias para que haja um baixo
ruído nos dados catalogados. Informações adicionais na Tabela 1.
1.10 Segmentation
Base de dados de segmentação de imagem subdivide uma imagem em
regiões ou objetos que a compõem; nível de detalhe depende do problema.
Segmentação para quando objetos de interesse ao problema são detectados.
criada para classificar cada pixel, a separação dos pixeis relativos a cada
objeto, ou região, é uma etapa fundamental para o sucesso do processo de
análise da imagem. Informações adicionais na Tabela 1.
1.11 Sonar
Conjunto de dados usado para classificação dos sinais sonoros, o
objetivo é descriminar entre sinais, sonoro saltado fora de um cilindro de metal
e o de uma rocha. O conjunto de dados contém sinais obtidos a partir de uma
variedade de diferentes ângulos. O rótulo associado a cada registro contém a
letra "R" se o objeto É uma rocha e "M" se for uma mina (cilindro de metal).
Este conjunto de dados pode ser usado de várias maneiras diferentes para
testar a aprendizagem, velocidade, qualidade de aprendizagem final,
capacidade de generalização, ou combinações. Informações adicionais na
Tabela 1.
1.12 Spambase
Essa base determina se um e-mail é spam ou não. O conceito de
“Spam” é diverso: anúncios de produtos, sites na web de ganhar dinheiro,
esquemas rápidos, correntes, pornografia. Os próprios usuárias são
responsáveis por habilitar os conteúdos como spam já os não-spam vieram de
trabalhos pesquisado e e-mails pessoais. Se o e-mail foi considerado spam é
atribuído o valor 1 se não o valor 0. Informações adicionais na Tabela 1.
1.13 Vehicle
A base de dados tem como objetivo classificar um veículo de acordo
com as características da sua silhueta, os veículos são classificados em 4
classes(OPEL, SAAB, BUS, VAN). A base de dados é composta de 846
instâncias com 18 atributos que descrevem a silhueta do carro a partir de
medidas geométricas. Informações adicionais na Tabela 1.
1.14 Yeast
É uma base de dados que capta informações biológicas que esta
relacionada à classificação de funções de proteínas. Está base contém
microvetores de expressões e perfis filogenéticos. Informações adicionais na
Tabela 1.
1.15 Bands
Ferramentas de aprendizagem de máquina mostram a promessa
significativa para a aquisição de conhecimento, especialmente quando a
expertise humana é inadequada. Recentemente, os atrasos de processos
conhecidos como bandas cilindros em rotogravura foram substancialmente
mitigado usando regras de controle descobertos por indução de árvore de
decisão. Nosso trabalho exemplifica uma metodologia mais geral que
transforma a tarefa de aquisição de conhecimento a partir de um em que as
regras são diretamente suscitou de um especialista, para uma em que um
sistema de ensino é responsável pela geração de regra. As principais
responsabilidades do especialista humano são avaliar os méritos de regras
geradas, e para orientar a aquisição e classificação de dados necessários para
a indução da máquina.
Essas responsabilidades exigem o especialista para fazer o que um
especialista faz melhor: para exercer o seu conhecimento. Este parece ser um
ajuste mais natural para as capacidades de um especialista do que as
exigências das metodologias tradicionais que os especialistas enumeram
explicitamente as regras que eles empregam. Informações adicionais na
Tabela 1.
2. Descrição do problema e Base de Dados
2.1. Divisão das bases
As bases foram classificadas e expostas na Tabela 1 a seguir, resume
as principais características dessas bases. Nessa tabela, a segunda coluna
apresenta o conjunto de dados características, a terceira apresenta as
características dos atributos, a quarta contém as tarefas associadas, a quinta
os números de instancias, a sexta coluna o número de atributo, e a sexta
coluna os valores ausentes das bases estudadas.
Tabela 1 Descrição das bases de dados
Base de dados
Conjunto de dados
Características
Características de Atributo
Tarefas associadas
Número de instâncias
Número de atributos
Valores ausentes
Breast Cancer
Multivariado Real Classificação 569 32 Não
Dermatology Multivariada Categórico,
Integer Classificação 366 33 Sim
Echocardiograma
Multivariada Categórico interger,real
Classificação 132 12 Sim
Ecoli Multivariada Real Classificação 336 8 Não
Glass Multivariada Real Classificação 214 10 Não
Heart Diasease
Multivariada Categórico, integer real
Classificação 303 75 Sim
Ionosphere Multivariado Integer, real Classificação 351 34 Não
Musk Multivariado Número inteiro Classificação 476 168 Não
Page Blocks Multivariado Integer, real Classificação 5473 10 Não
Segmentation
Multivariado Real Classificação 2310 19 Não
Sonar Multivariado Real Classificação 208 60 N/D
Spambase Multivariado Integer, real Classificação 4601 57 Sim
Vehicle Multivariado Número inteiro Classificação 946 18 N/D
2.2. Pré-processamento
Essa fase inclui algumas operações de manipulação de dados, a
remoção de ruídos ou subcamadas, coletando informação que serão usadas na
captação de conhecimento. Posteriormente são decididas as estratégias usuais
para manusear os campos que não são necessários no processo posterior de
mineração de dados.
Foram selecionados nas 15 bases os dados que possuem informações
que são importantes para o estudo. Posteriormente foi realizado um tratamento
para assegurar a qualidade das informações representada pelos dados obtidos.
Foram utilizados os métodos k-nn, árvores de decisão, naive bayesian
learning e Redes Neurais.
A última etapa desde trabalho teve como foco a análise estatística dos
modelos construídos, que faz uso de um conjunto de funções estatísticas para
avaliação de classificadores e determinar o modelo de classificação mais
adequado.
3. Resultados e Análise das Avaliações
As tabelas 2 e 3 trazem as configurações utilizadas para cada um dos
métodos citados anteriormente. Foram utilizadas 39 configurações, com
objetivo encontrar aquela que melhor se adeque aos problemas.
Tabela 2 Configurações para K-NN, Arvores de decisão e Naive Bayes.
Código Configuração
KNN1 K-NN com k = 5 KNN2 K-NN com k = 7
KNN3 K-NN com k = 9
AD1 Arvore de decisão com poda e mínimo de padrões igual a 1 AD2 Arvore de decisão com poda e mínimo de padrões igual a 2
AD3 Arvore de decisão com poda e mínimo de padrões igual a 3
AD4 Arvore de decisão com poda e mínimo de padrões igual a 4 AD5 Arvore de decisão sem poda e mínimo de padrões igual a 1
AD6 Arvore de decisão sem poda e mínimo de padrões igual a 2
AD7 Arvore de decisão sem poda e mínimo de padrões igual a 3 AD8 Arvore de decisão sem poda e mínimo de padrões igual a 4
NB Naive Bayes com parametros em default
Yeast Multivariada Real Classificação 1484 8 Não
Bands Multivariada Categórico,real Classificação 512 39 Sim
Tabela 3 Configurações para redes neurais artificiais
Código Máximo de Iterações Taxa de Aprendizado Quantidade de neurônios
RN1 100 0.01 4
RN2 100 0.01 10 RN3 100 0.01 20
RN4 100 0.1 4
RN5 100 0.1 10 RN6 100 0.1 20
RN7 100 0.3 4
RN8 100 0.3 10 RN9 100 0.3 20
RN10 500 0.01 4
RN11 500 0.01 10 RN12 500 0.01 20
RN13 500 0.1 4
RN14 500 0.1 10 RN15 500 0.1 20
RN16 500 0.3 4
RN17 500 0.3 10
RN18 500 0.3 20 RN19 1000 0.01 4
RN20 1000 0.01 10
RN21 1000 0.01 20 RN22 1000 0.1 4
RN23 1000 0.1 10
RN24 1000 0.1 20 RN25 1000 0.3 4
RN26 1000 0.3 10
RN27 1000 0.3 20
3.1. Porcentagem Correta para as Redes Neurais
Na Tabela 4 são apresentados, os valores de porcentagem correta das
configurações de rede neural descritas na Tabela 3. A estimativa da acurácia
foi feita utilizando um método oferecido pela ferramenta WEKA chamado de
cross-validation (Santos & Azevedo, 2005). Este método apresenta maior
confiabilidade.
Os testes com as redes neurais foram feitos em duas etapas. Na
primeira, todas as redes classificaram as bases, usando o valor da semente
igual a 0. As configurações vencedoras, ou seja, aquelas que apresentaram
melhor porcentagem de acertos, foram então selecionadas para uma próxima
etapa, onde classificaram novamente as bases, dessa vez, utilizando os
seguintes valores de semente: 5, 7, 13, 23 e 42.
Tabela 4 Porcentagem de acerto utilizando redes Neurais
Nome da base Rede neural Resultado Valor da
semente
Bands RN11 77.90% 7
Breast Cancer RN1 96.41% 7
Ecoli RN9 88.01% 3
Glass RN27 70.25% 42
Vehicle RN15 84.19% 7
Yeast RN20 62.10% 7
Dermatology RN24 97.46% 42
Echo Cardiogram RN12 94.45% 3
Heart Disease RN3 57.92% 42
Ionospheret RN16 91.23% 13
Musk RN27 94.38% 7
Page Blocks RN24 90.99% 23
Segmentation RN21 75.90% 23
Sonar RN16 78.89% 23
Spambase RN12 87.66% 3
3.2. Porcentagem correta para KNN, Arvores de Decisão e Naive
Bayes
A Tabela 5 apresenta os resultados de porcentagem correta, usando
os métodos: arvores de decisão, KNN e Naive bayes. Outra vez, foi utilizado o
cross-validation para validação dos testes.
Tabela 5 Porcentagem de acerto utilizando utilizando KNN, Arvores de Decisão e Naive Bayes.
Base Configuração Resultado
Breast Cancer KNN1 95,88%
Dermatology NB 97,1%
Echocardiogram AD1 96,41%
Ecoli KNN3 88,41%
Heart Disease NB 76,6%
Glass AD3 68,93%
Yeast NB 60,54%
Vehicle AD5 73,5%
Sonar KNN1 82,28%
Ionosphere AD6 89,83%
Page Blocks AD4 90,94
Segmentation AD5 80,86%
Spambase NB 89,8%
Bands AD1 78.25%
Musk KNN1 83.68%
A tabela 6 apresenta as configurações mais adequadas para cada base
de dados. O número entre parênteses ao lado das configurações de rede
neural, está se referindo ao valor da semente usado para essa configuração.
Como podemos verificar através dessa tabela, as configurações de rede neural
se sobressaem em relação a outros métodos de classificação.
Através dela, também podemos observar que a base com maior
porcentagem de acertos foi a Dermatology, com 97,46%, e a base com pior
porcentagem foi a Yeast, com apenas 62,10%, ambas classificadas através de
redes neurais.
Tabela 6: Melhores configurações encontradas para cada base.
Base Configuração Resultado
Breast Cancer RN1 (7) 96.41%
Dermatology RN24 (42) 97.46%
Echocardiogram AD1 96,41%
Ecoli KNN3 88,41%
Heart Disease NB 76,6%
Glass RN27 (42) 70.25%
Yeast RN20 (7) 62.10%
Vehicle RN15 (7) 84.19%
Sonar KNN1 82,28%
Ionosphere RN16 (13) 91.23%
Page Blocks RN24 (23) 90.99%
Segmentation AD5 80,86%
Spambase NB 89,8%
Bands AD1 78.25%
Musk RN27 (7) 94.38%
4. Conclusão
De maneira resumida, como podemos verificar através do gráfico 1, para
as bases utilizadas nesse trabalho, as redes neurais apresentaram melhor
desempenho, sendo mais eficientes em classificar 53% delas, as arvores de
decisão ficaram em segundo lugar, com eficiência em 20% das bases, por
último, ficaram o KNN e o Naive Bayes, com apenas 13% de eficiência.
Gráfico 1: Eficiência dos métodos diante das bases examinadas.
Ainda que levem mais tempo para serem treinadas, é evidente a
superioridade das redes neurais diante de outros métodos. No entanto, ainda
não é possível determinar antecipadamente que ela será mesmo mais eficiente
que outro método para uma determinada base. O pesquisador deverá então
utilizar-se de sua experiência, para escolher que métodos que ele acha que
serão mais adequados ao problema que ele está tratando.
É preciso entender também, que alterando uma ou outra configuração do
método escolhido, poderão haver melhorias significativas, de modo que o
pesquisador deve testar quais os limiares de cada método, ou seja, o até que
ponto alterar uma determinada configuração vai melhorar o processo de
classificação. Esse é um processo custoso, mas satisfatório, quando a
configuração ideal para o problema que estamos trabalhando é encontrada.
0,53
0,20
0,13
0,13
Redes Neurais Arvores de Decisão KNN Nayve Baise
Bibliografia
ROBERTO, C. Um Estudo Sobre Mineração de Dados em Redes
Sociais. Universidade de Passo Fundo (UPF), Dezembro\2008 <http://mtc-
m18.sid.inpe.br/col/sid.inpe.br/mtc-m18%4080/2009/06.22.15.52/doc/publicacao.pdf >.
13\07\2014.
REZENDE, C,F,L. Mineração de Dados Aplicado à Análise e Predição de Cintilação
Ionosférica. INPE, 2009 <http://urlib.net/sid.inpe.br/mtc-m18@80/2009/06.22.15.52>
13\07\2014.