+ All Categories
Home > Documents > Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Date post: 05-Jan-2016
Category:
Upload: reslley-gabriel-oliveira-silva
View: 215 times
Download: 0 times
Share this document with a friend
Popular Tags:
28
Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies UFU/FACOM - RECONHECIMENTO DE PADRÕES - 2014/1 RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL
Transcript
Page 1: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and

Feature Selection Strategies

UFU/FACOM - RECONHECIMENTO DE PADRÕES - 2014/1

RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL

Page 2: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

IntroduçãoObjeto de estudo

Classificação de dados em bases biológicas

• Expressão Gênica

• Microarray

• Base NCI60

• Bioinformática

Page 3: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

IntroduçãoProblema

Dificuldade de classificação e geração de conhecimento de alto nível

• Alta dimensionalidade

• Classificadores tipo caixa-preta

• Compreensibilidade e Interpretabilidade

Page 4: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

IntroduçãoAbordagem proposta

Ambiente evolucionário híbrido

• Técnicas de Aprendizado de Máquina

• Seleção de Atributos (Weka)

• Algoritmos Genéticos (AGs)

• Regras IF-THEN

Page 5: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Base de dados•NCI60 Cancer Microarray Project

2 – Sistema Nervoso Central

8 - Ovário

4 - Leucemia

5 - Renal

6 - Melanoma

7 - Pulmão

1 - Mama

9 – Células Reprodutivas

3 - Cólon

Page 6: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Base de dados

Page 7: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx
Page 8: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Descrição do Método

Definição dos parâmetros

genéticos

Módulo de configuração

Page 9: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx
Page 10: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Descrição do Método

Seleção de atributos no Weka

Geração da população inicial

Evolução do AG

Page 11: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Descrição do Método

Operações genéticas

Geração das regras

Page 12: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Descrição do Método

Validação

Armazenamento e

apresentação dos resultados

Page 13: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx
Page 14: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Algoritmo Genético

Representação do indivíduo

Page 15: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Algoritmo Genético Função de aptidão

Como avaliar um indivíduo ?

True Positive (tp) Resultado = Sim x Realidade = SimFalse Positive (fp) Resultado = Sim x Realidade = NãoTrue Negative (tn) Resultado = Não x Realidade = NãoFalse Negative (fn) Resultado = Não x Realidade = Sim

Page 16: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Algoritmo Genético

Sensibilidade (Acertos positivos): quando a regra diz uma amostra é de uma dada classe, e o dataset confirma isso.

Especificidade (Acertos negativos): quando a regra diz uma amostra não é de uma dada classe, e o dataset confirma isso.

Aptidão: função de fitness que avalia um dado indivíduo.

Função de aptidão

Page 17: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Seleção de AtributosMétodos empregados:

• Chi-Squared• Information gain• Gain ratio

Page 18: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Seleção de AtributosChi-Squared Uma medição estatística para comparar cada valor observado com um

valor esperado:

Se toma uma amostra aleatória para provar as hipóteses propostas.

Se compara o valor obtido contra o máximo valor aceito na distribuição chi-squared e se avalia a hipótese.

Page 19: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Seleção de AtributosInformation gain

Uma medição estatística que emprega a entropia da informação dos dados:

Neste cenário, se empregam os atributos.

A ideia final é obter informação sobre a entropia total para cada atributo

Page 20: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Seleção de AtributosGain ratio

Pode ser obtido dividindo o IG entre a seguinte expressão:

Que se conhece como o valor intrínseco do calculo.

O ratio permite fazer um bias contra atributos que tem intervalos de valores muito grandes. Em uma arvore aqueles que estão perto da raiz tem menos entropia.

Page 21: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Análise dos resultadosAjuste do Ambiente Evolutivo

• 50 gerações• 200 indivíduos• 50 genes• Chi-squared• Torneio Estocástico de tour 3• Crossover duplo com probabilidade de 100%• Mutação com taxa de 30% • Elitismo

Page 22: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Análise dos resultadosCaracterísticas das Regras geradas

Em média 5 genes por regra

Aptidão média de 75%

Interpretabilidade e precisão

Page 23: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx
Page 24: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Análise dos resultadosComparação de resultados contra outros algoritmos tradicionais em problemas de classificação:

•PART•J48•Naive Bayes•Random Forest • IBK

Page 25: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Análise dos resultados

Page 26: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Análise dos resultados• Caixa pretaNaive Bayes• Caixa pretaIBK• Árvore com 25 níveis e 13 folhasJ48• 10 ÁrvoresRandom Forest• 10 RegrasPART• 9 Regras, com em média 5 genesHEE

Page 27: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Conclusão O método proposto apresentou resultados que conseguiram balancear acurácia e interpretabilidade, gerando regras e conhecimento de alto nível.

Page 28: Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and Feature Selection Strategies.pptx

Obrigado!

Dúvidas?


Recommended