Date post: | 05-Jan-2016 |
Category: |
Documents |
Upload: | reslley-gabriel-oliveira-silva |
View: | 215 times |
Download: | 0 times |
Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and
Feature Selection Strategies
UFU/FACOM - RECONHECIMENTO DE PADRÕES - 2014/1
RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL
IntroduçãoObjeto de estudo
Classificação de dados em bases biológicas
• Expressão Gênica
• Microarray
• Base NCI60
• Bioinformática
IntroduçãoProblema
Dificuldade de classificação e geração de conhecimento de alto nível
• Alta dimensionalidade
• Classificadores tipo caixa-preta
• Compreensibilidade e Interpretabilidade
IntroduçãoAbordagem proposta
Ambiente evolucionário híbrido
• Técnicas de Aprendizado de Máquina
• Seleção de Atributos (Weka)
• Algoritmos Genéticos (AGs)
• Regras IF-THEN
Base de dados•NCI60 Cancer Microarray Project
2 – Sistema Nervoso Central
8 - Ovário
4 - Leucemia
5 - Renal
6 - Melanoma
7 - Pulmão
1 - Mama
9 – Células Reprodutivas
3 - Cólon
Base de dados
Descrição do Método
Definição dos parâmetros
genéticos
Módulo de configuração
Descrição do Método
Seleção de atributos no Weka
Geração da população inicial
Evolução do AG
Descrição do Método
Operações genéticas
Geração das regras
Descrição do Método
Validação
Armazenamento e
apresentação dos resultados
Algoritmo Genético
Representação do indivíduo
Algoritmo Genético Função de aptidão
Como avaliar um indivíduo ?
True Positive (tp) Resultado = Sim x Realidade = SimFalse Positive (fp) Resultado = Sim x Realidade = NãoTrue Negative (tn) Resultado = Não x Realidade = NãoFalse Negative (fn) Resultado = Não x Realidade = Sim
Algoritmo Genético
Sensibilidade (Acertos positivos): quando a regra diz uma amostra é de uma dada classe, e o dataset confirma isso.
Especificidade (Acertos negativos): quando a regra diz uma amostra não é de uma dada classe, e o dataset confirma isso.
Aptidão: função de fitness que avalia um dado indivíduo.
Função de aptidão
Seleção de AtributosMétodos empregados:
• Chi-Squared• Information gain• Gain ratio
Seleção de AtributosChi-Squared Uma medição estatística para comparar cada valor observado com um
valor esperado:
Se toma uma amostra aleatória para provar as hipóteses propostas.
Se compara o valor obtido contra o máximo valor aceito na distribuição chi-squared e se avalia a hipótese.
Seleção de AtributosInformation gain
Uma medição estatística que emprega a entropia da informação dos dados:
Neste cenário, se empregam os atributos.
A ideia final é obter informação sobre a entropia total para cada atributo
Seleção de AtributosGain ratio
Pode ser obtido dividindo o IG entre a seguinte expressão:
Que se conhece como o valor intrínseco do calculo.
O ratio permite fazer um bias contra atributos que tem intervalos de valores muito grandes. Em uma arvore aqueles que estão perto da raiz tem menos entropia.
Análise dos resultadosAjuste do Ambiente Evolutivo
• 50 gerações• 200 indivíduos• 50 genes• Chi-squared• Torneio Estocástico de tour 3• Crossover duplo com probabilidade de 100%• Mutação com taxa de 30% • Elitismo
Análise dos resultadosCaracterísticas das Regras geradas
Em média 5 genes por regra
Aptidão média de 75%
Interpretabilidade e precisão
Análise dos resultadosComparação de resultados contra outros algoritmos tradicionais em problemas de classificação:
•PART•J48•Naive Bayes•Random Forest • IBK
Análise dos resultados
Análise dos resultados• Caixa pretaNaive Bayes• Caixa pretaIBK• Árvore com 25 níveis e 13 folhasJ48• 10 ÁrvoresRandom Forest• 10 RegrasPART• 9 Regras, com em média 5 genesHEE
Conclusão O método proposto apresentou resultados que conseguiram balancear acurácia e interpretabilidade, gerando regras e conhecimento de alto nível.
Obrigado!
Dúvidas?