Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da...

Post on 25-Oct-2020

1 views 0 download

transcript

Introducao a Mineracao de Dados

Prof. Marcelo Keese Albertini

29 de Maio de 2019

Evolucao da Tecnologia da Informacao: 1960–2010

I 1960 : computacao comercial e primeiros sistemas de BD

I 1970 : Tabelas em BDs (B-tree), SQL, ModeloEntidade-Relacionamento, Redes

I 1980 : PC Desktop, Planilhas, Knowledge Discovery, MLP, Python

I 1990 : WWW, Linux, Java, SVM, Google, Blogs

I 2000 : MapReduce, Facebook, iPhone, Twitter, LSH

I 2010 : Data Science, Internet of Things

Aplicacoes de Mineracao de DadosI Motores de busca Web: dados nao estruturados

Aplicacoes de Mineracao de Dados

I Comercio: imensas bases de transacoes estruturadas

Aplicacoes de Mineracao de DadosI E-comercio: sistemas de recomendacao

Aplicacoes de Mineracao de DadosI Redes sociais

Aplicacoes de Mineracao de DadosI Bioinformatica: genoma humano ≈ 3 bilhoes de pares de base

DOI: 10.1371/journal.pbio:1002195.t001

Aplicacoes de Mineracao de Dados: Big Data Science

I Ciencia baseada em Big Data

Aplicacoes de Mineracao de Dados: Big Data em negociosI Plataformas de analise para Big Data

Mineracao de Dados: Descoberta de Conhecimento1. Definicao: estabelecer objeto e tarefa de analise

2. Limpeza: remocao de ruıdos e inconsistencias

3. Integracao: combinacao de multiplas fontes de dados

4. Selecao: onde estao os dados relevantes para a tarefa de analise

5. Transformacao: formatar dados para analise

6. Mineracao: uso de metodos para extrair dados que atendem a tarefa

7. Avaliacao: medir, qualificar e verificar o que foi obtido

8. Apresentacao: visualizacao e compreensao dos padroes obtidos

DOI: 10.1155/2012/698071

Tarefas de Mineracao de Dados

I Tarefas podem ser:I descritivas/exploratorias: apresenta situacao descrita pelos dados

I Quais sao os perfis de clientes que temos?I Quais sao os casos incomuns de vendas?

I preditivos: ajuda a apresentar opcoes de decisoesI Quais produtos o cliente pode estar mais interessado?I Quais pessoas o usuario pode ter conexao na rede social?I Quais serao os sentimentos dos usuarios em relacao a uma

funcionalidade nova do app?

Tarefas Descritivas: DashboardsDashboard = painel de resultados de tarefas descritivas

klipfolio.com

Dashboard de hospital

www.predictiveanalyticstoday.com/sas-predictive-analytics

Desafios

I Construir uma boa base de dadosI 90% do esforco

I Tratar dados incompletos e com ruıdosI Usar boas tecnicas

I Manipular dados de maneira eficienteI Bons algoritmos paralelos e distribuıdos

I Apresentar e empregar resultados na pratica

Quais perguntas podemos fazer sobre os dados?

I Descuberta de Conhecimento depende das perguntas formuladaspara investigacao

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais sao os dados que podem ser uteis para analises de marketing?I Analise de correlacao, Extracao de caracterısticas e Reducao de

Dimensionalidade

Analise de correlacao

miscmaster.wordpress.com

Extracao de Caracterısticas

DOI: 10.1007/978-3-540-69423-6 61

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais grupos de usuarios tem os mesmo interesses de consumo?I Agrupamento, co-ocorrencia, associacao

https://data-flair.training/blogs/r-clustering-tutorial/

Mineracao de co-ocorrencias

Mineracao de regras de associacao

Mineracao de sequencias

I Sequencias de compras em uma lojaI 〈livro1, (caneta, papel , borracha), livro2, (caderno, caneta)〉I Subsequencia: 〈livro1, (caneta, papel), caneta〉

I Em secao de visita de usuario a um site de notıciasI 〈(jogodobrasil , jogodaargentina), (economiaglobal)〉

I Padroes de ligacoes em call-centers

I Estudo de sequencias de DNA e proteınas

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Existem usuarios influentes e de destaque?I Classificacao e analise de grafos

Classificacao usando arvore de decisao

I Atributos saoI Aparencia: x1I Temperatura: x2I Umidade: x3I Vento: x4

Aparencia x1

Chuvoso

Vento x4

Fraco

Sim

Forte

Nao

Nublado

Sim

Ensolarado

Umidade x3

Normal

Sim

Alta

Nao

x = (x1 = Ensolarado, x2 = Calor , x3 = Alta, x4 = Forte) sera classificadocomo Nao

I temperatura e irrelevante

Analise de sentimentos

datascience.stackexchange.com/questions/1034

Analise de grafos

https://en.wikipedia.org/wiki/PageRank

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais produtos sugerir a usuarios de acordo com o perfil?I Predicao e Recomendacao

Recomendacao

http://dataconomy.com/2015/03/

an-introduction-to-recommendation-engines/

Ambientes de Mineracao de Dados

I R Project: r-project.org/

I SAS: sas.com

I Python + scikit-learn/scipy: scikit-learn.org

I Dlib (C++): dlib.net

I Apache Spark/Mahout (Scala): spark.apache.org

I MLPACK (C++): mlpack.org

Exemplos de datasets publicoss

1. Cadastro de Expulsoes da Administracao Federal

2. Aposentadorias concedidas por anos de servico

3. Cadastro mineiro

4. Cadastro de aerodromos

5. Historico da graduacao da UFFS

6. Catalogo de teses e dissertacoes de 2017 (CAPES)

7. Precos de medicamentos

8. Deputados votantes no impeachment da Dilma

9. Proposicoes da Camara de Deputados (baixar ano 2017)

10. Despesas pela cota para Exercıcio da Atividade Parlamentar (baixarano 2017)

11. Servidores Civis e Militares do Executivo Federal (Ano/Mes:2018/01)

12. Customer churn - (baixar csv)

13. MovieLens 20M Dataset

Resumo

I Big data: muitas oportunidades, tendencia e aumentar

I Habilidades relacionadas: bancos de dados, programacao eestatıstica