+ All Categories
Home > Documents > Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da...

Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da...

Date post: 25-Oct-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
33
Introdu¸c˜ ao ` a Minera¸ ao de Dados Prof. Marcelo Keese Albertini 29 de Maio de 2019
Transcript
Page 1: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Introducao a Mineracao de Dados

Prof. Marcelo Keese Albertini

29 de Maio de 2019

Page 2: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Evolucao da Tecnologia da Informacao: 1960–2010

I 1960 : computacao comercial e primeiros sistemas de BD

I 1970 : Tabelas em BDs (B-tree), SQL, ModeloEntidade-Relacionamento, Redes

I 1980 : PC Desktop, Planilhas, Knowledge Discovery, MLP, Python

I 1990 : WWW, Linux, Java, SVM, Google, Blogs

I 2000 : MapReduce, Facebook, iPhone, Twitter, LSH

I 2010 : Data Science, Internet of Things

Page 3: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de DadosI Motores de busca Web: dados nao estruturados

Page 4: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de Dados

I Comercio: imensas bases de transacoes estruturadas

Page 5: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de DadosI E-comercio: sistemas de recomendacao

Page 6: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de DadosI Redes sociais

Page 7: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de DadosI Bioinformatica: genoma humano ≈ 3 bilhoes de pares de base

DOI: 10.1371/journal.pbio:1002195.t001

Page 8: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de Dados: Big Data Science

I Ciencia baseada em Big Data

Page 9: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Aplicacoes de Mineracao de Dados: Big Data em negociosI Plataformas de analise para Big Data

Page 10: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Mineracao de Dados: Descoberta de Conhecimento1. Definicao: estabelecer objeto e tarefa de analise

2. Limpeza: remocao de ruıdos e inconsistencias

3. Integracao: combinacao de multiplas fontes de dados

4. Selecao: onde estao os dados relevantes para a tarefa de analise

5. Transformacao: formatar dados para analise

6. Mineracao: uso de metodos para extrair dados que atendem a tarefa

7. Avaliacao: medir, qualificar e verificar o que foi obtido

8. Apresentacao: visualizacao e compreensao dos padroes obtidos

DOI: 10.1155/2012/698071

Page 11: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Tarefas de Mineracao de Dados

I Tarefas podem ser:I descritivas/exploratorias: apresenta situacao descrita pelos dados

I Quais sao os perfis de clientes que temos?I Quais sao os casos incomuns de vendas?

I preditivos: ajuda a apresentar opcoes de decisoesI Quais produtos o cliente pode estar mais interessado?I Quais pessoas o usuario pode ter conexao na rede social?I Quais serao os sentimentos dos usuarios em relacao a uma

funcionalidade nova do app?

Page 12: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Tarefas Descritivas: DashboardsDashboard = painel de resultados de tarefas descritivas

klipfolio.com

Page 13: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Dashboard de hospital

Page 14: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

www.predictiveanalyticstoday.com/sas-predictive-analytics

Page 15: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Desafios

I Construir uma boa base de dadosI 90% do esforco

I Tratar dados incompletos e com ruıdosI Usar boas tecnicas

I Manipular dados de maneira eficienteI Bons algoritmos paralelos e distribuıdos

I Apresentar e empregar resultados na pratica

Page 16: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Quais perguntas podemos fazer sobre os dados?

I Descuberta de Conhecimento depende das perguntas formuladaspara investigacao

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais sao os dados que podem ser uteis para analises de marketing?I Analise de correlacao, Extracao de caracterısticas e Reducao de

Dimensionalidade

Page 17: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Analise de correlacao

miscmaster.wordpress.com

Page 18: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Extracao de Caracterısticas

DOI: 10.1007/978-3-540-69423-6 61

Page 19: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais grupos de usuarios tem os mesmo interesses de consumo?I Agrupamento, co-ocorrencia, associacao

Page 20: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

https://data-flair.training/blogs/r-clustering-tutorial/

Page 21: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Mineracao de co-ocorrencias

Page 22: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Mineracao de regras de associacao

Page 23: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Mineracao de sequencias

I Sequencias de compras em uma lojaI 〈livro1, (caneta, papel , borracha), livro2, (caderno, caneta)〉I Subsequencia: 〈livro1, (caneta, papel), caneta〉

I Em secao de visita de usuario a um site de notıciasI 〈(jogodobrasil , jogodaargentina), (economiaglobal)〉

I Padroes de ligacoes em call-centers

I Estudo de sequencias de DNA e proteınas

Page 24: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Existem usuarios influentes e de destaque?I Classificacao e analise de grafos

Page 25: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Classificacao usando arvore de decisao

I Atributos saoI Aparencia: x1I Temperatura: x2I Umidade: x3I Vento: x4

Aparencia x1

Chuvoso

Vento x4

Fraco

Sim

Forte

Nao

Nublado

Sim

Ensolarado

Umidade x3

Normal

Sim

Alta

Nao

x = (x1 = Ensolarado, x2 = Calor , x3 = Alta, x4 = Forte) sera classificadocomo Nao

I temperatura e irrelevante

Page 26: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Analise de sentimentos

datascience.stackexchange.com/questions/1034

Page 27: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Analise de grafos

https://en.wikipedia.org/wiki/PageRank

Page 28: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Quais perguntas podemos fazer sobre os dados?

I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:

I Quais produtos sugerir a usuarios de acordo com o perfil?I Predicao e Recomendacao

Page 30: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Recomendacao

http://dataconomy.com/2015/03/

an-introduction-to-recommendation-engines/

Page 31: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Ambientes de Mineracao de Dados

I R Project: r-project.org/

I SAS: sas.com

I Python + scikit-learn/scipy: scikit-learn.org

I Dlib (C++): dlib.net

I Apache Spark/Mahout (Scala): spark.apache.org

I MLPACK (C++): mlpack.org

Page 32: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Exemplos de datasets publicoss

1. Cadastro de Expulsoes da Administracao Federal

2. Aposentadorias concedidas por anos de servico

3. Cadastro mineiro

4. Cadastro de aerodromos

5. Historico da graduacao da UFFS

6. Catalogo de teses e dissertacoes de 2017 (CAPES)

7. Precos de medicamentos

8. Deputados votantes no impeachment da Dilma

9. Proposicoes da Camara de Deputados (baixar ano 2017)

10. Despesas pela cota para Exercıcio da Atividade Parlamentar (baixarano 2017)

11. Servidores Civis e Militares do Executivo Federal (Ano/Mes:2018/01)

12. Customer churn - (baixar csv)

13. MovieLens 20M Dataset

Page 33: Introdu˘c~ao a Minera˘c~ao de Dados - FACOMalbertini/dicap/slides/00intro.pdf5.Hist orico da graduac˘~ao da UFFS 6.Cat alogo de teses e disserta˘c~oes de 2017 (CAPES) 7.Pre˘cos

Resumo

I Big data: muitas oportunidades, tendencia e aumentar

I Habilidades relacionadas: bancos de dados, programacao eestatıstica


Recommended