Introducao a Mineracao de Dados
Prof. Marcelo Keese Albertini
29 de Maio de 2019
Evolucao da Tecnologia da Informacao: 1960–2010
I 1960 : computacao comercial e primeiros sistemas de BD
I 1970 : Tabelas em BDs (B-tree), SQL, ModeloEntidade-Relacionamento, Redes
I 1980 : PC Desktop, Planilhas, Knowledge Discovery, MLP, Python
I 1990 : WWW, Linux, Java, SVM, Google, Blogs
I 2000 : MapReduce, Facebook, iPhone, Twitter, LSH
I 2010 : Data Science, Internet of Things
Aplicacoes de Mineracao de DadosI Motores de busca Web: dados nao estruturados
Aplicacoes de Mineracao de Dados
I Comercio: imensas bases de transacoes estruturadas
Aplicacoes de Mineracao de DadosI E-comercio: sistemas de recomendacao
Aplicacoes de Mineracao de DadosI Redes sociais
Aplicacoes de Mineracao de DadosI Bioinformatica: genoma humano ≈ 3 bilhoes de pares de base
DOI: 10.1371/journal.pbio:1002195.t001
Aplicacoes de Mineracao de Dados: Big Data Science
I Ciencia baseada em Big Data
Aplicacoes de Mineracao de Dados: Big Data em negociosI Plataformas de analise para Big Data
Mineracao de Dados: Descoberta de Conhecimento1. Definicao: estabelecer objeto e tarefa de analise
2. Limpeza: remocao de ruıdos e inconsistencias
3. Integracao: combinacao de multiplas fontes de dados
4. Selecao: onde estao os dados relevantes para a tarefa de analise
5. Transformacao: formatar dados para analise
6. Mineracao: uso de metodos para extrair dados que atendem a tarefa
7. Avaliacao: medir, qualificar e verificar o que foi obtido
8. Apresentacao: visualizacao e compreensao dos padroes obtidos
DOI: 10.1155/2012/698071
Tarefas de Mineracao de Dados
I Tarefas podem ser:I descritivas/exploratorias: apresenta situacao descrita pelos dados
I Quais sao os perfis de clientes que temos?I Quais sao os casos incomuns de vendas?
I preditivos: ajuda a apresentar opcoes de decisoesI Quais produtos o cliente pode estar mais interessado?I Quais pessoas o usuario pode ter conexao na rede social?I Quais serao os sentimentos dos usuarios em relacao a uma
funcionalidade nova do app?
Tarefas Descritivas: DashboardsDashboard = painel de resultados de tarefas descritivas
klipfolio.com
Dashboard de hospital
www.predictiveanalyticstoday.com/sas-predictive-analytics
Desafios
I Construir uma boa base de dadosI 90% do esforco
I Tratar dados incompletos e com ruıdosI Usar boas tecnicas
I Manipular dados de maneira eficienteI Bons algoritmos paralelos e distribuıdos
I Apresentar e empregar resultados na pratica
Quais perguntas podemos fazer sobre os dados?
I Descuberta de Conhecimento depende das perguntas formuladaspara investigacao
I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:
I Quais sao os dados que podem ser uteis para analises de marketing?I Analise de correlacao, Extracao de caracterısticas e Reducao de
Dimensionalidade
Extracao de Caracterısticas
DOI: 10.1007/978-3-540-69423-6 61
Quais perguntas podemos fazer sobre os dados?
I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:
I Quais grupos de usuarios tem os mesmo interesses de consumo?I Agrupamento, co-ocorrencia, associacao
https://data-flair.training/blogs/r-clustering-tutorial/
Mineracao de co-ocorrencias
Mineracao de regras de associacao
Mineracao de sequencias
I Sequencias de compras em uma lojaI 〈livro1, (caneta, papel , borracha), livro2, (caderno, caneta)〉I Subsequencia: 〈livro1, (caneta, papel), caneta〉
I Em secao de visita de usuario a um site de notıciasI 〈(jogodobrasil , jogodaargentina), (economiaglobal)〉
I Padroes de ligacoes em call-centers
I Estudo de sequencias de DNA e proteınas
Quais perguntas podemos fazer sobre os dados?
I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:
I Existem usuarios influentes e de destaque?I Classificacao e analise de grafos
Classificacao usando arvore de decisao
I Atributos saoI Aparencia: x1I Temperatura: x2I Umidade: x3I Vento: x4
Aparencia x1
Chuvoso
Vento x4
Fraco
Sim
Forte
Nao
Nublado
Sim
Ensolarado
Umidade x3
Normal
Sim
Alta
Nao
x = (x1 = Ensolarado, x2 = Calor , x3 = Alta, x4 = Forte) sera classificadocomo Nao
I temperatura e irrelevante
Analise de sentimentos
datascience.stackexchange.com/questions/1034
Quais perguntas podemos fazer sobre os dados?
I Exemplo: dados sobre usuarios de uma rede socialI Perguntas:
I Quais produtos sugerir a usuarios de acordo com o perfil?I Predicao e Recomendacao
Predicao
http://www.business-science.io/code-tools/2017/05/02/
timekit-0-2-0.html
Recomendacao
http://dataconomy.com/2015/03/
an-introduction-to-recommendation-engines/
Ambientes de Mineracao de Dados
I R Project: r-project.org/
I SAS: sas.com
I Python + scikit-learn/scipy: scikit-learn.org
I Dlib (C++): dlib.net
I Apache Spark/Mahout (Scala): spark.apache.org
I MLPACK (C++): mlpack.org
Exemplos de datasets publicoss
1. Cadastro de Expulsoes da Administracao Federal
2. Aposentadorias concedidas por anos de servico
3. Cadastro mineiro
4. Cadastro de aerodromos
5. Historico da graduacao da UFFS
6. Catalogo de teses e dissertacoes de 2017 (CAPES)
7. Precos de medicamentos
8. Deputados votantes no impeachment da Dilma
9. Proposicoes da Camara de Deputados (baixar ano 2017)
10. Despesas pela cota para Exercıcio da Atividade Parlamentar (baixarano 2017)
11. Servidores Civis e Militares do Executivo Federal (Ano/Mes:2018/01)
12. Customer churn - (baixar csv)
13. MovieLens 20M Dataset
Resumo
I Big data: muitas oportunidades, tendencia e aumentar
I Habilidades relacionadas: bancos de dados, programacao eestatıstica