+ All Categories
Home > Technology > Data Warehouse e Data Mining

Data Warehouse e Data Mining

Date post: 05-Dec-2014
Category:
Upload: mauricio-cesar-santos-da-purificacao
View: 1,392 times
Download: 1 times
Share this document with a friend
Description:
 
45
DATA WAREHOUSE E DATA MINING 06/06/2022 ©2010 | MATA60 Banco de Dados 1
Transcript
Page 1: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 1

DATA WAREHOUSE E DATA MINING

Page 2: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 2

DATA WAREHOUSE

Page 3: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 3

Conceito• “Coleção de dados orientada a assunto, integrada, não-

volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon

• "a copy of transaction data specifically structured for query and analysis“ R. Kimball

• “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle

Page 4: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 4

Propriedades

Page 5: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 5

Fluxo dos Dados

Page 6: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 6

Modelagem dos Dados• Objetivos da Modelagem Dimensional

• Fornecer uma imagem global da realidade do negócio• Exibir informações em níveis apropriados de detalhes (resumido

ou detalhado)• Otimizar o processamento de consultas complexas

(Modelo Estrela ou Flocos de Neve)• Integrar dados de diversas fontes em uma única BD para facilitar

a geração de relatórios

Page 7: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 7

Modelagem dos Dados• Modelo Relacional

• Usado para identificar relacionamentos entre tipos de relações• Visa remover a redundância de dados• Processamento de Transações On-Line (OLTP)

• Modelo Dimensional

• Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso

• Independe da representação física dos dados• Organiza dados em tabelas de fatos e dimensões• Processamento Analítico On-Line (OLAP)

Page 8: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 8

Ambiente Operacional * Ambiente Analítico

Page 9: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 9

Modelo Dimensional

Page 10: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 10

Tabela de Fatos

Page 11: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 11

Tabela de Dimensão

Page 12: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 12

Star Scheme

Page 13: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 13

Snowflake Schema

Page 14: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 14

Data Mart• Definição

• DM é um subconjunto de um DW• Subconjunto do DW que satisfaz os requisitos de um certo tema ou

atividade de negócio• Projetado para um dado grupo de usuários

• Específico a um assunto particular ou atividade de negócio• Pode ser visto como uma solução tática• Pode ser construído antes ou depois do DW

• Antes pode representar fragmentos de dados, mas reduz a ⇒complexidade de desenvolvimento

• Depois produz uma visão integrada dos dados, mas aumenta a ⇒complexidade de desenvolvimento

• Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!

Page 15: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 15

DW * DM

Page 16: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 16

Data Warehousing

Page 17: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 17

ETL e ODS• Ferramentas de ETL

• Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão

• Realizam Acesso, Extração, Transformação, Validação e Carga dos dados

• Operational Datastore (ODS)• Repositório de dados operacionais integrados• Benefícios

• Otimiza a criação do DW• Possibilita a realização de consultas relacionais sobre dados históricos• Permite interações de tempo real (e.g. gerenciamento de

relacionamentos de cliente)

Page 18: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 18

Abordagem Top-Down

Page 19: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 19

Abordagem Bottom-Up

Page 20: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 20

OLAP• O que é OLAP (On-Line Analytical Processing)?

• Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW

• Fornece dados em alto nível (totais,médias,min..)• Acessa vários registros• Tem alto desempenho e consultas fáceis e interativas• Lida com dados históricos (dimensão temporal)• Oferece visões multidimensionais (perspectivas)

Page 21: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 21

OLAP• Cubo Multidimensional (Abstração do DW)

• Metáfora de uma abordagem multidimensional para visualização e organização dos dados

• Várias dimensões podem ser usadas simultaneamente• Dados são manipulados mais rapidamente e facilmente

(agregação em níveis de hierarquia)

Page 22: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 22

Operações OLAP• Drill Down e Roll Up (ou Drill Up)

Page 23: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 23

Operações OLAP• Rotação

• Técnica que gira o cubo, permitindo ter diferentes visões dos dados

Page 24: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 24

Operações OLAP• Slice and Dice

• Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos

• “Semelhante” a cláusula WHERE de SQL

Page 25: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 25

MDX

Page 26: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 26

DATA MINING

Page 27: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 27

Conceito• Mineração de dados é a busca de informações valiosas em

grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99].

• Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99].

• Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].

Page 28: Data Warehouse e Data Mining

10/04/2023 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA

28

Áreas de Aplicações Potenciais

• Vendas e Marketing• Identificar padrões de comportamento de consumidores• Associar comportamentos à características demográficas de consumidores• Campanhas de marketing direto (mailing campaigns)• Identificar consumidores “leais”

• Bancos • Identificar padrões de fraudes (cartões de crédito)• Identificar características de correntistas • Mercado Financeiro ($$$)

• Médica• Comportamento de pacientes• Identificar terapias de sucessos para diferentes tratamentos• Fraudes em planos de saúdes• Comportamento de usuários de planos de saúde

Page 29: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 29

Data Mining e KDD• KDD utiliza algoritmos de data mining para extrair

padrões classificados como “conhecimento”.

• Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;

Page 30: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 30

KDD - Contextualização

Page 31: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 31

KDD e Data Warehouse

Page 32: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 32

Pré-Processamento• Atributos com representação inadequada para tarefa e algoritmo.

• Atributos cujos valores não tenham informações adequadas.

• Excesso de atributos (podem ser redundantes ou desnecessários).

• Atributos insuficientes.

• Excesso de instancias (afetam tempo de processamento).

• Instâncias insuficientes.

• Instâncias incompletas (sem valores para alguns atributos).

• Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!

Page 33: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 33

TAREFAS DE DATA MINING

Page 34: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 34

Análise de Regras de Associação• Exemplo:

• “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado.

• Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.

Page 35: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 35

Análise de Padrões Sequenciais• Exemplo:

• A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro.

• Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.

Page 36: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 36

Classificação e Predição• Exemplo:

• Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador.

• Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.

Page 37: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 37

Classificação e Predição• Em algumas aplicações, o usuário está mais interessado

em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos.

• Neste caso, a tarefa de mineração é denominada Predição.

Page 38: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 38

Análise de Clusters (Agrupamentos)• Exemplo:

• Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes;

• Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;

Page 39: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 39

Análise de Outliers• Um banco de dados pode conter dados que não

apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções).

• Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado.

• Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.

Page 40: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 40

TÉCNICAS DE DATA MINING

Page 41: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 41

Árvores de Decisão• Representações simples do conhecimento• Utilização de regras condicionais• A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais• Exemplo: Sair ou não de acordo com o tempo

SairUmidade

ChuvosoNublado Ensolarado

Tempo

Ñ Sair

Alta

Sair

Normal

Muito vento

Ñ Sair

Sim

Sair

Não

Predicado objetivo: Sair ou Não Sair

Page 42: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 42

Árvores de Decisão

Renda > R$ 4.000,00

Dívida < 10% da renda ? Dívida = 0%

Risco de ter crédito Risco de não ter crédito Risco de ter crédito

SIM

SIM SIMNÃO NÃO

NÃO

Nesta árvore de decisões, regras são induzidas nos padrões dosdados e cria-se uma hierarquia de indicações “se-então”.

Classificação de um indivíduo com risco de ter ou não crédito

Predicado objetivo: Crédito ou Não

Page 43: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 43

Redes Neurais• Redes Neurais:

• Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições.

• Problemas:• Não retorna informação a priori

• Não pode ser treinada em uma grande base de dados

• Entrada não pode ser dados alfanuméricos (mapear para numérico)

• Nenhuma explanação dos dados é fornecida (caixa preta)

Page 44: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 44

Técnicas• Redes Neurais:

• Exemplo prático: risco de câncer

Data mining - Clementine User Guide

Page 45: Data Warehouse e Data Mining

10/04/2023 ©2010 | MATA60 Banco de Dados 45

• Redes Neurais: - 2o Exemplo

Técnicas

RENDA REG. DEPAGAMENTO

IDADEDÉBITO

Riscode tercrédito

Risco de não tercrédito

As redes neurais usam seus dados de entrada.Atribui pesos nas conecções entre os atributos (neurônios).

E obtém um resultado (risco de ter ou não crédito) no nível de saída.

Nívelde

entrada

Níveloculto

Nívelde

saída


Recommended