+ All Categories
Home > Documents > Data Mining: Conceitos e Técnicas - dainf.cefetpr.brkaestner/LS-DM/DM-MBA-SI-2.pdf · O que é...

Data Mining: Conceitos e Técnicas - dainf.cefetpr.brkaestner/LS-DM/DM-MBA-SI-2.pdf · O que é...

Date post: 10-Sep-2018
Category:
Upload: nguyenkhue
View: 212 times
Download: 0 times
Share this document with a friend
22
Data Mining: Conceitos e Técnicas
Transcript

Data Mining:

Conceitos e Técnicas

DM, DW e OLAP

Data Warehousing e OLAP para

Data Mining

• O que é data warehouse?

• De data warehousing para data mining

Data Warehousing e OLAP para

Data Mining

• Data Warehouse: A Memória da Empresa

• Data Mining: A Inteligência da Empresa

O que é Data Warehouse?

• Definido de diversas formas, mas não

rigorosamente:

– É uma base de dados de suporte que é

mantida separadamente da base de dados

operacional da organização;

– Suporta o processamento de informações

provendo uma sólida plataforma de dados

históricos e consolidados para análise;

O que é Data Warehouse?

• ―Um data warehouse é uma coleção de dados:

1. orientada a assunto (subject-oriented);

2. integrada;

3. variante no tempo, e

4. não-volátil

para suporte a decisões de gerenciamento‖.—W. H. Inmon

• Data warehousing: o processo de construção e uso de data warehouses.

Usos do data warehouse

• Processamento de Informações:

– Suporta consultas, análise estatística básica e

relatórios usando tabelas, gráficos, etc.

• Processamento analítico:

– Análise multi-dimensional doas dados contidos no

data warehouse;

– Suporta operações OLAP básicas (slice-dice,

drilling, pivoting);

Usos do data warehouse

• Data mining:

– Descoberta de conhecimento em padrões;

– Suporta associações, construção de modelos

analíticos, executa classificação e predição, e

apresenta os resultados usando ferramentas de

visualização.

De OLAP para OLAM

Por que OLAM?

• Alta qualidade dos dados nos data warehouses;– DW contem dados integrados, consistentes e limpos.

• Estrutura para o tratamento de informação disponível

no ambiente de DW:– ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e

ferramentas OLAP;

• Análise de dados exploratória baseada em OLAP;– Mineração com drilling, dicing, pivoting, etc.

• Seleção on-line das funções de data mining:– Integração e intercâmbio de múltiplas funções de mineração,

algoritmos e tarefas.

Uma arquitetura OLAM

Data

Warehouse

Meta Data

MDDB

OLAM

Engine

OLAP

Engine

User GUI API

Data Cube API

Database API

Data cleaning

Data integration

Layer3

OLAP/OLAM

Layer2

MDDB

Layer1

Data

Repository

Layer4

User Interface

Filtering&Integration Filtering

Databases

Mining query Mining result

Pré-processamento de

dados

Por que pré-processar os dados ?

• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de

atributos de interesse ou existência de atributos agregados;

– Ruidosos: contem erros e desvios;

– Inconsistentes: contem discrepâncias em nomes e na codificação.

• Sem dados de qualidade, sem resultados de qualidade em DM:– Decisões de qualidade devem estar baseadas em

dados de qualidade;

– DW necessita da integração consistente de dados de qualidade.

Medida multidimensional da

qualidade dos dados

• Uma visão multidimensional bem aceita:– Correção;

– Completude;

– Consistência;

– Atualidade (timeliness);

– Credibilidade;

– Valor adicionado;

– Interpretabilidade;

– Acessibilidade.

• Categorias abrangentes:– Intrínseca, contextual, representacional e

acessibilidade.

Principais tarefas no pré-

processamento dos dados

• Limpeza dos dados:– Preenchimento de valores inexistentes, atenuação

de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências;

• Integração de dados:– Integração de múltiplos DB, data cubos, e arquivos;

• Transformações nos dados:– normalização e agregação;

• Redução de dados:– Obtenção de uma representação reduzida em

volume mas que produz resultados de análise idênticos ou similares.

Principais tarefas no pré-

processamento dos dados

• Limpeza dos dados: Valores faltantes

1. Ignorar a tupla;

2. Preencher o valor manualmente;

3. Usar uma constante global;

4. Usar o valor médio do atributo na base;

5. Usar o valor médio do atributo na classe;

6. Usar o valor mais provável.

Principais tarefas no pré-

processamento dos dados

• Limpeza dos dados: Atenuação de dados ruidosos

1. Discretização;

2. Agrupamento;

3. Interação humana;

4. Regressão.

Principais tarefas no pré-

processamento dos dados

• Limpeza dos dados: Inconsistências

1. Eliminar dados;

2. Corrigir manualmente;

3. Ignorar.

Principais tarefas no pré-

processamento dos dados

• Integração de dados:– Integração de esquemas de BD: problema

da identificação de entidades;

– Redundâncias;

– Detecção e resolução de valores

conflitantes nos dados.

Principais tarefas no pré-

processamento dos dados

• Transformações nos dados:– Suavização (smooting);

– Agregação;

– Generalização;

– Normalização (entre 0 e 1);

– Construção de atributos.

Principais tarefas no pré-

processamento dos dados

• Redução de dados:– Agregação de data cubes;

– Redução de dimensionalidade;

– Compressão de dados;

– Redução de instâncias;

– Geração de hierarquias de conceitos.

Formas de pré-processamento

de dados

Sumário

• A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining;

• A preparação de dados inclui:– Limpeza e Integração de dados;

– Redução de dados e seleção de características;

– Discretização: intervalos iguais, freqüências iguais, agrupamento.

• Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.


Recommended