Rosuda Software e Grafici Interattivi per il Visual Data Mining IVDM 2003.

Post on 02-May-2015

215 views 0 download

transcript

rosuda

Software e Grafici Interattivi

per il Visual Data Mining

IVDM 2003

rosuda

IVDM 2003

Software Commerciali per il Data Mining

AIM distribuito da AbTechAUTOCLASS distribuito da NASACLEMENZINE distribuito da SPSSDatabase Mining distribuito da HNCDatalogic/R distribuito da Reduct SystInformation Harvesting distribuito da Ryan AssIntelligent Miner distribuito da IBMIXL/IDIS distribuito da IntelligWareKnowledgeSeeker distribuito da FirstMarkTechn NEXTRA distribuito da

Neuron DataPC-MARS distribuito da Data Patterns RECON for Data Mining distribuito da Lockheed

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

CLEMENTINE- SPSS

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

ROSETTA

rosuda

IVDM 2003

Software Commerciali per il Data Mining:

STATISTICAThe most part of statistical software for Data Mining try to give a suitable final graphical representation of applied models

rosuda

IVDM 2003

Software per il Data Mining: considerazioni generali

-Cosa dovrebbero fare?

-Cosa fanno davvero?

-Quali caratteristiche sono le piú rilevanti?

-Come influisce la Visualizzazione sulla ricerca dell´Informazione?

rosuda

IVDM 2003

Il nostro Software per IVDM:The Rosuda`s Impressionistes

rosuda

IVDM 2003

Interactive Visual Data Mining:

Implementazione**Graphics manipulation = Data manipulation**

Interazione condiziona non solo l´aspetto esteriore del display ma la sostanza dei dati!

rosuda

IVDM 2003

Fisher Grains Data Set•Produzione di Grano presso i Campi Broadbalk a Rothamsted

•Fisher (1924)

•La matrice di dati è stata transposta, di modo che ciascun anno corrisponda ad un diverso anno

•18 time series osservate annualmente per un periodo di 76 anni

rosuda

IVDM 2003

PC anche dati temporali

rosuda

IVDM 2003

Interactive Time Series

rosuda

IVDM 2003

…Collegare Tempo e Luogo

rosuda

IVDM 2003

…PC in generale e Mappe

rosuda

IVDM 2003

Maps, selezione e Mondrian

rosuda

IVDM 2003

Cos è una mappa

Dati Geografici possono essere collocati in base alla vera referenza geografica

rosuda

IVDM 2003

Collegare le Mappe agli individui

Da dove viene? Che tipo di criminale é?

The Crime dataset and the Criminal face

rosuda

IVDM 2003

The Crime dataset and the Criminal face

Crime-Datatet: distribuito da JMP library, SAS

-7 tipi crimini

- in 50 stati USA

- in un anno

rosuda

IVDM 2003

Glyphs, per Individui Multidimensionali

rosuda

IVDM 2003

Fisher Iris dataset

4 misure (sepal width, sepal length, petal width, petal length) su 50 piante appartenti a 3 specie diverse.

Andrews, D. F., and Herzberg, A.M. (1985). Data. New York: Springer p5-8

rosuda

IVDM 2003

Glyphs per strutture

rosuda

IVDM 2003

Uomo o Donna? Setosa o Versicolor? Classificazione ed Alberi...

rosuda

IVDM 2003

Trees, Klimt ed R Input:

-Tab spaces ASCII file

-Output of partition routine (rpart, cart, etc..)

Output:

-Interactive graphics

-Trees

rosuda

IVDM 2003

Interactive Trees

rosuda

Interattivitá in dettaglio: basic Instruments

Linking: Variables or Individuals

Querying: Different levels

Selection: Single or Multiple Selection Hot Selection

Scaling: according to specific parameters

Zooming: Zoom or Logical Zoom

Rotating

Sorting: Automatical, ManualIVDM 2003

rosuda

Linking:

Variables

Individuals

rosudaQuerying:

Different levels

In Manet variables are querable!

rosuda

Selection:

Single or Multiple Selection

Point selection

Rectanngle selection

Undo

Logical operation on selected items

Hot Selection

rosuda

Scaling:

according to specific parameters

rosuda

Zooming:

Zoom or Logical Zoom

rosuda

Sorting: Automatical, Manual

rosuda

IVDM 2003

Requisiti fondamentali dell´Interattivitá

Buon CHI

Intuitivitá

Velocitá

Software intgration

rosuda

IVDM 2003

Diversi concetti di Interattivitá

rosuda

IVDM 2003

Tornare sempre ai dati!!

- Deve essere sempre chiaro o “chiaribile” quali dati stanno dietro ai grafici

- La “Linked-Selection” offre diverse viste dei medesimi dati

- I Dati devono essere facili da importare

- Il formato dei dati deve essere il piú semplice possibile

-Bassi livelli di manipolazione agiscono sui dati

- Alti livelli di manipolaziono influenzano solo il display

rosuda

IVDM 2003

Quante taglie di dataset conosci?

Tiny ???

Small ???

Large ???

Very Large ???

Huge ???

rosuda

IVDM 2003

Definizioni di taglia...

Tiny can be written on a blackboard 102 bytes

Small fits on a few printed pages 104 bytes

Medium fills a floppy disk 106 bytes

Large fills a tape 108 bytes

Huge requires many tapes 1010 bytes

rosuda

IVDM 2003

Prerequisiti computazionali

Potente Memoria

Buono sfruttamento della memoria

Buoni algoritmi

Alta qualitá delle immagini

Importabilitá

rosuda

IVDM 2003

Prerequisiti Grafici

Visualizzazioni non dipendenti dalla Taglia

Buoni Algoritmi

Buone Implementazioni

Interactivitá

Interfaccia intuitiva e chiara

Analisi oggettive o soggettive???

rosuda

IVDM 2003

Large dataset Exploration: The Bank Dataset

Dataset finanziario

ottenuto da una banca tedesca

Dati raccolti per ragioni tecniche senza alcuno scopo speciale

Passati agli analisti per scoprire i fattori che influenzano maggiormente le transazioni

Consiste di piú di 600,000 transactions in 24 variabili (80 Mb ca.)

rosuda

IVDM 2003

Amount vs. Profit

Le dimensioni rappresentate sono influenzate dai valori minimi e massimi rilevati

Spesso si tratta di outliers

rosuda

IVDM 2003

Amount vs. Profit

Non è effetto di uno Zoom!

L´immagine è stata riparametrizzata

I valori anomali sono stati tagliati

rosuda

IVDM 2003

Amount vs. Profit: Cluster?

Non nel senso classico…

Tuttavia speciali relazioni fra i dati sono identificabili e ragionevolmente giustificabili

rosuda

IVDM 2003

Informazioni o “Informatione” ???

L´Informazione ottenuta dai dati è molto piú che la semplice giustapposizione di singoli dettagli o la somma di singole informazioni

rosuda

IVDM 2003

Una schematica “Classificazione” dei dati

Number of Observations:-A few-Many

Kind of Observations:-Categorical-Continuous

Number of Variables:-One-two-A few-Many-Infinite

rosuda

IVDM 2003

Come li rappresentereste?

Number of Observations:-A few-Many

Kind of Observations:-Categorical-Continuous

Number of Variables:-One-two-A few-Many-Infinite

Scatterplot

Trellis Display

Barchart

Mosaic Plot

Parallel Coordinate

rosuda

IVDM 2003

Rosuda: analisi interattiva per ogni tipo di dati

-Soluzioni Interattive differenziate ed Ottimali

-Design Consistente

-Buon CHI

-Gamma di soluzioni tale da consentire una completa EDA

-Ottimizzazione delle risorse informatiche e delle tecniche statistiche

rosuda

IVDM 2003

No Conclusion, c´è ancora parecchio da fare!

Commenti? Consigli? Domande?

bibliografia

http://stats.math.uni-augsburg.de