+ All Categories
Home > Documents > Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

Date post: 03-May-2015
Category:
Upload: edda-battaglia
View: 215 times
Download: 2 times
Share this document with a friend
Popular Tags:
47
rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003
Transcript
Page 1: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

Interactive Visual Data Mining e la Ricerca

dell’Informazione Nascosta

IVDM 2003

Page 2: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda ROSUDA:

IVDM 2003

Lehrtstuhl für Rechnerorientierte Statistik und Datenanalyse

Dipartimento di Statistica Computazionale ed Analisi dei Dati

Page 3: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda IVDM by ROSUDA: Outline

IVDM 2003

I PARTE

Partiamo dai dati

Il Data Mining

I Grafici

Visualizzazione

Interattivitá

IVDM

MosaicPlot & MANET

ParallelCoordinates & CASSATT

II PARTE

Software per il DM

Software per l´ IVDM

Grafici Interattivi by Rosuda

Map & MONDRIAN

Glyphs&…

Trees & KLIMT

Interattivitá nello specifico

Torniamo ai dati

Information & “Informations”

IntGraphics per “tutti”

La ricerca Rosuda

Discussione

Page 4: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

What´s Data Mining?

Secondary analysis of (often large) observational data sets to

find unsuspected relationships and to summarize the data in a

novel ways that are both understandable and useful to the

data owner

(D.Hand)

Page 5: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Cominciamo dai Dati: La Veritá dei DatiVeritá EvidenteDati nudi e crudi

Veritá Latente es. evoluzione del Info da estrarre fenomeno nel tempo

Page 6: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Un case-study in generale

Punti da chiarire:

Un pò di storiaDa dove nasce l`esigenza di analizzare i dati…

Tipo di DatiDescrizione dei dati e delle variabilie

FonteRagione e tempi di raccolta dei dati

Page 7: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Un Viaggio fra i dati…e l album di viaggio:

Di tappa in tappa si decide una nuova direzione

Chi Cosa, Dove e Quando

Page 8: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Analisi parziale e nuovi obiettiviEvoluzione della conoscenza in merito al fenomeno

analizzato mano a mano che l’ analisi procede

Incidenza singoli fattori

Reintegrazione dell`Informazione estratta

Ripianificazione dell`analisi

Lettura e rilettura dei dati alla luce della nuova conoscenza

Rileggere il passato

Pianificare il cambiamento

informazione

Page 9: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Obiettivi del Data Mining

- Analisi di dati raccolti per altre ragioni

- I migliori risultati non sono necessariamente quelli di maggiore interesse

- É comune trovare dati di Cattiva Qualitá -

- Interpretazione difficile

- Generalizzazione difficile

Page 10: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Data Mining. L´Approccio (a)

Informatica Ricerca Automatica di Informazione Interessante

METODI VELOCI ED EFFICIENTI PER EDA

Page 11: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Statistica Ricerca di risultati di qualunque interesse

DEFINIZIONE DI INTERESSE E POTENZIALITÁ DEI METODI STATISTICI

PER L´ANALISI DEI DATI

Data Mining. L´Approccio (b)

Page 12: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Cosa sono i grafici?

* Oggetti che rappresentano sinteticamente i dati

* Valutabili con gli occhi….

FirstClass 325Secondclass 285ThirdClass 706Crew 885Adult 2092Child 109Male 1731Female 470Survived 711Not Survived 1490

Page 13: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Class Age Sex Survived NrFirst Adult Male Yes 57First Adult Male No 118First Adult Female Yes 140First Adult Female No 4First Child Male Yes 5First Child Male No 0First Child Female Yes 1First Child Female No 0Second Adult Male Yes 14Second Adult Male No 154Second Adult Female Yes 80Second Adult Female No 13Second Child Male Yes 11Second Child Male No 0Second Child Female Yes 13Second Child Female No 0Third Adult Male Yes 75Third Adult Male No 387Third Adult Female Yes 76Third Adult Female No 89Third Child Male Yes 13Third Child Male No 35Third Child Female Yes 14Third Child Female No 17Crew Adult Male Yes 192Crew Adult Male No 670Crew Adult Female Yes 20Crew Adult Female No 3Crew Child Male Yes 0Crew Child Male No 0Crew Child Female Yes 0Crew Child Female No 0

Cosa sono i grafici?

Page 14: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Cos è la Visualizzazione?- Non supportata da un´unica teoria

formale

- Collezione di utili strumenti per :

* condurre analisi

* verificare la qualitá dei dati

* identificare patterns

* suggerire strutture

- principale oggetto della rappresentazione sono i Grafici

Page 15: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Becker et al. direct manipulation and instantaneous change

Unwin direct manipulation of plots and plotting elements in them

immediacy of place immediacy of action

Cos è l´ Interattività?

Page 16: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Visual Interactive Data Mining

Collezione di strumenti GRAFICI per

* condurre analisi * verificare la qualitá dei dati

* identificare patterns * suggerire strutture

Con data sets anche molto grandi attraverso

diretta manipolazione delle rappresentazioni grafiche

collocazione estemporanea di nuovi elementi

Page 17: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Interactive Visual Data Mining:

ImplementazioneGli oggetti grafici sono

direttamente collegati ai dati tramite ID

NON solo OUTPUT statici

**Graphics manipulation = Data manipulation**

Page 18: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Interactive Visual Data Mining:

FeaturesTheus`s List:

Highlighting

Linking

Querying

Warnings

……..???

Page 19: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Interactive Visual Data Mining:

IssuesInformation Extraction

Information Reintegration

attraverso

Graphical Data Representation

e

Data Manipulation

Page 20: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Interactive Visual Data Mining:

dai dati agli Scatterplot...

Page 21: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

…dentro gli Scatterplot

Page 22: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Bank Dataset

data set, ottenuto da una Banca Tedesca, per identificare i pricipali fattori condizionanti le transazioni

Dati raccolti per ragioni tecniche

ca. 600,000 transazioni in 24 variabili

Page 23: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

…agli Scatterplot indietro ai dati...

Si cominciano avedere dei gruppi

Questi Gruppi non sono individuabili da normali procedure di Clustering

Page 24: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

..poi la Regressione...

Page 25: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

…Istogrammi

Page 26: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Titanic Datasetwww.amstat.org/publications/jse/v3n3/datasets.dawson.html

descritto nell´articolo:The "Unusual Episode" Data RevisitedRobert J. MacG. DawsonSaint Mary's UniversityJournal of Statistics Education v.3, n.3 (1995)

2201 casi and 4 variabili: Class, Sex, Age (Giovani o Anziani) e Survival.

Page 27: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Barchart per dati Categorici....

Ogni oggetto deve poter essere interrogato

In questo caso la query riguarda la sola selezione

Page 28: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Ogni pixel informativo deve essere visibile!

Sottolineature in rosso indicano effettiva presenza di (pochi) casi

Dalla query possiamo evincere la presenza di 6 bimbi in prima classe

Page 29: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

…per esplorare l´Associazione...

--C´è associazione fra suvival e (age, sex, class)?

--Chi avevauna probabilitá maggiore di sopravvivere?

Non indipendenti

Indipendenti

Page 30: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

...Mosaic Plot e Manet

Page 31: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Cos è un MosaicPlot?

Funzione applicata a tavole di contingenza ad entrata multipla, che producono output graficiClass Age Sex Survived NrFirst Adult Male Yes 57First Adult Male No 118First Adult Female Yes 140First Adult Female No 4First Child Male Yes 5First Child Male No 0First Child Female Yes 1First Child Female No 0Second Adult Male Yes 14Second Adult Male No 154Second Adult Female Yes 80Second Adult Female No 13Second Child Male Yes 11Second Child Male No 0Second Child Female Yes 13Second Child Female No 0Third Adult Male Yes 75Third Adult Male No 387Third Adult Female Yes 76Third Adult Female No 89Third Child Male Yes 13Third Child Male No 35Third Child Female Yes 14Third Child Female No 17Crew Adult Male Yes 192Crew Adult Male No 670Crew Adult Female Yes 20Crew Adult Female No 3Crew Child Male Yes 0Crew Child Male No 0Crew Child Female Yes 0Crew Child Female No 0

f

Page 32: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Costruire un MosaicPlotClass1st 2nd 3rd Crew

Sex f 145 106 196 23m 180 179 510 862

K=0 K=1P1 P4P1 P2 P3

P11 P21

P31

P41

P12 P22 P32 P42

K=2

Page 33: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Interpretare un MosaicPlot:

Not indep

Independent

Interactive feature:

Highlighting

Editing structure (re-ordering, grouping, splitting)

Linking

Rotation

Querying

Reparametrisation

Zoom

Page 34: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Mosaic Plot e 2

Che succede???

Page 35: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Mosaic plot, 2 e Survival... La significativitá dell´Ipotesi di non indipendenza è evidente

Tuttavia, 2 = 671,96 suggerirebbe di rifiutare l´ipotesi di non Independenza

Page 36: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Cosa vediamo da rappresentazioni diverse

Page 37: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Missing Are Now Equally Treated

Page 38: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

E se il numero di variabili cresce?

Page 39: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Soluzione “voluminosa” ed inefficiente

Page 40: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Pensa in Parallelo!

Page 41: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Parallel coordinates per…

Correlazione

N-dimensional clusters

outliers

Pensa in Parallelo!

Page 42: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Parallel Coordinates e Cassatt

Dualismo punto-linea

Page 43: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Stressing Parallel Coordinates

Si possono analizzare fino a qualche centinaio di variabili!

Page 44: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Riassumendo…..

I dati sono “problematici”

I dati nascondono iformazione

Non esiste il miglior metodo in Assoluto

Visualizzazione ed Interattivitá sono strumenti innovativi, di grande utilitá ed interesse scientifico

Page 45: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Come li rappresentereste?

Number of Observations:-A few-Many

Kind of Observations:-Categorical-Continuous

Number of Variables:-One-two-A few-Many-Infinite

Scatterplot

Trellis Display

Barchart

Mosaic Plot

Parallel Coordinate

Page 46: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

Rosuda: analisi interattiva per ogni tipo di dati

-Soluzioni Interattive differenziate ed Ottimali

-Design Consistente

-Buon CHI

-Gamma di soluzioni tale da consentire una completa EDA

-Ottimizzazione delle risorse informatiche e delle tecniche statistiche

Page 47: Rosuda Interactive Visual Data Mining e la Ricerca dell’Informazione Nascosta IVDM 2003.

rosuda

IVDM 2003

No Conclusion, c´è ancora parecchio da fare!

Commenti? Consigli? Domande?

bibliografia:

http://stats.math.uni-augsburg.de


Recommended