Date post: | 13-May-2015 |
Category: |
Technology |
Upload: | marco-montanari |
View: | 737 times |
Download: | 4 times |
Milano, 13.12.2012Milano, 13.12.2012
DATA SCRAPING, DATA ORGANIZATION
OvveroPERCHÉ EXCEL È NOSTRO AMICO
Milano, 13.12.2012
Chi sono?
• Marco Montanari@ingmmo, [email protected], sirmmo.blogspot.com
• Sviluppatore, Appassionato di giochi, Nerd…– passione per i dati
• “I am a journalist looking for coder friends.”– Jens Finnäs (HacksHackers Helsinki)
• “I am a coder with journalist friends.”– Marco Montanari
Milano, 13.12.2012
Indice
• Il Fatto• Le Dimensioni
• DEMO• Descrivere fatti• Aggregazioni
• DEMO
• I Formati
• DEMO• Trovare dati on-line
• DEMO
Milano, 13.12.2012
Il Fatto
Milano, 13.12.2012
Il Fatto
• 5W: – Who is it about?– What happened?– When did it take place?– Where did it take place?– Why did it happen?
Milano, 13.12.2012
Le Dimensioni
Fatto
Chi
Cosa
QuandoPerché
Dove
Milano, 13.12.2012
Le Dimensioni
Vendita di un
prodotto
Cliente1
ProdottoX
12.12.2012 09:24:22
Amazon.it
Milano, 13.12.2012
Le Dimensioni
Utente visita sito
Nome utente: sirmmo
Pagina: /area1/p2
Orario di ingresso:
13.12.2012 09:24:22
Orario di uscita:
13.12.2012 09:27:12
Durata: 2m50s
Modalità di uscita: clic su
link
Destinazione: /area1/p3
Milano, 13.12.2012
Analisi delle dimensioni del fatto
DEMO
Milano, 13.12.2012
Descrivere i fatti
Pro• Disaggregato• Semplice• Atomico
Contro• Disaggregato• Tanti elementi • Da tenere sempre
organizzato
Ogni dimensione è una colonna
Milano, 13.12.2012
Descrivere i fatti
Pro• Disaggregato• Semplice• Atomico
Contro• Disaggregato• Tanti elementi • Da tenere sempre
organizzato
Ogni dimensione è una colonna
Milano, 13.12.2012
• Dal mondo del management
• Tabella Pivot (analisi multidimensionale)– Impossibile con dati già aggregati– Le dimensioni sono correlabili come si vuole
Aggregazioni
DataCube
Milano, 13.12.2012
AggregazioniPivoting
Dati disaggregati
Pivoting
Milano, 13.12.2012
AggregazioniPivoting
Criteri di aggregazione
Risultato: la tabella pivot
Milano, 13.12.2012
AggregazioniPivoting
Milano, 13.12.2012
Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivot
DEMO
Milano, 13.12.2012
I Formati
• Tabellari– xls xlsx csv tsv ods dbf
• Strutturati– xml json (shp)
• Linked data– RDF
• Altro…– HTML
75%
20%
5%
50%
Milano, 13.12.2012
I Formati
• Tabellari– xls xlsx csv tsv ods dbf
• Strutturati– xml json (shp)
• Linked data– RDF
• Altro…– HTML
75%
20%
5%
50%
Milano, 13.12.2012
Analisi rapida dei principali formati: • CSV, TSV• SHP• HTML
DEMO
Milano, 13.12.2012
• Il browser (non IE) come strumento di analisi • Chrome
– Scraper • https://
chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd
– Table Capture• https://chrome.google.com/webstore/detail/table-capt
ure/iebpjdmgckacbodjpijphcplhebcmeop
Trovare dati on-lineLa versione facile
Milano, 13.12.2012
• Firefox– Outwit
• http://www.outwit.com/products/hub/
Trovare dati on-lineLa versione facile
Milano, 13.12.2012
• Strumenti più specialistici ma anche più «fragili»• Excel
Trovare dati on-lineLa versione intermedia
Milano, 13.12.2012
• Google Refine - https://code.google.com/p/google-refine/
Trovare dati on-lineLa versione intermedia
Milano, 13.12.2012
Trovare dati on-lineLa versione difficile
Amico sviluppatore
(Vincenzo Patruno)
Milano, 13.12.2012
Esperimenti di importazione dati• Plugin per Chrome• Excel• Refine
DEMO
Milano, 13.12.2012
• Decidere le dimensioni di interesse
• Descrivere i fatti in base alle dimensioni
• Trovare i dati, pulirli e adattarli alle dimensioni
• Analizzare le aggregazioni
Riassumendo
Milano, 13.12.2012
• Decidere le dimensioni di interesse
• Descrivere i fatti in base alle dimensioni
• Trovare i dati, pulirli e adattarli alle dimensioni
• Analizzare le aggregazioni
Riassumendo
Parlate con il
vostro amico
programmatore!!!
Milano, 13.12.2012
Qualche link utile
• http://dataist.wordpress.com/ - Jens Finnäs– Ottimo blog dove seguire le escursioni in terra di
codice di un giornalista• https://code.google.com/p/google-refine/ -
Google Refine – Strumento di Google per l’elaborazione e la pulizia
dei dati
Milano, 13.12.2012
Qualche link utile
• https://scraperwiki.com/ - ScraperWiki– Strumento per trovare e collezionare script di
scraping scritti in python, ruby o php• https://github.com/ - GitHub
– Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specifici
Milano, 13.12.2012
GRAZIE!
Per qualsiasi domanda:
That’s all folks!
@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/
marco.montanari