Date post: | 09-Aug-2015 |
Category: |
Government & Nonprofit |
Upload: | openpompei |
View: | 62 times |
Download: | 0 times |
Andrea Borruso – Gabriele Gattiglia Reperire, scaricare e pulire i dati
Premessa Talking and making / learning by doing Approccio hacker «Hack ha solo un significato: quello estremamente sottile e profondo di qualcosa che rifiuta ulteriori spiegazioni» Phil Agre Da cui discende che un hacker è colui che affronta sfide intellettuali per aggirare o superare creativamente le limitazioni senza manuale di istruzioni. L’hacker non è un pirata informatico quello è un cracker!
Siamo alla MODA?
ATTENZIONE! E’ importante – e fondamentale – non confondere il termine open data con quello open access. Con open access ci riferiamo per lo più a testi – articoli, libri, relazioni, tesi di laurea, ecc… -, liberamente consultabili e spesso scaricabili in rete. In ambito archeologico si possono definire ad accesso aperto anche i webGIS, quando sono usati per la sola visualizzazione geografica del dato archeologico, che però non ne permettono lo scaricamento e il riuso.
PRIMARI: cioè grezzi (raw), in modo da poter essere integrati e aggregati con altri dati e contenuti, in formato digitale.
TEMPESTIVI: gli utenti devono essere messi in condizione di accedere velocemente alle informazioni e utilizzare i dati presenti sul web in modo rapido e immediato, massimizzando il valore e l’utilità derivanti dall’accesso e dall’uso di queste risorse.
RICERCABILI: è necessario assicurare agli utenti l’opportunità di ricercare con facilità e immediatezza i dati, mediante strumenti di ricerca ad hoc. (IMPORTANTE!!! I Dati devono poter essere usati)
PERMANENTI: le peculiarità descritte devono caratterizzare i dati nel corso del loro intero ciclo di vita sul web.
I DATI APERTI devono essere:
NON PROPRIETARI
Liberi di essere UTILIZZATI
Liberi di essere RIUTILIZZATI
Liberi di essere RIDISTRIBUITI per qualunque scopo
Quindi
Accesso
L’opera deve essere disponibile nella sua interezza ed a un costo di riproduzione ragionevole, preferibilmente tramite il download gratuito via Internet
I dati devono essere completi: esportabili, utilizzabili online e offline, integrabili e aggregabili con altre risorse, diffondibili via web e riportare le specifiche adottate per la loro realizzazione
I dati devono essere accessibili a tutti senza alcuna sottoscrizione di contratto, pagamento, registrazione o richiesta ufficiale; devono essere trasmissibili e interscambiabili tra tutti gli utenti direttamente via web
Assenza di restrizioni tecnologiche
L’opera deve essere fornita in un formato che non ponga ostacoli tecnologici al riuso.
Dati machine-readable
Gli utenti devono poter utilizzare e processare i dati attraverso programmi, applicazioni e interfacce non proprietarie e aperte.
I dati devono essere pubblicati e riutilizzabili in formati semplici e generalmente supportati dai programmi più usati dalla collettività digitalizzata
Ridistribuzione: licenza
La licenza non deve imporre alcuna limitazione alla vendita o all’offerta gratuita dell’opera singolarmente considerata o come parte di un pacchetto composto da opere provenienti da fonti diverse.
La licenza non deve richiedere alcuna “royalty” o altra forma di pagamento per tale vendita o distribuzione.
La licenza deve consentire il riutilizzo, la realizzazione cioè di modifiche e di opere derivate e deve consentire la loro distribuzione agli stessi termini dell’opera originaria.
Attribuzione: La licenza può richiedere di citare i vari contributori e creatori dell’opera (BY) come condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa condizione non deve essere onerosa. Integrità: La licenza può richiedere, di distinguere l’opera derivata dall’opera originaria (originalità del nome).
La licenza non deve contenere nessuna discriminazione di persone , gruppi o settori d’attività
Oggi produciamo miliardi di dati
Questi dati ci appartengono
L’ecologia dei dati
La produzione di dati ha un costo sostenuto dall’intera collettività
I dati sono prodotti a prescindere dal loro riuso
PERCHE’ NON RIUTILIZZARLI?
I dati grezzi sono il vero unico «codice sorgente» dell’archeologia,
quello che consente di formulare ulteriori ipotesi e ricostruzioni storiche
Doc. grafica
Doc. fotografica
Doc. compilativa
Relazioni
Apparato archeografico
(dataset)
Letteratura grigia
PERCHE’? ‘Aprire per proteggere’
Archiviazione digitale dei dati
Utilizzo dei dati come materiale di confronto immediatamente fruibile
Pubblicazione di tutti i dati
Riconoscimento del lavoro archeografico anche in termini scientifici e di ‘titoli’
Verifica del processo di indagine NO archeologia dogmatica, ma esplicitazione della componente soggettiva del processo interpretativo
Ri- uso dei dati per creare nuove analisi (scalarità dei dati) e nuove interpretazioni
Ottimizzazione dei costi di gestione/tutela
Conservazione dei dati
ruolo sociale dell’archeologo
lavoro
ricerca
tutela
trasparenza beni comuni
Big Data
ma soprattutto di sviluppi inaspettati e imprevedibili………..
QUALI SONO I PROBLEMI?
• Eterogeneità dei dati: formati proprietari, formati non adatti alla pubblicazione dei dati, documentazione mancante, non omogenea o parziale, vincoli giuridici alla circolazione, protocolli proprietari
• I dati sono difficili da trovare: diverse amministrazioni
pubbliche, diversi siti web, diverse modalità di ricerca, accessibilità ed utilizzo del dato
• Mancanza di standard condivisi nella produzione e
nella diffusione: i dati sono difficili da interpretare. Diverse sono le classificazioni , i vocabolari utilizzati , gli schemi e i modelli per rappresentare il mondo reale
(Dove esistente) diversa modalità di metadazione.
Barriere giuridiche alla pubblicazione e al riuso degli open data: poca chiarezza in campo legislativo (regolamentazioni generali – Codice Amministrazione Digitale – ma difficoltà di applicazione nei settori specifici)
Impreparazione tecnica (carenza formazione) (cosa pubblicare? Come pubblicare? Dove? Cosa farne dei dati open?)
Scelta dei dati (?) Cosa serve pubblicare e cosa no
Diffidenza culturale (siamo ancora nella fase di «sensibilizzazione»)
Difficoltà di comunicazione. Esiste ancora il «preconcetto tecnologico»: gli open data sono qualcosa che serve solo agli informatici. Non vi è migliore forma di comunicazione che la dimostrazione
Ma dove sono i dati degli scavi???
http://dati.trentino.it/dataset/siti-di-interesse-archeologico-pup-986531
CC0
http://www.regione.liguria.it/opendata/dati-cartografici/item/34292-carta-del-patrimonio-archeologico-architettonico-e-storico-ambientale-ligure-paasal-sc-1-10000.html
http://dati.comune.roma.it/download/cultura-e-sport/aree-archeologiche-di-competenza-di-roma-capitale-anno-2011
CC0
https://www.dati.lombardia.it/browse?q=ARCHEOLOGIA&sortBy=relevance&utf8=%E2%9C%93&page=1
http://datigis.comune.fi.it/catalogo/?layer=archeologia:scavi_archeo&uuid=92dd6b30-72eb-48e1-bd1d-d0b5219d8479%20&wmsurl=http%3A%2F%2Ftms.comune.fi.it%2Ftiles%2Fservice%2Fwms
Massaciuccoli romana http://www.massaciuccoliromana.it/wordpress/documentazione/
MOD Mappa Open Data
archaeological archive
Come per la PA, per i beni archeologici non sono ancora stati affrontati centralmente i problemi e le potenzialità reali delle
pubblicazione di dati aperti
Pubblicare l’archeologia italiana in forma di Open Data
http://www.mappaproject.org/mod
La struttura del MOD
http://mappaproject.arch.unipi.it/mod/Index.php
Modello ripreso dall’Archaeological Data Service (ADS , GB) creato e gestito dall’Università di York
Archivio
Intervento
LETTERATURA GRIGIA DATASET
Relazione
DOI
Schede US Planimetrie
Schede di quantificazione Schede materiali
Matrix Sezioni
….
DOI
Introduzione
Work in progress: - collegamento a MAPPAGIS - nuova strutturazione su base nazionale
Troppe chiacchere…
per partire…. parliamo di tabelle
I dati tabellari non sempre sono buoni, anzi il più delle volte sono brutti e cattivi!
pdf portable document format
esempio
Web
.xls
.csv comma separated value esempio .json JavaScript Obiect Notation esempio
a volte serve la ramazza
TSV, CSV, *SV, Excel (.xls and .xlsx), JSON, XML, RDF as XML
http://openrefine.org/
1. Prendiamo i dati MOD
2. Facciamo una ricerca per formati
3. Scarichiamo come .csv
4. Lo importiamo in OpenRefine
5. Lo ripuliamo lavorando coi cluster
6. Lo prepariamo per future visualizzazioni
(grafici)
Reperire, scaricare, ripulire i dati
Ma i dati si possono trovare anche sui siti internet esposti come tabelle…..
…..come li togliamo di lì???
Ovvero: KEEP CALM
and WEB
SCRAPING
?????????????????
ma è legale??????????? è etico??????
1. Estraggo i dati dalla tabella
2. Li importo in OpenRefine 3. Modifico il campo
cronologia 4. Esporto come csv
Appuriamolo
NO, no lo è SI, anche se non hanno messo una licenza e potremmo considerare tutto di pubblico dominio, citiamo ugualmente la fonte
…..la ciliegina sulla torta
Dulcis in fundo
I più brutti di tutti…..
Siccome l’archeologia non è solo scavi e ricerche,
ma è anche appalti e contratti
E siccome i dati non sono sempre bene ordinati come quelli del portale della Trasparenza… http://open.pompeiisites.org/
1. Apriamo il portale della
trasparenza
2. Scarichiamo il pdf
3. Estraiamo i dati con tabula
4. Li apriamo in OpenRefine
5. Trasformiamo la data
6. Trasformiamo il campo costi
7. Filtriamo le voci
8. Esportiamo come .csv
Mmmmmmm…..geografia….
2002, Wheatley and Gillings: «Contrary to popular mythology, contemporary professional archaeologists may spend more time using GIS than a trowel» 2014, CAA Session: Is GIS the new trowel?
Sicuramente il GIS permette di scavare nei dati
Geocoding 1. Scarichiamo i dati interventi filtrati da
MAPPAgis 2. Importiamo in OpenRefine 3. Ripuliamo la colonna ubicazioni 4. Applichiamo Fetching URL
"http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url")
5. Trasformiamo in coordinate (lat/long) with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
6. Dividiamo la colonna (split) 7. Esportiamo in .csv 8. Importiamo .csv in qGIS (layer testo
delimitato) 9. Colleghiamo a WMS regione Toscana
http://www502.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmscastore http://web.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmsctr
10.Usiamo OSM 11.Mappa di Concentrazione / KDE
https://github.com/OpenRefine/OpenRefine/wiki/Geocoding
OpenStreetMap
«OpenStreetMap è una mappa liberamente modificabile dell'intero pianeta. È fatta da persone come te. OpenStreetMap permette a chiunque sulla Terra di visualizzare, modificare ed utilizzare dati geografici con un approccio collaborativo.» In parole povere una cartografia collaborativa open data
Ma riguarda anche l’archeologia? Incredibile, SI!
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Nel dicembre 2008 venne fatto un Mapping Party a Pompei, che ha prodotto la migliore cartografia on-line del sito: guardare per credere
OSM Google Map
Diverse rappresentazioni…
…anche 3D
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Molte possibilità di utilizzo dai servizi mobile agli stradari…
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Formati e problemi
http://dati.comune.matera.it/dataset/19luoghidellacultura
.shp VS Geojson
Buon appetito