Date post: | 15-Apr-2017 |
Category: |
Food |
Upload: | data-driven-innovation |
View: | 106 times |
Download: | 2 times |
Mining the web to make hidden agricultural research globally discoverable: the AGRIS case
Fabrizio Celli (FAO)
Data Driven Innovation, Roma, 21 Maggio 2016
Struttura
• L’informazione nascosta
• AGRIS
• L’obiettivo della ricerca
• Crawling and Indexing the web
• Conclusioni
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
L’informazione nascosta
• Scienziati e ricercatori pubblicano risultati su blog personali, siti web e altri social media
• Si raggiungono molte persone velocemente
Ma…
• Occorre cercare tra centinaia di risultati di motori di ricerca come Google
• Spesso l’informazione è poco categorizzata e non strutturata
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Il sistema informativo AGRIS
• International Information System of Agricultural Science and Technology (http://agris.fao.org)
• > 8 milioni di referenze bibliografiche
• > 150 data providers da più di 65 paesi
Google Analytics Aprile 2016
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Gli utenti AGRIS
• Ricercatori, professori, laureandi in cerca di referenze bibliografiche• Ufficiali governativi che devono compilare report su un certo
argomento per discussioni/decisioni a livello politico• Organizzazioni che devono capire in che area investire• Giornali scientifici, organizzatori di conferenze• Bibliotecari• Altro..
AGRIS supporta sia i paesi sviluppati che quelli in via di sviluppo. Accessi
da 200 territori diversi!
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
AGROVOC
• Thesaurus multilingua
• Oltre 32.000 concetti in 23 lingue
• «Ossatura» della ricerca in AGRIS – consente la definizione precisa di un dominio di ricerca
AGROVOC è lo strumento con cui ogni record bibliografico di AGRIS diventa
una pagina web e si interconnette con risorse esterne rilevanti
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
CRAWLING AND INDEXING THE WEB
Questo lavoro è stato in parte finanziato dalla Commissione Europea nell’ambito del progetto EU FP7 SemaGrow (Grant No. 318497)
L’obiettivo della ricerca
• Fornire accesso a dati rilevanti su problemi sensibili relativi al dominio dell’agricoltura– Accesso a ricerche scientifiche pubblicate e a dati
«nascosti»
• Fornire supporto informativo a chi deve prendere decisioni (anche politiche) – … e ai ricercatori!
– Serve comunque una persona che analizzi l’informazione che AGRIS rende disponibile
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Il processo
• «Scoprire» la conoscenza disponibile nel web ma difficilmente raggiungibile
• Crawling periodico del web
• Indicizzazione di pagine web scoperte (AGROVOC)
• Selezione di risorse rilevanti e interconnessione con referenze AGRIS
• Esposizione della conoscenza estratta nelle pagine di mash-up
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Crawling e indicizzazione del web
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Recommender system
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Il risultato finale
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Analisi della rilevanza
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Analisi della rilevanza
• Per ogni articolo AGRIS, almeno una risorsa è rilevante• Precisione media (risorse rilevanti su risorse analizzate):
0.52• Per ogni record, precisone tra 0.2 e 0.8• 39% delle risorse «non rilevanti» sono in realtà troppo
generiche• Un indice di similarità > 50% genera una precisione di
0.69
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
L’indice di similarità
• #COMMON è il numero di URI AGROVOC in comune tra un record AGRIS e una risorsa web
• #AGRIS è il numero di URI AGROVOC associate ad un record AGRIS• τ è un indice di soglia pari al numero medio di termini AGROVOC
associati ai record AGRIS (il valore è 6) • T è il numero massimo di URI AGROVOC associate ad un record
AGRIS che è rilevante per l’indice di similarità (il valore è 10, dato che il web crawler genera massimo 10 URI AGROVOC per risorsa web)
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Statistiche d’uso
• 4% degli utenti che accedono una pagina di mash-up
• In linea con gli altri widget
• Il widget di Google, che permette di trovare fulltext, è notevolmente più usato (16%)
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Conclusioni
• Gli utenti AGRIS hanno ora a disposizione una nuova sorgente di dati: risorse che sono presenti nel web in modo non strutturato e poco categorizzate
• Processo continuo: nuove risorse vengono periodicamente scoperte, arricchite e collegate alla base di dati AGRIS
• Ulteriori studi sono necessari per migliorare la precisione
• Costruendo un nuovo modello per l’AgroTagger, è possibile applicare questo processo ad un dominio diverso– È comunque necessario un thesaurus
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Risorse
• AgroTagger: https://github.com/fcproj/agrotagger
• Recommender System: https://github.com/fcproj/recommender
• SemaGrow Stack: https://github.com/semagrow
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case
Bibliografia
• Discovering, Indexing and Interlinking Information Resources Fabrizio Celli, Johannes Keizer, Yves Jaques, Stasinos Konstantopoulos, Dušan Vudragović. F1000 Research
Mining the web to make hidden agricultural research globally discoverable: the AGRIS
case