+ All Categories
Home > Food > Mining the web to make hidden agricultural research globally discoverable: the AGRIS case

Mining the web to make hidden agricultural research globally discoverable: the AGRIS case

Date post: 15-Apr-2017
Category:
Upload: data-driven-innovation
View: 106 times
Download: 2 times
Share this document with a friend
22
Mining the web to make hidden agricultural research globally discoverable: the AGRIS case Fabrizio Celli (FAO) Data Driven Innovation, Roma, 21 Maggio 2016
Transcript

Mining the web to make hidden agricultural research globally discoverable: the AGRIS case

Fabrizio Celli (FAO)

Data Driven Innovation, Roma, 21 Maggio 2016

Struttura

• L’informazione nascosta

• AGRIS

• L’obiettivo della ricerca

• Crawling and Indexing the web

• Conclusioni

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

L’informazione nascosta

• Scienziati e ricercatori pubblicano risultati su blog personali, siti web e altri social media

• Si raggiungono molte persone velocemente

Ma…

• Occorre cercare tra centinaia di risultati di motori di ricerca come Google

• Spesso l’informazione è poco categorizzata e non strutturata

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

AGRIS

Il sistema informativo AGRIS

• International Information System of Agricultural Science and Technology (http://agris.fao.org)

• > 8 milioni di referenze bibliografiche

• > 150 data providers da più di 65 paesi

Google Analytics Aprile 2016

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Gli utenti AGRIS

• Ricercatori, professori, laureandi in cerca di referenze bibliografiche• Ufficiali governativi che devono compilare report su un certo

argomento per discussioni/decisioni a livello politico• Organizzazioni che devono capire in che area investire• Giornali scientifici, organizzatori di conferenze• Bibliotecari• Altro..

AGRIS supporta sia i paesi sviluppati che quelli in via di sviluppo. Accessi

da 200 territori diversi!

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

AGROVOC

• Thesaurus multilingua

• Oltre 32.000 concetti in 23 lingue

• «Ossatura» della ricerca in AGRIS – consente la definizione precisa di un dominio di ricerca

AGROVOC è lo strumento con cui ogni record bibliografico di AGRIS diventa

una pagina web e si interconnette con risorse esterne rilevanti

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

CRAWLING AND INDEXING THE WEB

Questo lavoro è stato in parte finanziato dalla Commissione Europea nell’ambito del progetto EU FP7 SemaGrow (Grant No. 318497)

L’obiettivo della ricerca

• Fornire accesso a dati rilevanti su problemi sensibili relativi al dominio dell’agricoltura– Accesso a ricerche scientifiche pubblicate e a dati

«nascosti»

• Fornire supporto informativo a chi deve prendere decisioni (anche politiche) – … e ai ricercatori!

– Serve comunque una persona che analizzi l’informazione che AGRIS rende disponibile

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Il processo

• «Scoprire» la conoscenza disponibile nel web ma difficilmente raggiungibile

• Crawling periodico del web

• Indicizzazione di pagine web scoperte (AGROVOC)

• Selezione di risorse rilevanti e interconnessione con referenze AGRIS

• Esposizione della conoscenza estratta nelle pagine di mash-up

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Crawling e indicizzazione del web

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Recommender system

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Il risultato finale

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Analisi della rilevanza

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Analisi della rilevanza

• Per ogni articolo AGRIS, almeno una risorsa è rilevante• Precisione media (risorse rilevanti su risorse analizzate):

0.52• Per ogni record, precisone tra 0.2 e 0.8• 39% delle risorse «non rilevanti» sono in realtà troppo

generiche• Un indice di similarità > 50% genera una precisione di

0.69

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

L’indice di similarità

• #COMMON è il numero di URI AGROVOC in comune tra un record AGRIS e una risorsa web

• #AGRIS è il numero di URI AGROVOC associate ad un record AGRIS• τ è un indice di soglia pari al numero medio di termini AGROVOC

associati ai record AGRIS (il valore è 6) • T è il numero massimo di URI AGROVOC associate ad un record

AGRIS che è rilevante per l’indice di similarità (il valore è 10, dato che il web crawler genera massimo 10 URI AGROVOC per risorsa web)

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Statistiche d’uso

• 4% degli utenti che accedono una pagina di mash-up

• In linea con gli altri widget

• Il widget di Google, che permette di trovare fulltext, è notevolmente più usato (16%)

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Conclusioni

• Gli utenti AGRIS hanno ora a disposizione una nuova sorgente di dati: risorse che sono presenti nel web in modo non strutturato e poco categorizzate

• Processo continuo: nuove risorse vengono periodicamente scoperte, arricchite e collegate alla base di dati AGRIS

• Ulteriori studi sono necessari per migliorare la precisione

• Costruendo un nuovo modello per l’AgroTagger, è possibile applicare questo processo ad un dominio diverso– È comunque necessario un thesaurus

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Risorse

• AgroTagger: https://github.com/fcproj/agrotagger

• Recommender System: https://github.com/fcproj/recommender

• SemaGrow Stack: https://github.com/semagrow

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case

Bibliografia

• Discovering, Indexing and Interlinking Information Resources Fabrizio Celli, Johannes Keizer, Yves Jaques, Stasinos Konstantopoulos, Dušan Vudragović. F1000 Research

Mining the web to make hidden agricultural research globally discoverable: the AGRIS

case


Recommended