+ All Categories
Home > Documents > Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T...

Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T...

Date post: 21-Jun-2020
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
15
Mining the COVID-19 Open Research Dataset using T´ etralogie - Preliminary analysis Fouille de la collection de recherche ouverte COVID-19 avec T´ etralogie - Analyse pr´ eliminaire Bernard Dousset, Josiane Mothe (1) IRIT, UMR5505, CNRS & Univ. Toulouse, France Abstract. This paper reports a very short time and brief analysis of a large data collection of scientific papers on COVID-19. The objective of this analysis was to get a very quick overview of a domain we did not know at all apart from the pieces of news that were looped on TV:the COVID-19. We considered first the meta data file from the open data set that the Allen Institute for AI and collaborators announced (CORD-19). We then consider the PubMed subpart only, but with more information in terms of meta-data. Less than 1 day was devoted to make the analyse and write the report on this data set for which we present the results here. We aim at publishing these first results while we will now check and analyse deeper since quick analyse is also subject to potential errors. We also will complete the analysis base on textual document contents. Abstract. Ce document rapporte une analyse r´ ealis´ ee en tr` es peu de temps sur une vaste collection d’articles scientifiques. L’objectif de cette analyse ´ etait d’obtenir un aper¸cu tr` es rapide d’un domaine que nous ne connaissions pas du tout, `a part les informations en boucle ` a la t´ el´ evision : le COVID-19. Nous avons d’abord consid´ er´ e l’ensemble des donn´ ees ouvertes que l’Institut Allen pour l’IA et ses collaborateurs ont annonc´ e (CORD-19). Nous avons ensuite consid´ er´ e la sous-partie Medline avec un peu plus de meta-donn´ ees. Moins d’une journ´ ee a ´ et´ e consacr´ ee ` a l’analyse et ` a la r´ edaction du rapport sur cet ensembles de donn´ ees dont nous pr´ esentons ici les r´ esultats. Nous avons pour objectif de publier ces premiers r´ esultats rapidement, mais nous allons maintenant v´ erifier et analyser plus en profondeur, car une analyse rapide est ´ egalement sujette ` a des erreurs potentielles. Par ailleurs, nous compl` eterons l’analyse en prenant en compte les contenus des documents. Keywords: Information retrieval, COVID-19, COVID-19 Open Research Dataset, Domain overview, Mining scientific papers 1 Introduction COVID-19 is certainly one of the most important topic these days. While news are looped on TV, a very few people know deeply on it. A lot of fake news started
Transcript
Page 1: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Mining the COVID-19 Open Research Datasetusing Tetralogie - Preliminary analysis

Fouille de la collection de recherche ouverte COVID-19 avec Tetralogie -Analyse preliminaire

Bernard Dousset, Josiane Mothe

(1) IRIT, UMR5505, CNRS & Univ. Toulouse, France

Abstract. This paper reports a very short time and brief analysis of alarge data collection of scientific papers on COVID-19. The objective ofthis analysis was to get a very quick overview of a domain we did notknow at all apart from the pieces of news that were looped on TV:theCOVID-19. We considered first the meta data file from the open data setthat the Allen Institute for AI and collaborators announced (CORD-19).We then consider the PubMed subpart only, but with more informationin terms of meta-data. Less than 1 day was devoted to make the analyseand write the report on this data set for which we present the resultshere. We aim at publishing these first results while we will now checkand analyse deeper since quick analyse is also subject to potential errors.We also will complete the analysis base on textual document contents.

Abstract. Ce document rapporte une analyse realisee en tres peu detemps sur une vaste collection d’articles scientifiques. L’objectif de cetteanalyse etait d’obtenir un apercu tres rapide d’un domaine que nous neconnaissions pas du tout, a part les informations en boucle a la television: le COVID-19. Nous avons d’abord considere l’ensemble des donneesouvertes que l’Institut Allen pour l’IA et ses collaborateurs ont annonce(CORD-19). Nous avons ensuite considere la sous-partie Medline avecun peu plus de meta-donnees. Moins d’une journee a ete consacree al’analyse et a la redaction du rapport sur cet ensembles de donnees dontnous presentons ici les resultats. Nous avons pour objectif de publier cespremiers resultats rapidement, mais nous allons maintenant verifier etanalyser plus en profondeur, car une analyse rapide est egalement sujettea des erreurs potentielles. Par ailleurs, nous completerons l’analyse enprenant en compte les contenus des documents.

Keywords: Information retrieval, COVID-19, COVID-19 Open Research Dataset,Domain overview, Mining scientific papers

1 Introduction

COVID-19 is certainly one of the most important topic these days. While newsare looped on TV, a very few people know deeply on it. A lot of fake news started

Page 2: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

to circulate and speard as fast as the virus it-self. In such situation, scientificpapers are reliable sources that could be used for helping people knowing moreabout it and being informed in an reliable and accurate way.

Mining scientific resources is also a mean to know the main institutes orgroups working in the field, what countries collaborate, what the sub-topics are,etc... Such overview on a large quantity of research papers can help decisionmakers to take decisions based on the educated views of the state of the art.It can also help new comers in the COVID-19 research field by providing anoverview first.

Recently the COVID-19 Open Research Dataset (CORD-19), a free resourceof over 44,000 scholarly articles has been made available thanks to the effort ofthe Allen Institute for AI and partners, including Medline. Part of this data setis the resource for the analysis presented in this paper.

Introduction

COVID-19 est certainement l’un des sujets les plus importants de nos jours. Bienque les informations soient diffusees en boucle a la television, tres peu de gensen savent beaucoup sur ce sujet. Beaucoup de fausses nouvelles ont commencea circuler et a se propager aussi vite que le virus lui-meme. Dans une tellesituation, les articles scientifiques sont des sources fiables qui pourraient etreutilisees pour aider les gens a en savoir plus et a etre informes de maniere fiableet precise. L’exploitation des ressources scientifiques est egalement un moyende connaıtre les principaux instituts ou groupes travaillant dans ce domaine,les pays qui collaborent, les sous-sujets, etc. Une telle vue d’ensemble sur unegrande quantite de documents de recherche peut aider les decideurs a prendredes decisions basees sur les vues eclairees de l’etat de l’art. Elle peut egalementaider les nouveaux venus dans le domaine de la recherche sur le COVID-19 enleur fournissant une vue d’ensemble comme point de depart.

Recemment, la base de donnees de recherche ouverte COVID-19 (CORD-19),une ressource gratuite de plus de 44 000 articles scientifiques, a ete mise a dis-position grace aux efforts de l’Institut Allen pour l’IA et de ses partenaires. Unepartie de cet ensemble de donnees constitue la ressource pour l’analyse presenteedans ce document.

2 Processing sequence

2.1 Genesis

I checked my emails this morning (March 25, 2020) where I read an email men-tioning the release of the COVID-19 Open Research Dataset. I went to theassociated page and find out the Meta data file that fits with the type of datafile our system Tetralogie can analyse. With a colleague we thus decided to makea brief analysis of it.

Page 3: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

2.2 Tasks

My collegue and I decided to conduced a quick analysis of the data collectionusing Tetralogie1; this software allows data analysis and visualization of semi-structured data. Its development started more than a decade ago and is mainlyused to analyse publications and patents to get a view of a specific domain.Examples of such studies are the analysis of strategic alliance networks in thefield of monoclonal antibodies[2], the analysis of the collaboration of a researchlab like in [5]. It relies on a variety of tools that are interactively combined duringthe analysis [3, 4, 1].

We chose some analysis objectives that need as less as possible manual check-ing to be reliable enough.

This paper does no mention other tools that could have been used to conducethe analysis. It does not consider other analysis made on the same domain either.

Sequence de traitement

Genese J’ai consulte mes e-mails a 9h55 ce matin (25 mars 2020) ou j’ai luun e-mail mentionnant la publication de l’ensemble de donnees de recherche ou-vert COVID-19. Je suis alle sur la page associee et j’ai trouve le fichier demetadonnees qui correspond parfaitement au type de fichier de donnees queTetralogie peut analyser. Avec un collegue, nous avons donc decide de realiserune breve analyse sur cette base.

Tache Mon collegue et moi avons decide de proceder a une analyse rapide dela collection de donnees en utilisant Tetralogie2 ; ce logiciel permet l’analyse etla visualisation de donnees semi-structurees. Son developpement a commence ily a plus de dix ans et il est principalement utilise pour analyser les publicationset les brevets afin d’obtenir une vue d’un domaine specifique. Des exemples detelles etudes sont l’analyse des reseaux d’alliance strategique dans le domainedes anticorps monoclonaux[2], l’analyse de la collaboration d’un laboratoire derecherche comme dans [5]. Il s’appuie sur une variete d’outils qui sont combinesde maniere interactive lors de l’analyse [3, 4, 1].

Nous avons choisi des objectifs d’analyse qui necessitent le moins possible decontroles manuels pour etre suffisamment fiables.

Ce document ne mentionne pas d’autres outils qui auraient pu etre utilisespour mener l’analyse. Il ne prend pas non plus en consideration d’autres analyseseffectuees sur le meme domaine.

3 Data set

The CORD-19 data set is available at https://pages.semanticscholar.org/coronavirus-research. This data set consists of multiple files.

1 https://atlas.irit.fr/PIE/Outils/Tetralogie.html2 https://atlas.irit.fr/PIE/Outils/Tetralogie.html

Page 4: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Among them, the Metadata file (60Mb) is a CSV file corresponding to 44,270research articles with links to PubMed, Microsoft Academic and the WHOCOVID-19 database of publications. The fields of the structure of the recordsare as follows: title, doi, abstract, date of publication, authors, journal, as wellas internal document ids (PMC ID, PUBMED ID, Microsoft Academic PaperID, WHO ID) and information whether the full text is available or not.

While the meta file is a rich source of information, other information canbe very useful such as the affiliation of the authors. For this reason we alsoconsidered a more complete set regarding the attributes that are provided, alsoif it does not contains all the 44k scientific papers but about 25k papers. Wefocused on the documents from PubMed only.

The query used to query the collection is”COVID-19” OR Coronavirus OR ”Corona virus” OR ”2019-nCoV” OR ”SARS-CoV” OR ”MERS-CoV” OR “Severe Acute Respiratory Syndrome” OR “MiddleEast Respiratory Syndrome”

Donnees

L’ensemble de donnees CORD-19 est disponible surhttps: // pages. semanticscholar. org/ coronavirus-research . Cet ensem-ble de donnees est constitue de plusieurs fichiers. Parmi eux, le fichier demetadonnees (60Mb) est un fichier CSV correspondant a 44 270 articles derecherche avec des liens vers PubMed, Microsoft Academic et la base de donneesde publications COVID-19 de l’OMS. Les champs de la structure des enreg-istrements sont les suivants : titre, doi, resume, date de publication, auteurs,revue, ainsi que les ID de documents internes (PMC ID, PUBMED ID, Mi-crosoft Academic Paper ID, WHO ID) et des informations indiquant si le texteintegral est disponible ou non.

Bien que le metafichier soit une source d’information tres riche, d’autres in-formations peuvent etre tres utiles, comme l’affiliation des auteurs. C’est pourquoinous avons egalement etudie un ensemble plus complet vis a vis des champs dedonnees disponibles, meme s’il ne contient pas l’ensemble des 44 000 articlesscientifiques mais environ 25 000 articles. Nous nous sommes concentres sur lesdocuments de PubMed uniquement. La requete utilisee pour collecter la collec-tion est:”COVID-19” OR Coronavirus OR ”Corona virus” OR ”2019-nCoV” OR ”SARS-CoV” OR ”MERS-CoV” OR “Severe Acute Respiratory Syndrome” OR “MiddleEast Respiratory Syndrome”

4 Preliminary comment

The information we use is raw data and for this reason the conclusions drawnhave to be handle with caution because in this rapid analysis, we did not solvedcontent anomalies such as variants of entities spelling (e.g. author names). Thereare also missing values that we did not consider either.

Page 5: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Authors Venues131 BARIC, RALPH S. 2537 JOURNAL OF VIROLOGY125 PERLMAN, STANLEY 1560 PLOS ONE123 YUEN, KWOK-YUNG 749 EMERGING INFECTIOUS DISEASES116 DROSTEN, CHRISTIAN 559 VIRUSES111 JIANG, SHIBO 509 ARCHIVES OF VIROLOGY91 ENJUANES, LUIS 488 SCIENTIFIC REPORTS90 SNIJDER, ERIC J. 474 JOURNAL OF CLINICAL MICROBIOLOGY75 DU, LANYING 421 PROC. OF THE NAT. ACADEMY OF SCIENCES OF THE USA72 WEISS, SUSAN R. 359 PLOS PATHOGENS72 WANG, LIN-FA 354 VIROLOGY JOURNAL

Table 1. 10 top authors (full author names), venues and the number of times they areassociated to a publication within the analysed data base.

As an illustration, without making any treatment on possible variants in thejournal names nor in the full authors names (different spelling and/or abbrevi-ations), the 10 most frequent journals and authors that are mentioned in thisdata set are as presented in Table 1 (the number corresponds to the number ofpapers published in that journal or by that author among the 25k papers):

Despite its undeniable merits, the data base contains indeed some misspellingsand various writings of entities (which is a well known problem in data analysis)that can make difficult to conclude on some points. For example, while PERL-MAN (the first author in Table 1) has only two spellings in the file, DROSRENhas 5 and BARIC, Ralph Steven has potentially 8 as follows (with their fre-quency):131 BARIC, RALPH S.31 BARIC, RALPH11 BARIC, R S8 BARIC, RALPH S2 BARIC, R. S.1 BARIC, RALPH STEVEN1 BARIC., RALPH1 BARIC, RALPH A.

Considering now the various spellings of the first four authors the rank of themore occurring authors changes slightly but also the number of papers associatedto each author changes. There are 108,890 author occurrences (an author mayoccurs in different publications) in this collection. The number of occurrences ofthe 4 first authors from Table 1 are presented in Table 2 when variants in namespelling are conflated into a single one.

This can be considered as a minor problem in some cases, specifically for fastanalysis but can be a more important problem in deeper analysis. Moreover, inthe collection, not all the publications are described both by the full name of theauthors and their short names. Specifically, the oldest publications seem not tocontain full author names.

Page 6: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Authors without variants with variants

BARIC, RALPH S. 185 131PERLMAN, STANLEY 132 125YUEN, KWOK-YUNG 149 123DROSTEN, CHRISTIAN 118 116

Table 2. 4 top authors from Table 1 when solving different spelling problems.

The same type of unsolved different spelling and missing data occur for theother fields as well. In the rest of the document, we consider raw data for whichwe did not solve the problem of missing values, nor the one of variants in nameentities because even if we have some automatic treatment to do so, manualchecking remains necessarely which is time consuming and not applicable for arapid analysis.

Commentaires preliminaires

Les informations que nous utilisons sont des donnees brutes et, pour cette raison,les conclusions tirees doivent etre manipulees avec des precaution. En effet, danscette analyse rapide, nous n’avons pas resolu les anomalies de contenu telles queles variantes orthographiques des entites (par exemple les noms d’auteurs). Il ya egalement des valeurs manquantes que nous n’avons pas non plus prises encompte.

A titre d’illustration, sans faire de traitement sur les variantes possibles dansles noms des revues ni dans les noms complets des auteurs (orthographe differenteet/ou abreviations), les 10 revues et auteurs les plus frequents qui sont men-tionnes dans cet ensemble de donnees sont presentes dans le tableau 1 (le nom-bre correspond au nombre d’articles publies dans cette revue ou par cet auteurparmi les 25k articles) :

Malgre ses merites indeniables, la base de donnees contient en effet quelquesfautes d’orthographe et diverses ecritures d’entites (ce qui est un problemebien connu dans l’analyse des donnees) qui peuvent rendre difficile la conclu-sion sur certains points. Par exemple, alors que PERLMAN (le premier auteurdu tableau 1) n’a que deux orthographes dans le fichier, DROSREN en a 5 etBARIC, Ralph Steven en a potentiellement 8 comme suit (avec leur frequence):131 BARIC, RALPH S.31 BARIC, RALPH11 BARIC, R S8 BARIC, RALPH S2 BARIC, R. S.1 BARIC, RALPH STEVEN1 BARIC., RALPH1 BARIC, RALPH A.

En considerant maintenant les differentes orthographes des quatre premiersauteurs, le rang des auteurs les plus presents change legerement mais egalement

Page 7: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 1. Number of publications - Evolution (Nombre de publications - Evolution).

le nombre d’articles associes a chaque auteur change. Il y a 108 890 occurrencesd’auteurs (un auteur peut se trouver dans differentes publications). Le nombred’occurrences des 4 premiers auteurs du tableau 1 est presente dans le tableau 2lorsque les variantes de l’orthographe du nom sont ramenees a une seule.

Cela peut etre considere comme un probleme mineur dans certains cas, enparticulier pour une analyse rapide, mais peut constituer un probleme plus cru-cial dans le cadre d’une analyse plus approfondie. En outre, dans la collection,toutes les publications ne sont pas decrites a la fois par le nom complet des au-teurs et par leur nom abrege. Plus precisement, les publications les plus anciennesne contiennent pas les noms complets des auteurs.

Le meme type d’orthographe differente non resolue et de donnees manquantesse produisent egalement pour les autres champs de donnees. Dans le reste dudocument, nous considerons les donnees brutes sans resoudre ces problemes quinecessite des interventions humaines de verification et qui n’est donc pas appro-prie pour une analyse rapide.

5 Number of publications

Figure 1 shows the evolution of the number of publications over time. There arefinally classical curves that are common to various topics with a rapid increasein recent years and a large number of publications in USA and China althoughit would be worth looking at the European case as a unit.

Page 8: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 2. Baric’s network (considering publications where the full author name occur).

Nombre de publications

La figure 1 presente l’evolution du nombre de publications au cours du temps.Ce sont des courbes finalement classiques dans de nombreux domaines avec uneaugmentation des publications dans les annees recentes et une part importantedes publications signees par les USA et la Chine. Il pourrait etre interessant deprendre en compte l’Europe comme une unite.

6 Collaborations at the author level

Figure 2 displays BARIC, RALPH S.’s direct network (co-authors). This net-works considers the publications from the dataset where the full author namesare included. Notice that the other most occurring authors (See Table 2) are inthis network.

In a similar way, Figure 3 displays BARIC, RALPH S.’s direct network withjournals. This networks considers the publications from the dataset where thefull author names are included as well as the journal; journals in which a singlepublication of the author occurs have been removed. Combined with the mostfrequent venues, it provides an additional information on venues.

Finally, Figure 4 displays the strongest communities based on co-authorship.This network considers the publications from the dataset where the full authornames are included and for which co-authoring occurs in at least 20 publications.

Page 9: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 3. Baric’s network with journals.

Fig. 4. Strongest author networks (considering publications where the full author nameoccur).

Collaboration au niveau des auteurs

La Figure 2 affiche le reseau direct de BARIC, RALPH S. (co-auteurs). Cereseau prend en compte les publications de l’ensemble de donnees ou les nomscomplets des auteurs sont inclus. Les autres auteurs les plus frequents (VoirTable 2) se trouvent dans ce reseau.

De facon similaire, la Figure 3 affiche le reseau direct de BARIC, RALPHS. avec les journaux. Ce reseau prend en compte les publications de l’ensemblede donnees dans lesquelles les noms complets des auteurs sont inclus et lorsquela revue est mentionnee ; les revues dans lesquelles l’auteur n’apparait qu’uneseule fois ont ete supprimees. Combinee avec les lieux les plus frequents, cettevue fournit une information supplementaire sur les journaux.

Page 10: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 5. Geographic overview of the contributions - the brighter, the larger.

La Figure 4 affiche les communautes les plus fortes sur la base des co-auteurs.Ce reseau prend en compte les publications de l’ensemble de donnees ou les nomscomplets des auteurs sont inclus et pour lesquelles la co-publication est presentedans au moins 20 publications.

7 Collaboration and engagement at the geographic level

In this section, we consider the authors’ affiliation when mentioned in the datacollection. We made a focus on China and USA with two different perspectivesas presented below.

In Figure 5, we can see the contribution of the different countries to thecollection. Not surprisingly USA and China are dominating. We are then givingtwo different types of focus in what follows.

Figure 6 presents the network of the collaborations between the various partsof China (in red) and the other countries (in blue) based on the authors’ affili-ations. The weights on the links correspond to the number of publications thatare mentioned as being written by authors from both linked locations. For ex-ample, one of the strongest is between USA and Beijing institutions. Anotherimportant one is with Guang Dong. A deeper analysis could be made at theinstitution level.

In Figure 7 we can observe the collaborations that are mentioned with USA.For garnet-colored parts, there are no collaboration with other countries men-tioned. In orange, there are collaborations, but not with USA, in various levelsof green, the collaboration with USA are mentioned.

With regard to USA, we looked at another dimension which is related to theeffort each state put according to various criteria. Rather than observing the

Page 11: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 6. Focus on China collaborations.

absolute values of the number of publications, the maps represent the ratio witheither the population or the gross national income (See Figure 8).

Collaboration et engagement au niveau geographique

Dans cette section, nous considerons l’affiliation des auteurs lorsqu’elle est men-tionnee dans la collection de donnees. Nous avons mis l’accent sur la Chine etles Etats-Unis avec deux perspectives differentes, presentees ci-dessous.

La figure 6 presente le reseau des collaborations entre les differentes partiesde la Chine (en rouge) et les autres pays (en bleu) en fonction des affiliationsdes auteurs. Les poids sur les liens correspondent au nombre de publicationsmentionnees comme etant ecrites par des auteurs des deux endroits lies. Par ex-emple, l’un des liens les plus forts est celui entre les Etats-Unis et les institutionsde Pekin. Un autre lien important est celui avec Guang Dong. Une analyse plusapprofondie pourrait etre faite au niveau des institutions.

Page 12: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 7. Focus on China-USA collaborations.

Fig. 8. Contribution of the different states relatively to the population (left side part)and relatively to the gross national income (right side part).

Dans la figure 7, nous pouvons observer les collaborations qui sont men-tionnees avec les Etats-Unis. Pour les pieces de couleur grenat, il n’y a pas decollaboration avec les autres pays mentionnes. En orange, il y a des collabora-tions, mais pas avec les Etats-Unis. En vert, nous voyons la collaboration avecles Etats-Unis a differents niveaux.

En ce qui concerne les Etats-Unis, nous avons examine une autre dimensionqui est liee a l’effort que chaque Etat deploie selon divers criteres. Plutot qued’observer les valeurs absolues du nombre de publications, les cartes represententle rapport avec la population ou le produit national brut (See Figure 8).

8 Textual analysis

We considered the title only in this analysis while abstracts would be muchappropriate to consider because they are more complete. Authors’ or editor’skey-words were not available thus were not used.

Page 13: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

Fig. 9. Examples of phrases that have been generated from titles and extracted.

Fig. 10. Examples of clusters of phrases from titles.

Figure 9 presents some of the phrases we automatically extracted from thetitles. Some phrases are used together in titles. When considering the phraseco-occurrences larger than 1, it is then possible to extract phrase clusters as theone presented in Figure 10. As one can see, some of these phrases are deeplyconnected with population concerns about the COVID-19 such as ”Early stageinfection” or ”factor associated with severity” or ”wearable proximity”. These arevery interesting starting point for deeper analysis. These key phrases extractedfrom free text are also a very good way to detect topical subjects of interest thatcan be difficult to extract from keywords fields when provided.

Analyse textuelle

Nous n’avons tenu compte que du titre dans cette analyse, alors que les resumesseraient tout a fait appropries a considerer car ils sont plus complets. Les mots-cles des auteurs ou des editeurs n’etant pas disponibles, ils n’ont pas ete utilisesici.

Page 14: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

La figure 9 presente certains des groupes de mots que nous avons automa-tiquement extraits des titres. Certains groupes de mots sont utilises ensembledans les titres. Si l’on ne considere que les cooccurrences de phrases superieuresa 1, il est alors possible d’extraire des groupes de phrases comme celui presentedans la figure 10. Comme on peut le voir, certaines de ces expressions sontetroitement liees aux preoccupations de la population concernant la COVID-19,telles que ”infection a un stade precoce” ou ”facteur associe a la gravite” ou”proximite de la personne”. Ce sont des points de depart tres interessants pourune analyse plus approfondie. Ces phrases cles extraites de textes libres sontegalement un tres bon moyen de detecter des sujets d’actualite interessants quipeuvent etre difficiles a extraire des champs de mots cles lorsqu’ils sont fournis.

9 Conclusion

The purpose of this short report was to present a quick overview of a set ofscientific documents collected on the topic of COVID-19. We focused on thesimplest metadata to analyse. This study should be extended by a more detailedstudy at the level of institutions for example. The European effort as a unit couldalso be included. Finally, the analysis of the content of the paper abstracts wouldbe a particularly interesting contribution. We do believe that this analysis willbe also useful for the coming COVIDSearch task https://dmice.ohsu.edu/

hersh/COVIDSearch.html.It is important to mention that this document and the analysis it presents

were completed in less than 24 hours. There are necessarily some details missingand certainly important ones.

Conclusion

Cet article avait pour objectif de presenter une vue rapide d’un ensemble dedocuments scientifiques collectes sur le theme du COVID-19. Nous nous sommesfocalises sur les meta-donnees les plus simples a analyser. Cette etude devrait etreprolongee par une etude plus fine au niveau des institutions par exemple. L’effortde l’Europe consideree comme une unite pourrait egalement etre inclue. Enfin,l’analyse du contenu des resumes serait un apport particulierement interessant.Nous pensons que cette analyse sera egalement utile pour la tache COVIDSearcha venir https: // dmice. ohsu. edu/ hersh/ COVIDSearch. html .

Enfin, ce document et l’analyse qui y est presente ont ete realises en moinsde 24 heures. Il manque forcement alors des details et certainement importants.

Nous nous sommes appuyes sur DeepL pour certaines traductions dans cedocument www. DeepL. com/ Translator( versiongratuite) .

References

1. Z. Boulouard, L. Koutti, N. Chouati, A. El Haddadi, B. Dousset, A. El Haddadi,and F. Bouhafer. Visualizing large graphs out of unstructured data for competitive

Page 15: Mining the COVID-19 Open Research Dataset using …Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis Fouille de la collection de recherche ouverte

intelligence purposes. In Proceedings of SAI Intelligent Systems Conference, pages605–626. Springer, 2016.

2. B. Gay and B. Dousset. Les reseaux d’alliances strategiques dans le domainedes anticorps monoclonaux: etude longitudinale. In Journees sur les systemesd’information elaboree, 2005.

3. I. Ghalamallah, A. Grimeh, and B. Dousset. Processing data stream by relationalanalysis. Dans: REVUE MODULAD, pages 67–70, 2007.

4. J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, and S. Karouach. Combining miningand visualization tools to discover the geographic structure of a domain. Computers,environment and urban systems, 30(4):460–484, 2006.

5. J.-L. MULTON, G. BRANCA-LACOMBE, and B. DOUSSET. Analyse bib-liometrique des collaborations internationales de l’inra. In VSST’2001: veillestrategique scientifique & technologique: systemes d’information elaboree, bib-liometrie, linguistique intelligence economique (Barcelone, 15-19 octobre 2001),pages Vol1–261, 2001.


Recommended