+ All Categories
Home > Data & Analytics > Utilidad de los datos enlazados para la terminología

Utilidad de los datos enlazados para la terminología

Date post: 22-Jan-2018
Category:
Upload: jorge-gracia
View: 170 times
Download: 2 times
Share this document with a friend
36
Utilidad de los datos enlazados para la terminología Jorge Gracia Ontology Engineering Group Dpto. de Inteligencia Artificial Universidad Politécnica de Madrid [email protected] Jornada sobre “TERMINESP y la terminología del español” Representación de la Comisión Europea en España, Madrid 28 de octubre de 2016
Transcript
Page 1: Utilidad de los datos enlazados para la terminología

Utilidad de los datos enlazados

para la terminología

Jorge Gracia

Ontology Engineering Group

Dpto. de Inteligencia Artificial

Universidad Politécnica de Madrid

[email protected]

Jornada sobre “TERMINESP y la terminología del español”

Representación de la Comisión Europea en España, Madrid

28 de octubre de 2016

Page 2: Utilidad de los datos enlazados para la terminología

Recursos lingüísticos

en la Web

2

2

Page 3: Utilidad de los datos enlazados para la terminología

Recursos lingüísticos en la Web

Recursos Lingüísticos Electrónicos

• corpus

• lexicones

• diccionarios

• “wordnets”

• terminologías

• etc.

3

Page 4: Utilidad de los datos enlazados para la terminología

Recursos lingüísticos en la Web

Actualmente…

• En formatos heterogéneos

• Diferentes esquemas de representación

• APIs no estándar

• Aislados entre sí (“data silos”)

• Diferentes niveles de acceso (desde “mándame un email” a servicios

web)

• Múltiples catálogos de recursos lingüísticos con diferentes metadatos y

esquemas de representación

Por tanto... el descubrimiento y reutilización de RLs resulta costoso en

tiempo y esfuerzo

4

Page 5: Utilidad de los datos enlazados para la terminología

*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

“Red”

Etimología: Del latin “rete”

Género: “f”

Definición: “Conjunto de

ordenadores o de equipos

informáticos conectados entre

sí….”

“Red”

Traducciones: “xarxa”(ca), “rede”(ga), …

“Red”

Norma: UNE 21302-131

Inglés: network

Alemán: Netzwerk

“Red”

Pronunciation: [red]

Grammar category: sustantivo femenino

Singular: “red”

Plural: “redes”

“Red_de_computadores”

Category: redes informáticas

Image

Recursos lingüísticos en la Web

“Red” (de

ordenadores)

5

Page 6: Utilidad de los datos enlazados para la terminología

*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell

“Red”

Etimología: Del latin “rete”

Género: “f”

Definición: “Conjunto de

ordenadores o de equipos

informáticos conectados entre

sí….”

“Red”

Traducciones: “xarxa”(ca), “rede”(ga), …

“Red”

Norma: UNE 21302-131

Inglés: network

Alemán: Netzwerk

“Red”

Pronunciation: [red]

Grammar category: sustantivo femenino

Singular: “red”

Plural: “redes”

“Red_de_computadores”

Category: redes informáticas

Image

Recursos lingüísticos en la Web

Información

complementaria

pero no conectada

6

Page 7: Utilidad de los datos enlazados para la terminología

Datos enlazados para los

recursos lingüísticos

7

Page 8: Utilidad de los datos enlazados para la terminología

Datos enlazados

Prinicipos de los Datos Enlazados

(linked data principles)

1. Usar URIs (Uniform Resource Identifiers) para identificar

“cosas” en la Web

2. Usar HTTP URIs para que la gente pueda acceder a

esos identificadores y obtener algo

3. Cuando alguien accede a una URI, debe proporcionarse

información útil sobre el recurso que identifica (en RDF)

4. Incluir enlaces a otras URIs, para que se puedan

descubrir más cosas.

8

8

Page 9: Utilidad de los datos enlazados para la terminología

Datos enlazados

9

9

Page 10: Utilidad de los datos enlazados para la terminología

Datos enlazados

Red

Phonetic form

Form

numbersingular

[RED]

Form

plural

[REDES]

Phonetic form

number

Red

Sense

written form

“red”@es

Sense

written form

“xarxa”@ca

translation

Red

image

Red

Sense Sense

translation written form

“red” “network”

written form

Red

written form

Form

gender

femenine

“red”

10

Page 11: Utilidad de los datos enlazados para la terminología

Datos enlazados

Red

Phonetic form

Form

numbersingular

[RED]

Form

plural

[REDES]

Phonetic form

number

Red

Sense

written form

“red”@es

Sense

written form

“xarxa”@ca

translation

Red

image

Red

Sense Sense

translation written form

“red” “network”

written form

Red

written form

Form

gender

femenine

“red”

11

Page 12: Utilidad de los datos enlazados para la terminología

Datos enlazados

Algunos BENEFICIOS de los recursos lingüísticos

como datos enlazados

• Agregación e integración de recursos lingüísticos

• Los datos se exponen de manera estandarizada (SPARQL)

• Se facilita el descubrimiento de los datos

• Uso de vocabularios acordados para representar contenido

lingüístico

NIFNLP Interchange Format

12

12

Page 13: Utilidad de los datos enlazados para la terminología

Datos enlazados

Linguistic Linked Data Cloud

Aparición de la “nube de datos lingüísticos enlazados”

Linguistic Linked Open Data (LLOD) cloud

13

http://linguistic-lod.org/llod-cloud

13

Page 14: Utilidad de los datos enlazados para la terminología

El modelo lemon-ontolex

14

Page 15: Utilidad de los datos enlazados para la terminología

lemon-ontolex

15

El núcleo del modelo

https://www.w3.org/2016/05/ontolex/

Page 16: Utilidad de los datos enlazados para la terminología

lemon-ontolex

16

El módulo vartrans

Page 17: Utilidad de los datos enlazados para la terminología

Datos enlazados en

terminologías:

Terminoteca RDF

17

Page 18: Utilidad de los datos enlazados para la terminología

Terminesp TERMCAT IATEOtras

terminologías

Terminoteca RDF

18

Page 19: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

TERMINOTECA RDF como demostrador del potencial de los datos enlazados en terminologías

• Basado en Terminesp y Termcat

• Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín

http://linguistic.linkeddata.es/terminoteca/

19

Page 20: Utilidad de los datos enlazados para la terminología

Terminesp

TERMINESP es la base de datos terminológica creada por AETER

(Asociación Española de Terminología) en base a la terminología

contenida en las normas UNE (AENOR)

>30,000 términos técnicos con definiciones (en español)

Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, …

Traducciones al Inglés, francés, alemán, italiano, sueco

Denominación científica (latín)

20

http://www.wikilengua.org/index.php/Wikilengua:Terminesp

Page 21: Utilidad de los datos enlazados para la terminología

Terminesp

4

http://www.wikilengua.org/index.php/Wikilengua:Terminesp

21

Page 22: Utilidad de los datos enlazados para la terminología

Termcat

http://www.termcat.cat/en/Terminologia_Oberta/

TERMCAT es el centro de terminología de la lengua catalana,

responsable de la Terminologia Oberta:

Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad

de la información, Telecomunicaciones, Industria electrónica]

Traducciones al español, inglés y francés

Siglas, abreviaturas, sinónimos,…

22

Page 23: Utilidad de los datos enlazados para la terminología

Termcat

http://www.termcat.cat/en/Terminologia_Oberta/

23

Page 24: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

Conversión de TERMINESP y TERMCAT a datos enlazados:

De acuerdo al modelo lemon-ontolex

Cada elemento lingüístico (lexical entry, lexical form, lexical sense,

translation, …) identificado con una URI

Creación de conceptos en skos para dar cuenta de la información

semántica

En TERMINESP:

>30000 conceptos creados

Añadida información de categorías gramaticales (part-of-speech)

Añadido el tipo de sintagma (nominal, adjetival, preposicional, …)

En TERMCAT:

> 7000 conceptos creados (tres dominios)

24

Page 25: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

25

DE ES

SV

IT

FR

EN

ES

FR

EN

CA

Page 26: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

26

DE ES

SV

IT

FR

EN

CA

Terminoteca-RDF

Page 27: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

27

Page 28: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

28

Page 29: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

29

Page 30: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

Interfaz web para obtener traducciones directas

http://linguistic.linkeddata.es/terminoteca/search/

30

Page 31: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

31

Motor SPARQL para búsquedas semánticas más complejas

http://linguistic.linkeddata.es/terminoteca/sparql-editor/

Page 32: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp]

del término en español ‘amplificador’, indicando el origen de los datos y el

dominio de aplicación.”

32

wr_target provenance subject

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s

ocietat%20de%20la%20informacio.xml"Electrònica"@ca

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr

onica%20i%20dels%20materials%20electrics.xml"Electrònica"@ca

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s

ocietat%20de%20la%20informacio.xml"Societat de la informació"@ca

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr

onica%20i%20dels%20materials%20electrics.xml"Societat de la informació"@ca

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s

ocietat%20de%20la%20informacio.xml"Telecomunicacions"@ca

"amplificador"@cahttp://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr

onica%20i%20dels%20materials%20electrics.xml"Telecomunicacions"@ca

"Verstärker"@de http://www.wikilengua.org

"Verstärket"@de http://www.wikilengua.org

Page 33: Utilidad de los datos enlazados para la terminología

Terminoteca RDF

33

Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés

que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].”

label initialism

"code division multiple access"@en "CDMA"@en

"time division multiple access"@en "TDMA"@en

"light-emitting diode"@en "LED"@en

"unipolar transistor"@en "FET"@en

"N-channel field-effect transistor"@en "N-FET"@en

"database management system"@en "DBMS"@en

"frequency division multiple access"@en "FDMA"@en

"low-noise amplifier"@en "LNA"@en

"automatic gain control"@en "AGC"@en

"programmable logic controller"@en "PLC"@en

"alternating current"@en "AC"@en

"direct current"@en "DC"@en

"programmable logic device"@en "PLD"@en

Page 34: Utilidad de los datos enlazados para la terminología

Conclusiones

Page 35: Utilidad de los datos enlazados para la terminología

Conclusiones

• Los datos enlazados pueden ser de utilidad para los recursos

lingüísticos en general y las terminologías en particular

• Iniciativa Terminoteca RDF: crear un grafo unificado de

terminologías en España basado en técnicas de datos enlazados

• Validación y enriquecimiento de los datos, y enlazado a otras

fuentes

• Futuros pasos:

• Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia,

Apertium)

• Evolución más allá de estado de “prototipo” de investigación

• Interacción más directa con los propios procesos de

creación/validación/publicación de datos de Terminesp y Termcat

35

Page 36: Utilidad de los datos enlazados para la terminología

¡Gracias!

36Ontology Engineering Group


Recommended