Hondarribi 2004Hondarribi 2004
Taxonomías documentales y Taxonomías documentales y categorización textualcategorización textual
Abaitua, Barrutieta, Díaz, Jacob, QuintanaAbaitua, Barrutieta, Díaz, Jacob, Quintana
DELiDELi
22DELi (UD)DELi (UD)
ObjetivosObjetivos
• Convertir un corpus en una base Convertir un corpus en una base documentaldocumental
– organizar la masa informe de textos en organizar la masa informe de textos en
taxonomías “pragmáticas” taxonomías “pragmáticas” (p.ej. géneros)(p.ej. géneros)
• Categorización automáticaCategorización automática• Segmentación de texto basada en Segmentación de texto basada en
unidades retóricas unidades retóricas (¿RST?)(¿RST?)
• Open Taxonomy MLOpen Taxonomy ML
33DELi (UD)DELi (UD)
Clasificación documental:Clasificación documental:tres corrientestres corrientes
• Documentación Documentación – (metadatos)(metadatos)
• Recuperación de información Recuperación de información – (machine learning, clasificadores (machine learning, clasificadores
probabilísticos, algoritmos genéticos)probabilísticos, algoritmos genéticos)
• Traductología, lingüística aplicada, Traductología, lingüística aplicada, pragmática pragmática – (funciones comunicativas, género)(funciones comunicativas, género)
44DELi (UD)DELi (UD)
Clasificación documental:Clasificación documental:corriente 1corriente 1
• Documentación (metadatos)Documentación (metadatos)– bibliotecas MARCS, UDC, tesaurosbibliotecas MARCS, UDC, tesauros
• metadata (author, title, series, subject, physical metadata (author, title, series, subject, physical description, etc.)description, etc.)
• httphttp://://xmlmarcxmlmarc..stanfordstanford..eduedu/XML//XML/samplessamples/99F937L./99F937L.xmlxml
• subjectssubjects (e.g. 8 Language, 82 Literature, 82.06 (e.g. 8 Language, 82 Literature, 82.06 Translation)Translation)
– lingüística de corpus (TEI, EAGLES, lingüística de corpus (TEI, EAGLES, MULTEXT, CES, ISLE, OLAC)MULTEXT, CES, ISLE, OLAC)
– web semántica (DCMI, WOL)web semántica (DCMI, WOL)
55DELi (UD)DELi (UD)
Clasificación documental:Clasificación documental:corriente 2corriente 2
• Recuperación de informaciónRecuperación de información– Categorización textual Categorización textual (Sebastiani 1999)(Sebastiani 1999)
• indexación automática indexación automática (asignación de palabras claves)(asignación de palabras claves)
• organización documental (clasificación por categorías, organización documental (clasificación por categorías, directorios Yahoo!), directorios Yahoo!),
• filtrado (dentro del flujo de trabajo)filtrado (dentro del flujo de trabajo)
• WSDWSD
– Categorías basadas en “contenidos”Categorías basadas en “contenidos”• Categorisation into “concept” hierarchies (Sebastiani 1999, Categorisation into “concept” hierarchies (Sebastiani 1999, Bouquet et al
2003)2003)• ““into topical categories on the basis of content [...] within the general into topical categories on the basis of content [...] within the general
machine learning paradigm”machine learning paradigm”• ““semantic mappings across hierarchical classifications of contentsemantic mappings across hierarchical classifications of content””
66DELi (UD)DELi (UD)
Clasificación documental:Clasificación documental:corriente 3corriente 3
• Ciencias cognitivas Ciencias cognitivas (Austin 1962, Searle 1969, (Austin 1962, Searle 1969, Cohen & Perrault 1979)Cohen & Perrault 1979)– speech actsspeech acts
• Lingüística aplicada, pragmática Lingüística aplicada, pragmática (Halliday (Halliday 1971, Biber 1989, Bhatia 1993)1971, Biber 1989, Bhatia 1993)– communicative functions, rhetorical strategies, genrescommunicative functions, rhetorical strategies, genres
• Traductología Traductología (Hatim & Basin 1990, Trosborg (Hatim & Basin 1990, Trosborg 1997)1997)– text typology, genrestext typology, genres
77DELi (UD)DELi (UD)
Clasificación por génerosClasificación por géneros• tipos textuales fáciles de reconocer por los tipos textuales fáciles de reconocer por los
“traductores”“traductores”• ““reflect differences in reflect differences in external format external format
and situations of useand situations of use, and are defined , and are defined on the basis of systematic on the basis of systematic non-linguistic non-linguistic criteriacriteria”” (Trosborg 1997) (Trosborg 1997)
• ““coded andcoded and keyed eventskeyed events set within set within social communicative processsocial communicative process”(Todorov ”(Todorov 1976, Fowler 1982, Swales 1990).1976, Fowler 1982, Swales 1990).
• UD-corpus: 25 genresUD-corpus: 25 genres• Not effective for rapid interactionNot effective for rapid interaction
88DELi (UD)DELi (UD)
Sistema de gestión documental Sistema de gestión documental (SARE-Bi)(SARE-Bi)
• Hierarchical Hierarchical taxonomy of 3 levelstaxonomy of 3 levels– communicative communicative
function (3)function (3)– genre (25)genre (25)– topic (250)topic (250)
(Trosborg 1997)(Trosborg 1997)
30000/inquirir31100/ ficha31101/ aceptación o renuncia de beca31102/ boletín de inscripción31103/ datos de viaje31104/ modelo de pago31105/ relación de coordinadores departamentales31106/ planificación actividad de profesores31107/ prácticas31108/ datos estadísticos31109/ boletín subscripción revista31200/ impreso31201/ de solicitud de beca31202/ de solicitud de expediente31203/ de solicitud de admisión31204/ de solicitud de alojamiento31205/ de programa Sócrates31206/ de matrícula31207/ factura31208/ recibí31209/ petición de fotocopias
99DELi (UD)DELi (UD)
Clasificación por génerosClasificación por géneros
11000/autorización
11100/acuerdo
11200/instrucciones
11300/normativa
11400/bases
11500/plan
11600/ceremonial
21100/aviso
21200/carta (está firmada)
21300/saluda (no se rubrica)
21400/certificado (por)
21500/convocatoria
21600/tarjeta de invitación
21700/folleto (imprenta)
21800/guía
21900/memoria
22000/catálogo
23000/actas
23100/anuncios en prensa
23200/carteles de propaganda
23700/nombramientos
31100/ficha
31200/impreso
31300/cuestionario
31400/instancia
1010DELi (UD)DELi (UD)
Géneros y subgénerosGéneros y subgéneros(o ¿temas?)(o ¿temas?)
21400/certificado (por)
21401/matrícula de curso
21402/asistencia a curso 21403/participación en curso 21404/plaza en programa 21405/admisión en estudios 21406/derechos de título pagados 21407/asignaturas de carrera superadas y prueba de conjunto pendiente
21408/asignaturas de carrera y prueba de conjunto superadas 21409/superación de pruebas 21410/suficiencia investigadora
21421/oyente en actividad (congreso, jornada, seminario...) 21422/organizador de actividad 21423/ponente en actividad 21424/evaluador en actividad 21425/miembro de comité científico en actividad
21441/participación en informe 21442/participación en proyecto de investigación
21443/financiación para proyecto 21444/participación en comisión 21445/prácticas
21446/solicitud de beca 21447/especialidad-itinerario
1111DELi (UD)DELi (UD)
Funciones comunicativasFunciones comunicativas
• classification according to the classification according to the purposepurpose of of the dicourse (aka the dicourse (aka rethorical strategiesrethorical strategies))
• ¿the discourse intends to ¿the discourse intends to inform inform express an attitude express an attitude persuade persuade create a debate ?create a debate ?
UD documents:UD documents: regulateregulate informeinforme request (for information)request (for information)
Longacre (1976, 1982), Smith (1985) and Biber Longacre (1976, 1982), Smith (1985) and Biber (1989) (1989)
1212DELi (UD)DELi (UD)
Géneros por funcionesGéneros por funciones
10000/reglamentar
11000/autorización
11100/acuerdo
11200/instrucciones
11300/normativa
11400/bases
11500/plan
11600/ceremonial
30000/inquirir
31100/ficha
31200/impreso
31300/cuestionario
31400/instancia
20000/informar
21100/aviso
21200/carta (está firmada)
21300/saluda (no se rubrica)
21400/certificado (por) 21500/convocatoria
21600/tarjeta de invitación
21700/folleto (imprenta)
21800/guía
21900/memoria
22000/catálogo
23000/actas
23100/anuncios en prensa
23200/carteles de propaganda
23700/nombramientos
1313DELi (UD)DELi (UD)
Categorización por génerosCategorización por géneros
• (Sebastiani 1999)(Sebastiani 1999)– ““Un proceso inductivo construye automáticamente un clasificador para Un proceso inductivo construye automáticamente un clasificador para
una categoría observando las una categoría observando las característicascaracterísticas de un conjunto de de un conjunto de documentos previamente clasificados a mano por un experto.”documentos previamente clasificados a mano por un experto.”
– Las características se representan como vectores de términosLas características se representan como vectores de términos• términostérminos
– palabras aisladas palabras aisladas – agrupaciones (gramaticales, estadísticas)agrupaciones (gramaticales, estadísticas)
• (Lewis 1992)(Lewis 1992)
– En nuestro caso las características están definidas por la En nuestro caso las características están definidas por la estructura que define cada géneroestructura que define cada género
• documento se define por disposición estructural de los párrafosdocumento se define por disposición estructural de los párrafos
• previamente se deben categorizar los parrafos (definidos por vector previamente se deben categorizar los parrafos (definidos por vector de palabras)de palabras)
1414DELi (UD)DELi (UD)
Gestor documetal basado en Gestor documetal basado en metadatos metadatos
• TitleTitle• LanguagesLanguages• Text categoriesText categories• DateDate• AuthorAuthor• PlacePlace• CenterCenter• CollectionCollection• VisibilityVisibility
1515DELi (UD)DELi (UD)
Open Taxonomy Markup LanguageOpen Taxonomy Markup Language<taxonomy><taxonomy>
<levels><levels><level>función</level><level>función</level><level>género</level><level>género</level><level>tema</level> <level>tema</level>
</levels></levels><cat>informar<cat>informar
<cat>certificado<cat>certificado<cat>organización de actividad</cat><cat>organización de actividad</cat><cat>ponencia en actividad</cat><cat>ponencia en actividad</cat><cat>asistencia a actividad</cat><cat>asistencia a actividad</cat>
</cat></cat></cat></cat>
<<//taxonomy>taxonomy>
1616DELi (UD)DELi (UD)
ConclusionesConclusiones• Convertir un corpus en una base Convertir un corpus en una base
documentaldocumental– organizar la masa informe de textos en organizar la masa informe de textos en
categorías pragmáticascategorías pragmáticas
• Segmentación de texto basada en Segmentación de texto basada en unidades retóricas (RST)unidades retóricas (RST)
• Open Taxonomy MLOpen Taxonomy ML• Sindicación de catálogos abiertosSindicación de catálogos abiertos• Protocolo para recolección de metadatos Protocolo para recolección de metadatos
(OAI-PMH) (OAI-PMH)
1717DELi (UD)DELi (UD)
1818DELi (UD)DELi (UD)
Classification Hierarchies – CH Classification Hierarchies – CH (Magnini 2003)(Magnini 2003)
Taxonomic organization of documentsTaxonomic organization of documents Easy to build: no formal language is requiredEasy to build: no formal language is required Widespread used:Widespread used:
Web directories Web directories (Google, Yahoo!, Looksmart, portals)(Google, Yahoo!, Looksmart, portals) Market place cataloguesMarket place catalogues for product classifications for product classifications File systemsFile systems Local OntologiesLocal Ontologies
Documents are classified at all levels of the hierarchyDocuments are classified at all levels of the hierarchy CHs structure reflect both the documents and world CHs structure reflect both the documents and world
knowledgeknowledge
1919DELi (UD)DELi (UD)
CH CH (Magnini 2003)(Magnini 2003)
Vacation
2001 2000
Sea LakeSeaMountains
Tuscany Spain USA
Semi-structuredSemi-structured: : relations among nodes are not relations among nodes are not formally defined.formally defined.
Document dependentDocument dependent: : CHs are organized according to CHs are organized according to the documents that have to be the documents that have to be
classified.classified. Specificity criterionSpecificity criterion: : a a
document is classified in the document is classified in the more specific node of the more specific node of the hierarchy.hierarchy.
2020DELi (UD)DELi (UD)
CH: e.g. organizing papers on a CH: e.g. organizing papers on a file system: file system:
Work
WSD QA
PapersProjectsExperiments
Senseval-2
ACL-02
Submission Camera ready Submission
Knowledge about the Knowledge about the domain is used domain is used
Classification schema Classification schema are repeatedare repeated
Labels are interpreted Labels are interpreted in their contextin their context
(Magnini 2003)(Magnini 2003)
2121DELi (UD)DELi (UD)
Interoperability among CHs Interoperability among CHs (Magnini 2003)(Magnini 2003)
Scientific interest.Scientific interest. Various terms have been recently used, Various terms have been recently used, including:including: Meaning negotiationMeaning negotiation Semantic coordinationSemantic coordination Mapping between domain models Mapping between domain models Semantic mediationSemantic mediation Ontology merging, integration or alignmentOntology merging, integration or alignment Integration of hierarchical categorizationIntegration of hierarchical categorization
Fits well in theFits well in the Semantic Web Semantic Web perspectiveperspective Commercial interestCommercial interest: : Distributed Knowledge Management Distributed Knowledge Management
in corporationsin corporations
Common goal: Common goal: find find mappingsmappings between nodes of two between nodes of two classification hierarchiesclassification hierarchies
2222DELi (UD)DELi (UD)
Source CH Target CH
Vacation
2001 2000
Sea LakeSeaMountains
Tuscany Spain USA
Sea holidays
Italy in Europe
Interoperability among CHsInteroperability among CHs
2323DELi (UD)DELi (UD)
Source CH Target CH
Vacation
2001 2000
Sea LakeSeaMountains
Tuscany Spain USA
Sea holidays
Italy in Europe
Interoperability among CHsInteroperability among CHs
2424DELi (UD)DELi (UD)
Matching Google and Yahoo! :Matching Google and Yahoo! : (Magnini 2003)(Magnini 2003)
.88 (.93) .46 (.43).88 (.93) .46 (.43)
.60 (.67) .78 (.69).60 (.67) .78 (.69)
.78 (.71) .13 (.10).78 (.71) .13 (.10)
Pr. Re.Pr. Re.
MedicineMedicine
.85 (.96) .49 (.48).85 (.96) .49 (.48)
.51 (.61) .91 (.62).51 (.61) .91 (.62)
.71 (.60) .10 (.10).71 (.60) .10 (.10)
Pr. Re.Pr. Re.
ArchitectureArchitecture
More specificMore specific
More generalMore general
EquivalenceEquivalence
Google: Architecture/History/Periods_and_Styles/Gothic
Yahoo: Architecture/History/Medieval
Is More specific than
2525DELi (UD)DELi (UD)
ExperimentsExperiments
Web directoriesWeb directories: build a reference benchmark for : build a reference benchmark for evaluating matching algorithms.evaluating matching algorithms. Include LooksmartInclude Looksmart Google English vs Google ItalianGoogle English vs Google Italian
File systemsFile systems Collaboration Edamok, SWAP, MEANINGCollaboration Edamok, SWAP, MEANING
Domain specific applicationsDomain specific applications Medical classification: integration of UML in the algorithmMedical classification: integration of UML in the algorithm Public Administration: matching document classification Public Administration: matching document classification
hierarchies for automatic routinghierarchies for automatic routing