Metalinguistic information extraction from specialized texts to enrich computational lexicons

Author

Rodríguez Penagos, Carlos

Director

Badia i Cardús, Antoni

Vallduví Botet, Enric

Date of defense

2005-02-03

ISBN

8468912581

Legal Deposit

B.14491-2005



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Filologia

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

Este trabajo presenta un estudio empírico del uso y función del metalenguaje en el conocimiento científico experto y los lenguajes de especialidad en lengua inglesa, con especial atención al establecimiento, modificación y negociación de la terminología común del grupo de especialistas de cada área. Mediante enunciados discursivos llamados Operaciones Metalingüísticas Explícitas se formaliza y analiza el carácter dinámico de las estructuras conceptuales científicas y los sublenguajes que las vehiculan.<br/>Por otro lado, se presenta la implementación de un sistema automático de extracción de información metalingüística en textos de especialidad. El sistema MOP (Metalinguistic Operation Processor) extrae enunciados metalingüísticos y definiciones de documentos especializados, utilizando tanto autómatas de estados finitos como algoritmos de aprendizaje automático. El sistema crear bases semi-estructuradas de información terminológica llamadas Metalinguistic Information Databases (MID), de utilidad para la lexicografía especializada, el procesamiento del lenguaje natural y el estudio empírico de la evolución del conocimiento científico, entre otras aplicaciones.


This work presents an empirical study of the use and function of metalanguage in expert scientific knowledge and special-domain languages, with special focus on how each field's terminology is established, modified and negotiated within the group of experts. Through discourse statements called Explicit metalinguistic Operations the dynamic nature of conceptual structures and the sublanguages that embody them are formalized and analyzed.<br/>On the other hand, it presents a system implementation for the automatic extraction of metalinguistic information from specialized texts. The Metalinguistic Operation Processor (MOP) system extracts metalinguistic statements and definitions from special-domain documents, using finite-state machinery and machine-learning algorithms. The system creates semi-structured databases called Metalinguistic Information Databases (MID), useful for specialized lexicography, Natural Language Processing, and the empirical study of scientific knowledge, among other applications.

Keywords

definitions; metalanguage; natural language processing; corpus especializados; términos; lexical acquisition; conocimiento científico; pragmatics; discourse processing; terminología; procesamiento del lenguaje natural; metalenguaje; extracción de información; definiciones; semántica; scientific knowledge; information extraction; terminology; semantics; specialized corpora; pragmática; procesamiento del discurso; adquisición léxica; terms

Subjects

81 - Linguistics and languages

Documents

tcrp1de1.pdf

788.8Kb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)