Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Vàzquez Garcia, Mercè
dc.date.accessioned
2014-10-13T12:18:31Z
dc.date.available
2015-10-14T05:45:11Z
dc.date.issued
2014-07-10
dc.identifier.uri
http://hdl.handle.net/10803/283114
dc.description.abstract
 La terminologia és present en totes les àrees de coneixement. Amb l'ús de la tecnologia en els diferents àmbits de la societat, la creació i difusió de nous termes és molt ràpida i efectiva. En les darreres dècades s'han desenvolupat mètodes d'extracció automàtica de termes basats en anàlisi lingüística, estratègies estadístiques i una combinació de les dues modalitats per a facilitar el buidatge manual d'aquestes unitats, però aquests mètodes tendeixen a extreure un alt nombre de candidats a terme, i aquest fet dificulta la validació manual dels candidats. En aquesta tesi hem dissenyat un algorisme que aprofita els termes presents en un àmbit d'especialitat per a detectar-ne de nous (mètode token slot recognition) i fa ús de mesures d'associació lèxica per a poder resoldre aquesta limitació. El treball presenta el nivell de rendibilitat que ofereix la combinació d'estratègies estadístiques analitzades. Hem observat que el mètode token slot recognition extreu els candidats que tenen més probabilitat de ser terminològics i té capacitat per a processar corpus en diferents llengües i àmbits d'especialitat. La nostra recerca també confirma que les mesures d'associació lèxica situen els termes en les posicions inicials d'una llista de candidats i, en conseqüència, faciliten la tasca de validació manual final dels candidats. Com a conclusió, la combinació d'estratègies analitzades ofereix flexibilitat a l'hora d'identificar i validar els termes presents en corpus d'especialitat, fet que permet plantejar la seva integració en una eina d'extracció de terminologia.
cat
dc.description.abstract
 Terminology is found in all areas of knowledge. Due to the use of technology in the different ambits of society, new terms are being created and distributed very quickly and efficiently. Over recent decades, automatic term extraction methods have been developed based on linguistic analysis, statistical strategies and a combination of the two to aid manual extraction. However, these automatic methods tend to produce large numbers of term candidates, which makes manual candidate validation tasks more difficult. This thesis presents an algorithm that uses the terms from a specialist area to detect new terms (token slot recognition method) and lexical association measures to overcome these limitations. It also shows the level of performance offered by the combination of statistical strategies analysed. The token slot recognition method extracts candidates that are more likely to be terms and is able to process corpora in different languages and specialist areas. The research also confirms that lexical association measures place terms in the top positions in lists of candidates and, as a result, aid the final manual candidate validation tasks. In conclusion, the combination of statistical strategies analysed offers flexibility when identifying and validating the terms present in a specialist corpus, which raises the possibility of integrating them into a term extraction tool.
eng
dc.description.abstract
 La terminología se encuentra presente en todas las áreas de conocimiento. Con el uso de la tecnología en los diferentes ámbitos de la sociedad, la creación y difusión de nuevos términos es muy rápida y efectiva. En las últimas décadas se han desarrollado métodos de extracción automática de termas basados en análisis lingüístico, estrategias estadísticas y una combinación de las dos modalidades para facilitar el vaciado manual de estas unidades, pero estos métodos tienden a extraer un alto número de candidatos a término, y este hecho dificulta la validación manual de los candidatos. En esta tesis hemos diseñado un algoritmo que aprovecha los términos presentes en un ámbito de especialidad para detectar nuevos términos (método token slot recognition) y hace uso de medidas de asociación léxica para poder resolver esta limitación. El trabajo presenta el nivel de productividad que ofrece la combinación de estrategias estadísticas analizadas. Hemos observado que el método token slot recognition extrae los candidatos que tienen más probabilidad de ser terminológicos y tiene capacidad para procesar corpus en diferentes lenguas y ámbitos de especialidad. Nuestra investigación también confirma que las medidas de asociación léxica sitúan los términos en las posiciones iniciales de una lista de candidatos y, en consecuencia, facilitan la tarea de validación manual final de los candidatos. Como conclusión, la combinación de estrategias analizadas ofrece flexibilidad a la hora de identificar y validar los términos presentes en corpus de especialidad, lo que permite plantear su integración en una herramienta de extracción de terminología.
spa
dc.format.extent
248 p.
dc.format.mimetype
application/pdf
dc.language.iso
cat
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/3.0/es/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Terminologia
dc.subject
Informàtica
dc.subject
Mètodes estadístics
dc.subject
Terminology
dc.subject
Computing
dc.subject
Statistical methods
dc.subject
Terminología
dc.subject
Informática
dc.subject
Métodos estadísticos
dc.title
Estratègies estadístiques aplicades a l'extracció automàtica de terminologia
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
cat
dc.contributor.authoremail
mvazquezga@uoc.edu
dc.contributor.director
Oliver, Antoni
dc.embargo.terms
12 mesos
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B 23188-2014
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tmv.pdf

1.553Mb PDF

This item appears in the following Collection(s)