Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

Vàzquez Garcia, Mercè

Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Vàzquez Garcia, Mercè

dc.date.accessioned

2014-10-13T12:18:31Z

dc.date.available

2015-10-14T05:45:11Z

dc.date.issued

2014-07-10

dc.identifier.uri

http://hdl.handle.net/10803/283114

dc.description.abstract

La terminologia és present en totes les àrees de coneixement. Amb l'ús de la tecnologia en els diferents àmbits de la societat, la creació i difusió de nous termes és molt ràpida i efectiva. En les darreres dècades s'han desenvolupat mètodes d'extracció automàtica de termes basats en anàlisi lingüística, estratègies estadístiques i una combinació de les dues modalitats per a facilitar el buidatge manual d'aquestes unitats, però aquests mètodes tendeixen a extreure un alt nombre de candidats a terme, i aquest fet dificulta la validació manual dels candidats. En aquesta tesi hem dissenyat un algorisme que aprofita els termes presents en un àmbit d'especialitat per a detectar-ne de nous (mètode token slot recognition) i fa ús de mesures d'associació lèxica per a poder resoldre aquesta limitació. El treball presenta el nivell de rendibilitat que ofereix la combinació d'estratègies estadístiques analitzades. Hem observat que el mètode token slot recognition extreu els candidats que tenen més probabilitat de ser terminològics i té capacitat per a processar corpus en diferents llengües i àmbits d'especialitat. La nostra recerca també confirma que les mesures d'associació lèxica situen els termes en les posicions inicials d'una llista de candidats i, en conseqüència, faciliten la tasca de validació manual final dels candidats. Com a conclusió, la combinació d'estratègies analitzades ofereix flexibilitat a l'hora d'identificar i validar els termes presents en corpus d'especialitat, fet que permet plantejar la seva integració en una eina d'extracció de terminologia.

cat

dc.description.abstract

Terminology is found in all areas of knowledge. Due to the use of technology in the different ambits of society, new terms are being created and distributed very quickly and efficiently. Over recent decades, automatic term extraction methods have been developed based on linguistic analysis, statistical strategies and a combination of the two to aid manual extraction. However, these automatic methods tend to produce large numbers of term candidates, which makes manual candidate validation tasks more difficult. This thesis presents an algorithm that uses the terms from a specialist area to detect new terms (token slot recognition method) and lexical association measures to overcome these limitations. It also shows the level of performance offered by the combination of statistical strategies analysed. The token slot recognition method extracts candidates that are more likely to be terms and is able to process corpora in different languages and specialist areas. The research also confirms that lexical association measures place terms in the top positions in lists of candidates and, as a result, aid the final manual candidate validation tasks. In conclusion, the combination of statistical strategies analysed offers flexibility when identifying and validating the terms present in a specialist corpus, which raises the possibility of integrating them into a term extraction tool.

eng

dc.description.abstract

La terminología se encuentra presente en todas las áreas de conocimiento. Con el uso de la tecnología en los diferentes ámbitos de la sociedad, la creación y difusión de nuevos términos es muy rápida y efectiva. En las últimas décadas se han desarrollado métodos de extracción automática de termas basados en análisis lingüístico, estrategias estadísticas y una combinación de las dos modalidades para facilitar el vaciado manual de estas unidades, pero estos métodos tienden a extraer un alto número de candidatos a término, y este hecho dificulta la validación manual de los candidatos. En esta tesis hemos diseñado un algoritmo que aprovecha los términos presentes en un ámbito de especialidad para detectar nuevos términos (método token slot recognition) y hace uso de medidas de asociación léxica para poder resolver esta limitación. El trabajo presenta el nivel de productividad que ofrece la combinación de estrategias estadísticas analizadas. Hemos observado que el método token slot recognition extrae los candidatos que tienen más probabilidad de ser terminológicos y tiene capacidad para procesar corpus en diferentes lenguas y ámbitos de especialidad. Nuestra investigación también confirma que las medidas de asociación léxica sitúan los términos en las posiciones iniciales de una lista de candidatos y, en consecuencia, facilitan la tarea de validación manual final de los candidatos. Como conclusión, la combinación de estrategias analizadas ofrece flexibilidad a la hora de identificar y validar los términos presentes en corpus de especialidad, lo que permite plantear su integración en una herramienta de extracción de terminología.

spa

dc.format.extent

248 p.

dc.format.mimetype

application/pdf

dc.language.iso

cat

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-sa/3.0/es/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Terminologia

dc.subject

Informàtica

dc.subject

Mètodes estadístics

dc.subject

Terminology

dc.subject

Computing

dc.subject

Statistical methods

dc.subject

Terminología

dc.subject

Informática

dc.subject

Métodos estadísticos

dc.title

Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

mvazquezga@uoc.edu

dc.contributor.director

Oliver, Antoni

dc.embargo.terms

12 mesos

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B 23188-2014

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documents

tmv.pdf

1.553Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [292]