L'aprenentatge automàtic incremental i la seva aplicació al PLN inter-actiu

Author

Benavent i Portabella, Francesc

Director

Badia i Cardús, Antoni

Date of defense

2013-11-29

Legal Deposit

B 6103-2014

Pages

333 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

En aquest treball es proposa utilitzar tècniques d’Aprenentatge Automàtic Incremental, també conegut com Aprenentatge On-line, per resoldre tasques de Processament de Llenguatge Natural de manera més eficient. També s’estudia la viabilitat tècnica de la seva aplicació en el desenvolupament d’entorns Inter-Actius d’anotació lingüística. El document està estructurat en tres parts: la justificació conceptual de la proposta, la viabilitat tècnica a partir de l’estat de la qüestió i les proves experimentals per obtenir dades quantitatives sobre l’eficiència assolida. La primera part descriu la situació actual, basada en el paradigma d’aprenentatge batch, en qüestiona el consens existent i exposa les seves limitacions: econòmiques, tècniques i metodològiques. A continuació, presenta el paradigma incremental i planteja la manera en què una arquitectura Inter-Activa, basada en l’aprenentatge actiu i els algorismes incrementals, podria minimitzar el coll d’ampolla associat a l’anotació manual del corpus. La segona part presenta l’estat de la qüestió de l’Aprenentatge Automàtic Incremental: els algorismes d’inducció de models, les arquitectures de combinació de classificadors i les tècniques auxiliars d’optimització i avaluació. La tercera part del treball descriu la metodologia utilitzada en una sèrie de proves experimentals, amb quatre tasques de PLN, amb l’objectiu de quantificar la qualitat dels models induïts i l’eficiència dels entrenaments. Presenta els resultats de més d’un centenar d’experiments, analitza i justifica les corbes d’avaluació obtingudes i compara els entrenaments en termes de precisió i eficiència assolida. Els resultats dels experiments validen la hipòtesi principal del treball, que defensa que mitjançant l’entrenament Inter-Actiu és possible obtenir models classificadors tant o més precisos que amb l’entrenament estàndard, però utilitzant tan sols una fracció del corpus existent; concretament, i segons les proves realitzades, requerint entre 5 i 100 vegades menys exemples. Així mateix, també s’aprofundeix en l’anàlisi de les dades obtingudes durant els entrenaments basats en l’aprenentatge actiu, especialment en l’evolució dels graus de certesa de les seves classificacions i de la precisió d’aquestes estimacions. A partir d’aquestes dades es conclou que la selecció d’exemples basada en un llindar de certesa constant és massa sensible al valor triat, i es suggereix investigar algorismes d’entrenament actiu basats en llindars de certesa dinàmics.


In this work we propose the use of Incremental Machine Learning, also known as On-Line Learning, to solve Natural Language Processing tasks in a more efficient way. We also study the technical feasibility of its application to the development of inter-active environments of linguistic annotation. The document is structured in three parts: the conceptual justification of the proposal, the technical feasibility by grounding it on state of the art techniques, and the experimental tests performed to obtain quantitative data about the efficiency achieved. The first part describes the current trends in NLP based on the batch learning paradigm, it questions the existent consensus and it exposes its limitations: economical, technical and methodological. Right after, it presents the incremental paradigm and it outlines how an Inter-Active architecture, based on active learning and incremental algorithms, could minimize the bottleneck related to the manual corpus annotation. The second part presents state of the art Incremental Machine Learning: the algorithms of model induction, the classifier combination architectures and the auxiliary techniques for optimization and evaluation. The third part of this work describes the methodology used in a set of experimental tests, on four NLP tasks, with the goal of quantifying the quality of the induced models and the training efficiency. It presents the results of more than a hundred experiments, and it analyzes and justifies its evaluation curves and compares the different trainings on the achieved precision and efficiency. The results of the experiments validate the main hypothesis of this work, which is that Inter-Active training makes it possible to obtain classifier models with as much or higher precision than with standard training, but using just a fraction of the existent corpus; in particular, and according to the results, reducing the number of training examples needed between 5 and 100 times. Additionally, it also goes into detail in the analysis of the data obtained during the training based on active learning, especially on the evolution of the confidence levels of its classifications and the precision of these estimations. From this data we conclude that the example selection based on a constant confidence threshold is too sensitive to the given value, and we propose to research active training algorithms based on dynamic confidence thresholds.


En este trabajo se propone utilizar técnicas de Aprendizaje Automático Incremental, también conocido como Aprendizaje On-Line, para resolver tareas de Procesamiento de Lenguaje Natural de manera más eficiente. También estudia la viabilidad técnica de su aplicación en el desarrollo de entornos Inter-Activos de anotación lingüística. El documento está estructurado en tres partes: la justificación conceptual de la propuesta, la viabilidad técnica a partir del estado de la cuestión y las pruebas experimentales para obtener datos cuantitativos sobre la eficiencia conseguida. La primera parte describe la situación actual, basada en el paradigma de aprendizaje batch, cuestiona el consenso existente y expone sus limitaciones: económicas, técnicas y metodológicas. A continuación, presenta el paradigma incremental y plantea la forma en que una arquitectura Inter-Activa, basada en el aprendizaje activo y los algoritmos incrementales, podría minimizar el cuello de botella asociado a la anotación manual de corpus. La segunda parte presenta el estado de la cuestión del Aprendizaje Automático Incremental: los algoritmos de inducción de modelos, las arquitecturas de combinación de clasificadores y las técnicas auxiliares de optimización y evaluación. La tercera parte del trabajo describe la metodología utilizada en una serie de pruebas experimentales, con cuatro tareas de PLN, con el objetivo de cuantificar la calidad de los modelos inducidos y la eficiencia de los entrenamientos. Presenta los resultados de más de un centenar de experimentos, analiza y justifica las curvas de evaluación obtenidas y compara los entrenamientos en términos de precisión y eficiencia alcanzada. Los resultados validan la hipótesis principal del trabajo, que defiende que mediante el entrenamiento Inter-Activo es posible obtener modelos clasificadores tan o más precisos que con el entrenamiento estándar, pero utilizando únicamente una fracción del corpus existente; concretamente, y según las pruebas realizadas, requiriendo entre 5 y 100 veces menos ejemplos. Así mismo, también profundiza en el análisis de los datos obtenidos durante los entrenamientos basados en el aprendizaje activo, especialmente en la evolución de los grados de certeza de sus clasificaciones y de la precisión de estas estimaciones. A partir de estos datos se concluye que la selección de ejemplos basada en un umbral de certeza es demasiado sensible al valor elegido, y se sugiere investigar algoritmos de entrenamiento basados en umbrales de certeza dinámicos.

Keywords

Aprenentatge automàtic; Tractament del llenguatge natural

Subjects

81 - Linguistics and languages

Documents

tfbp.pdf

9.946Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)