Language Models for Low-Resource and Agglutinative Morphology Languages. The case of Quechua
llistat de metadades
Autor/a
Director/a
Bel Rafecas , Nuria
Farrus Cabeceran, Mireia
Tutor/a
Arias Badia , Blanca
Data de defensa
2025-09-22
Pàgines
171 p.
Programa de doctorat
Universitat Pompeu Fabra. Doctorat en Traducció i Ciències del Llenguatge
Resum
El processament del llenguatge natural (PLN) ha evolucionat significativament amb la introducció de l'arquitectura transformers, especialment des de l'aparició de BERT l'any 2018. No obstant això, els avenços aconseguits amb aquests models de llenguatge han beneficiat principalment les llengües amb abundants recursos (LARs), com l'anglès, deixant de banda la majoria de llengües del món, particularment aquelles amb pocs recursos i estructures morfològiques complexes, com les llengües aglutinants. Aquesta tesi aborda aquesta problemàtica des d'un enfocament centrat en les dades, analitzant com l'escassetat de dades, la mida del vocabulari i el desequilibri en la freqüència dels tokens afecten la qualitat de les representacions generades pels models de llenguatge en llengües de pocs recursos (LPRs) i aglutinants. En lloc de centrar-se en l'arquitectura del model, aquest treball proposa estratègies per optimitzar l'ús de les dades disponibles. S'analitza la quantitat mínima de dades necessàries per assolir representacions de qualitat i es demostra com els tokenitzadors canònics poden millorar significativament la qualitat de les representacions en llengües morfològicament complexes. A més, es proposa un algoritme de balanceig de freqüència de tokens dissenyat per mitigar la concentració de tokens freqüents, millorant sistemàticament la representació de tokens menys comuns. Així mateix, s'introdueix TEMA (Token Embedding Mapping Algorithm), un mètode innovador que permet projectar les representacions d'un model de llenguatge entrenat amb grans volums de dades (L1) cap a un model entrenat amb poques dades (L2), enriquint-ne les representacions sense necessitat de dades addicionals. Finalment, s'evidencia que els models basats en transformers presenten una alta dependència de la quantitat de dades d'entrenament per construir representacions de qualitat, perpetuant així la bretxa entre LARs i LPRs. Aquesta tesi no només ofereix solucions específiques per millorar les representacions en models de llengües de pocs recursos i aglutinants, sinó que també proposa un marc conceptual més ampli sobre com abordar l'escassetat de dades en el desenvolupament de models de llenguatge basats en transformers.
El procesamiento del lenguaje natural ha evolucionado significativamente con la introducción de la arquitectura transformers, especialmente desde la aparición de BERT en 2018. Sin embargo, los avances logrados con estos modelos de lenguaje han beneficiado principalmente a lenguas con abundantes recursos (LARs), como el inglés, dejando de lado a la mayoría de las lenguas del mundo, particularmente aquellas con pocos recursos y estructuras morfológicas complejas como las lenguas aglutinantes. Esta tesis aborda esta problemática desde un enfoque centrado en los datos, analizando cómo la escasez de datos, el tamaño del vocabulario y el desbalance en la frecuencia de los tokens afectan la calidad de las representaciones construidas por los modelos de lenguaje en lenguas de escasos recursos (LERs) y aglutinantes. En lugar de centrarse en la arquitectura del modelo, este trabajo propone estrategias para optimizar el uso de los datos disponibles. Se analiza la cantidad mínima de datos necesaria para lograr representaciones de calidad y se demuestra cómo los tokenizadores canónicos pueden mejorar significativamente la calidad de las representaciones en lenguas morfológicamente complejas. Asimismo, se propone un algoritmo de balanceo de frecuencia de tokens diseñado para mitigar la concentración de tokens frecuentes, mejorando la representación de tokens menos comunes de manera sistemática. Además, se introduce TEMA (Token Embedding Mapping Algorithm), un método novedoso que permite proyectar las representaciones de un modelo de lenguaje entrenado con grandes volúmenes de datos (L1) hacia un modelo entrenado con pocos datos (L2), enriqueciendo sus representaciones sin requerir datos adicionales. Finalmente, se evidencia que los modelos basados en transformers presentan una alta dependencia de la cantidad de datos de entrenamiento para construir representaciones de calidad, lo que perpetúa la brecha entre LARs y LERs. Esta tesis no solo ofrece soluciones específicas para mejorar las representaciones en los modelos de lenguaje de LERs y aglutinantes, sino que también propone un marco conceptual más amplio sobre cómo abordar la escasez de datos en el desarrollo de modelos de lenguaje basados en transformers.
Natural Language Processing has evolved significantly with the introduction of the transformer architecture, especially since the emergence of BERT in 2018. However, the advances achieved with these language models have primarily benefited high-resource languages (HRLs), such as English, while neglecting the majority of the world's languages, particularly those with limited resources and complex morphological structures, such as agglutinative languages. This thesis addresses this issue from a data-centric perspective, analyzing how data scarcity, vocabulary size, and unbalances in token frequencies affect the quality of the representations generated by language models for low-resource languages (LRLs) and agglutinative languages. Instead of focusing on model architecture, this work proposes strategies to optimize the use of the available data. It examines the minimum amount of data necessary to achieve high-quality representations and demonstrates how canonical tokenizers can significantly improve the quality of representations in morphologically complex languages. Additionally, a token frequency balancing algorithm is proposed to mitigate the concentration of frequent tokens, systematically improving the representation of less common tokens. Furthermore, TEMA (Token Embedding Mapping Algorithm) is introduced as a novel method that allows the projection of representations from a language model trained on large datasets (L1) onto a model trained with limited data (L2), enriching its representations without requiring additional data. Lastly, it is evidenced that transformer-based models exhibit a high dependency on the amount of training data to construct high-quality representations, perpetuating the gap between HRLs and LRLs. This thesis not only offers specific solutions to improve representations in LRL and agglutinative language models but also proposes a broader conceptual framework for addressing data scarcity in the development of transformer-based language models.
Paraules clau
Models de llenguatge; Language Model; Modelos de Lenguaje; Escassos Recursos; Low-resource; Escasos Recursos; Quechua; Quechua; Quechua
Matèries
81 - Lingüística i llengües