From White-Box Machine Learning to Fuzzy Logic for Automatic Gender Detection in Spanish Texts from Social Networks

Author

Morales Sánchez, Damián

Director

Jiménez López, María Dolores

Moreno Ribas, Antonio

Date of defense

2023-07-11

Pages

790 p.



Department/Institute

Universitat Rovira i Virgili. Departament de Filologies Romàniques

Abstract

Aquesta dissertació, emmarcada en l'àmbit de la sociolingüística computacional, explora l'ús de variables sociolingüístiques en models computacionals basats en Intel·ligència Artificial per a la detecció automàtica del gènere en textos escrits en espanyol. El nostre interès resideix a dissenyar models computacionals basats en algorismes d'aprenentatge automàtic de caixa blanca i lògica difusa amb variables derivades de la sociolingüística. Vam elaborar una caracterització del gènere basada en nivells lingüístics a partir de les publicacions emmarcadas en l'àmbit de la llengua i el gènere, l'àrea de recerca de la comunicació mitjançant computadora i el gènere, i la sociolingüística computacional. Aquesta caracterització constitueix els fonaments de la nostra anàlisi experimental. En l'anàlisi experimental, vam implementar l'algorisme Decision Tree amb variables ortogràfiques, morfològiques, lèxiques, sintàctiques, digitals i pragmàtic-discursives en el conjunt de dades PAN-AP-13 a fi d'identificar patrons sociolingüístics de gènere. A partir d'aquest primer experiment computacional, vam ampliar la nostra anàlisi a altres conjunts de dades i algorismes; concretament, vam explorar, més enllà del conjunt PAN-AP-13 i de l'algorisme Decision Tree, els conjunts de dades PAN-AP-15, PAN-AP-17, PAN-AP-18 i PAN-AP-19, i els algorismes Random Forest i XGBoost. Vam dissenyar 63 models a partir de les combinacions dels conjunts de variables. L'exactitud en la classificació dels models resultants, els quals no superaven les 160 variables lingüístiques, va ser del 70%. Vam culminar l'anàlisi experimental amb una caracterització sociolingüística del gènere basada en 39 patrons organitzats per la seva robustesa. La nostra proposta teòrica presenta 64 models difusos, dels quals 57 són models difusos assemblats. La sortida final d'aquests models va ser calculada amb l'esquema de vot majoritari. Segons els resultats, el model assemblat Ortogràfic, Lèxic, Sintàctic, Digital i Pragmàtic-Discursiu (OLSDP) va produir els millors resultats. Els algorismes d'aprenentatge automàtic de caixa blanca i la lògica difusa, juntament amb les variables inspirades en la sociolingüística, han d'incorporar-se en la identificació automàtica del gènere a fi de dilucidar la complexa relació entre la llengua i el gènere.


Esta disertación, enmarcada en el ámbito de la sociolingüística computacional, explora el uso de variables sociolingüísticas en modelos computacionales basados en Inteligencia Artificial para la detección automática del género en textos escritos en español. Nuestro interés reside en diseñar modelos computacionales basados en algoritmos de aprendizaje automático de caja blanca y lógica difusa con variables derivadas de la sociolingüística. Elaboramos una caracterización del género basada en niveles lingüísticos a partir de las publicaciones enmarcadas en el ámbito de la lengua y el género, el área de investigación de la comunicación mediada por computadora y el género, y la sociolingüística computacional. Esta caracterización constituye los fundamentos de nuestro análisis experimental. En el análisis experimental, implementamos el algoritmo Decision Tree con variables ortográficas, morfológicas, léxicas, sintácticas, digitales y pragmático-discursivas en el conjunto de datos PAN-AP-13 a fin de identificar patrones sociolingüísticos de género. A partir de este primer experimento computacional, ampliamos nuestro análisis a otros conjuntos de datos y algoritmos; concretamente, exploramos, además del conjunto PAN-AP-13 y del algoritmo Decision Tree, los conjuntos de datos PAN-AP-15, PAN-AP-17, PAN-AP-18 y PAN-AP-19, y los algoritmos Random Forest y XGBoost. Diseñamos 63 modelos a partir de las combinaciones de los conjuntos de variables. La exactitud en la clasificación de los modelos resultantes, los cuales no suepraban las 160 variables lingüísticas, se situó en torno al 70%. Culminamos el análisis experimental con una caracterización sociolingüística del género basada en 39 patrones organizados por su robustez. Nuestra propuesta teórica presenta 64 modelos difusos, de los cuales 57 son modelos difusos ensamblados cuya salida final fue calculada utilizando el esquema de voto mayoritario. Según los resultados, el modelo ensamblado Ortográfico, Léxico, Sintáctico, Digital y Pragmático-Discursiveo (OLSDP) produjo los mejores resultados. Los algoritmos de aprendizaje automático de caja blanca y la lógica difusa, junto con las variables inspiradas en la sociolingüística, deben incorporarse en la identificación automática del género a fin de dilucidar la compleja relación entre la lengua y el género.


This dissertation, framed in the computational sociolinguistics field, explores the use of sociolinguistic-derived features in Artificial Intelligence-based computational models for automatic gender detection on Spanish texts. Our interest lays in designing computational models based on white-box machine learning algorithms and fuzzy logic with sociolinguistic-inspired features. We elaborated a characterisation of gender based on linguistic levels from the publications framed in the language and gender field, the computer-mediated communication and gender research area, and computational sociolinguistics. This characterisation serves as the foundation of our experimental analysis. In the experimental analysis, we implemented the Decision Tree algorithm with orthographic, morphological, lexical, syntactic, digital, and pragmatic-discursive features on the PAN-AP-13 dataset in order to identify gender sociolinguistic patterns. From this first computational experiment, we extended our analysis to other datasets and algorithms; specifically, we explored, besides the PAN-AP-13 and the Decision Tree algorithm, the PAN-AP-15, PAN-AP-17, PAN-AP-18, and PAN-AP-19 datasets, and the Random Forest and XGBoost algorithms. We designed 63 models from the combinations of the feature sets. The classification accuracy of the resulting models, which did not exceed 160 linguistic features, was around 70%. We culminated the experimental analysis with a sociolinguistic characterisation of gender based on 39 patterns organised according to their robustnesss. Our theoretical proposal presents 64 fuzzy models, of which 57 are ensemble fuzzy models whose final output was calculated using the majority vote scheme. According to the results, the Orthographic, Lexical, Syntactic, Digital, and Pragmatic-Discursive (OLSDP) ensemble model produced the best results. White-box machine learning algorithms and fuzzy logic, along with sociolinguistic-inspired features, must be incorporated into automatic gender identification in order to elucidate the complex relationship between language and gender.

Keywords

Sociolingüística; Aprenentatge automàtic; Gènere; Aprendizaje automático; Sociolinguistics; Machine Learning; Gender

Subjects

00 - Prolegomena. Fundamentals of knowledge and culture. Propaedeutics; 81 - Linguistics and languages

Knowledge Area

Arts i humanitats

Documents

This document contains embargoed files until 2025-07-10

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)