Optimització perceptiva dels sistemes de síntesi de la parla basats en selecció d’unitats mitjançant algorismes genètics interactius actius

Author

Formiga Fanals, Lluís

Director

Alías Pujol, Francesc

Date of defense

2011-04-27

Legal Deposit

B.20324-2011

Pages

350 p.



Department/Institute

Universitat Ramon Llull. La Salle

Abstract

Els sistemes de conversió de text en parla (CTP-SU) s'encarreguen de produir veu sintètica a partir d'un text d'entrada. Els CTP basats en selecció d'unitats (CTP-SU) recuperen la millor seqüència d'unitats de veu enregistrades prèviament en una base de dades (corpus). La recuperació es realitza mitjançant algorismes de programació dinàmica i una funció de cost ponderada. La ponderació de la funció de cost es realitza típicament de forma manual per part d'un expert. No obstant, l'ajust manual resulta costós des d'un punt de vista de coneixement prèvi, i imprecís en la seva execució. Per tal d'ajustar els pesos de la funció de cost, aquesta tesi parteix de la prova de viabilitat d'ajust perceptiu presentada per Alías (2006) que empra algorismes genètics interactius actius (active interactive Genetic Algorithm - aiGA). Aquesta tesi doctoral investiga les diferents problemàtiques que es presenten en aplicar els aiGAs en l'ajust de pesos d'un CTP-SU en un context real de selecció d'unitats. Primerament la tesi realitza un estudi de l'estat de l'art en l'ajust de pesos. Tot seguit, repassa la idoneïtat de la computació evolutiva interactiva per realitzar l'ajust revisant amb profunditat el treball previ. Llavors es presenten i es validen les propostes de millora. Les quatre línies mestres que guien les contribucions d'aquesta tesi són: la precisió en l'ajust dels pesos, la robustesa dels pesos obtinguts, l'aplicabilitat de la metodologia per qualsevol funció de cost i el consens dels pesos obtinguts incorporant el criteri de diferents usuaris. En termes de precisió la tesi proposa realitzar l'ajust perceptiu per diferents tipus (clústers) d'unitats respectant les seves peculiaritats fonètiques i contextuals. En termes de robustesa la tesi incorpora diferents mètriques evolutives (indicadors) que avaluen aspectes com l'ambigüitat en la cerca, la convergència d'un usuari o el nivell de consens entre diferents usuaris. Posteriorment, per estudiar l'aplicabilitat de la metodologia proposada s'ajusten perceptivament diferents pesos que combinen informació lingüística i simbòlica. La última contribució d'aquesta tesi estudia l'idoneïtat dels models latents per modelar les preferències dels diferents usuaris i obtenir una solució de consens. Paral•lelament, per fer el pas d'una prova de viabilitat a un entorn real de selecció d'unitats es treballa amb un corpus d'extensió mitjana (1.9h) etiquetat automàticament. La tesi permet concloure que l'aiGA a nivell de clúster és una metodologia altament competitiva respecte les altres tècniques d'ajust presents en l'estat de l'art.


Los sistemas de conversión texto-habla (CTH-SU) se encargan de producir voz sintética a partir de un texto de entrada. Los CTH basados en selección de unidades (CTH-SU) recuperan la mejor secuencia de unidades de voz grabadas previamente en una base de datos (corpus). La recuperación se realitza mediante algoritmos de programación dinámica y una función de coste ponderada. La ponderación de la función de coste se realiza típicamente de forma manual por parte de un experto. Sin embargo, el ajuste manual resulta costoso desde un punto de vista de conocimiento previo e impreciso en su ejecución. Para ajustar los pesos de la función de coste, esta tesis parte de la prueba de viabilidad de ajuste perceptivo presentada por Alías (2006) que emplea algoritmos genéticos interactivos activos (active interactive Genetic Algorithm - aiGA). Esta tesis doctoral investiga las diferentes problemáticas que se presentan al aplicar los aiGAs en el ajuste de pesos de un CTH-SU en un contexto real de selección de unidades. Primeramente la tesis realiza un estudio del estado del arte en el ajuste de pesos, posteriormente repasa la idoneidad de la computación evolutiva interactiva para realizar el ajuste revisando en profundidad el trabajo previo. Entonces se presentan y se validan las propuestas de mejora. Las cuatro líneas maestras que guían las contribuciones de esta tesis son: la precisión en el ajuste de los pesos, la robustez de los pesos obtenidos, la aplicabilidad de la metodología para cualquier función de coste y el consenso de los pesos obtenidos incorporando el criterio de diferentes usuarios. En términos de precisión la tesis propone realizar el ajuste perceptivo por diferentes tipos (clusters) de unidades respetando sus peculiaridades fonéticas y contextuales. En términos de robustez la tesis incorpora diferentes métricas evolutivas (indicadores) que evalúan aspectos como la ambigüedad en la búsqueda, la convergencia de un usuario o el nivel de consenso entre diferentes usuarios. Posteriormente, para estudiar la aplicabilidad de la metodología propuesta se ajustan perceptivamente diferentes pesos que combinan información lingüística y simbólica. La última contribución de esta tesis estudia la idoneidad de los modelos latentes para modelar las preferencias de los diferentes usuarios y obtener una solución de consenso. Paralelamente, para dar el paso de una prueba de viabilidad a un entorno real de selección de unidades se trabaja con un corpus de extensión media (1.9h) etiquetado automáticamente. La tesis permite concluir que el aiGA a nivel de cluster es una metodología altamente competitiva respecto a las otras técnicas de ajuste presentes en el estado del arte.


Text-to-Speech Systems (TTS) produce synthetic speech from an input text. Unit Selection TTS (US-TTS) systems are based on the retrieval of the best sequence of recorded speech units previously recorded into a database (corpus). The retrieval is done by means of dynamic programming algorithm and a weighted cost function. An expert typically performs the weighting of the cost function by hand. However, hand tuning is costly from a standpoint of previous training and inaccurate in terms of methodology. In order to properly tune the weights of the cost function, this thesis continues the perceptual tuning proposal submitted by Alías(2006) which uses active interactive Genetic Algorithms (aiGAs). This thesis conducts an investigation to the various problems that arise in applying aiGAs to the weight tuning of the cost function. Firstly, the thesis makes a deep revision to the state-of-the-art in weight tuning. Afterwards, the thesis outlines the suitability of Interactive Evolutionary Computation (IEC) to perform the weight tuning making a thorough review of previous work. Then, the proposals of improvement are presented. The four major guidelines pursued by this thesis are: accuracy in adjusting the weights, robustness of the weights obtained, the applicability of the methodology to any subcost distance and the consensus of weights obtained by different users. In terms of precision cluster-level perceptual tuning is proposed in order to obtain weights for different types (clusters) of units considering their phonetic and contextual properties. In terms of robustness of the evolutionary process, the thesis presents different metrics (indicators) to assess aspects such as the ambiguity within the evolutionary search, the convergence of one user or the level of consensus among different users. Subsequently, to study the applicability of the proposed methodology different weights are perceptually tuned combining linguistic and symbolic information. The last contribution of this thesis examines the suitability of latent models for modeling the preferences of different users and obtains a consensus solution. In addition, the experimentation is carried out through a medium size corpus (1.9h) automatically labelled in order fill the gap between the proof-of-principle and a real unit selection scenario. The thesis concludes that aiGAs are highly competitive in comparison to other weight tuning techniques from the state-of-the-art.

Keywords

Síntesi de parla; selecció d'unitats; ajust de pesos; computació evolutiva interactiva; interacció home màquina; models latents; síntesis del habla; selecció de unidades; ajuste de pesos; computación evolutiva interactiva; interacción hombre máquina; modelos latentes; speech synthesis; unit selection; weight tuning; interactive evolutionary computation; human computer interaction; latent models

Subjects

004 - Computer science and technology. Computing. Data processing; 519.1 - Combinatorial analysis. Graph theory; 621.3 Electrical engineering; 81 - Linguistics and languages

Knowledge Area

Les TIC i la seva gestió

Documents

mem_TESI_Part1.pdf

4.283Mb

mem_TESI_Part2.pdf

1.995Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)