Expression control of singing voice synthesis: modeling pitch and dynamics with unit selection and statistical approaches

Author

Umbert Morist, Martí

Director

Bonada, Jordi

Serra, Xavier

Date of defense

2016-01-29

Pages

177 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

This thesis focuses on the control of a singing voice synthesizer to achieve natural expression similar to a real singer. There are many features that should be controlled to achieve natural expression related to melody, dynamics, rhythm, and timbre. In this thesis we focus on the control of pitch and dynamics with a unit selection-based system, two statistically-based systems, and a hybrid system. These systems are trained with two possible expression databases that we have designed, recorded, and labeled. We define the basic units from which the databases are built of, which are basically sequences of three notes or rests. Our perceptual evaluation compares the proposed systems with other systems to see how these relate to each other. The objective evaluation focuses on the algorithms efficiency.


Aquesta tesi es centra en el control dels sintetitzadors de veu cantada per aconseguir una expressivitat natural semblant a la d'un cantant real. Hi ha moltes característiques que s'haurien de controlar per aconseguir una expressivitat natural relacionades amb la melodia, la dinàmica, el ritme i el timbre. En aquesta tesi ens centrem en el control de la freqüència fonamental i de la dinàmica amb un sistema basat en selecció d'unitats, dos sistemes estadístics, i un sistema híbrid. Aquests sistemes són entrenats amb dues possibles bases de dades expressives que hem dissenyat, enregistrat i etiquetat. Hem definit les unitats bàsiques a partir de les quals les bases de dades s'han construit i que són seqüències de tres notes o silencis. La nostra avaluació perceptual compara els sistemes proposats amb altres sistemes per tal de veure com els podem relacionar. L'avaluació objectiva es centra en l'eficiència dels sistemes.

Keywords

Musical expression; Synthesis control; Singing voice; Singing voice synthesis; Expression control; Pitch; Dynamics; Unit selection; Statistical system; Hidden Markov models; HMM; Naturalness; Perceptual evaluation; Expression contours; Melody; Rhythm; Performance driven system; Rule-based system; Cost functions; Vibrato; Transition; Sustain; Note; Labeling; Attack; Release; Expressió musical; Control de síntesi; Veu cantada; Síntesi de veu cantada; Control d'expressivitat; Dinàmica; Sistema estadístic; Models ocults de Markov; Naturalitat; Evaluació perceptual; Contorns expressius; Melodia; Ritme; Sistema guiat per la interpretació; Sistema basat en regles; Funcions de cost; Transició; Sosteniment; Nota; Etiquetatge; Atac; Extinció; Selecció d'unitats

Subjects

004 - Computer science and technology. Computing. Data processing; 531/534 - Mechanics; 78 - Music

Documents

tmum.pdf

4.583Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/

This item appears in the following Collection(s)