2024-03-29T12:47:24Zhttps://www.tdx.cat/oai/requestoai:www.tdx.cat:10803/4571432024-03-15T10:58:01Zcom_10803_236col_10803_690279
The Information structure-prosody interface: on the role of hierarchical thematicity in an empirically-grounded model
Domínguez Bajo, Mónica
Wanner, Leo
Farrús, Mireia
Information structure
Communicative structure
Thematicity
Theme
Rheme
Prosody
ToBI
Acoustic parameters
Speech synthesis
TTS
Text-to-speech
CTS
Concept-to-speech
Automatic prosody labeling
Estructura informativa
Estructura comunicativa
Tematicidad
Tema
Rema
Prosodia
Parámetros acústicos
Síntesis de voz
Texto a habla
Concepto a habla
Etiquetado automático de prosodia
This dissertation presents an empirical study on the information structure–
prosody interface based on: (i) a formal description of hierarchical thematicity
within a systematic language model for natural language generation within the
Meaning-Text Theory; and (ii) two approaches to prosodic representation, namely,
ToBI labels and acoustic parameters. A corpus of read speech by twelve native
speakers of American English is used to test the viability to approach prosody generation
in synthesized speech from a communicative perspective. To this end, statistical,
classification and implementation experiments are carried out. The main
technical contribution consists in two tools: a data-driven module for thematicitybased
prosody enrichment in a speech synthesizer and an automatic prosody tagger
developed under an extension of Praat for feature annotation. Results prove
that thematicity spans have distinct prosodic characteristics, as previously suggested
in theoretical studies, and that a tripartite hierarchical thematicity is a more
appropriate representation of information structure than traditional binary flat thematicity
approaches for its integration in speech technologies.
Esta tesis presenta un estudio empírico de la interfaz estructura informativa–
prosodia basado en: (i) una descripción formal de la tematicidad jerárquica que se
enmarca en un modelo del lenguaje sistemático para la generación automática del
lenguaje natural dentro del marco de la Teoría Sentido-Texto; y (ii) dos representaciones
prosódicas utilizando etiquetas ToBI y parámetros acústicos. Se emplea
un corpus de habla leída por doce hablantes nativos de inglés americano para
comprobar la validez de la generación de prosodia en síntesis de voz a partir de
características comunicativas. Con este objectivo, se presentan experimentos estadísticos, de clasificación y de implementación. La principal contribución técnica
consiste en dos herramientas: un módulo basado en datos para el enriquecimiento
prosódico de voz sintética a partir de la tematicidad y un etiquetador automático
de prosodia implementado en una extensión de Praat para la anotación de características lingüísticas. Los resultados demuestran que los segmentos de tematicidad
están caracterizados por rasgos prosódicos distintivos, como se había sugerido
en estudios teóricos previos y que la tematicidad tripartita jerárquica es una representación más adecuada de la estructura informativa que las anteriores propuestas
tradicionales de tematicidad binaria plana para su integración en las tecnologías
del habla.
2017-11-24T11:51:16Z
2017-11-24T11:51:16Z
2017-11-24T11:51:16Z
2017-11-17
info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/publishedVersion
http://hdl.handle.net/10803/457143
eng
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
Universitat Pompeu Fabra
TDX (Tesis Doctorals en Xarxa)