Cross-modal predictive mechanisms during speech perception

Author

Sánchez García, Carolina

Director

Soto-Faraco, Salvador

Date of defense

2013-11-29

Legal Deposit

B 15296-2015

Pages

194 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

El objetivo de esta tesis es investigar los mecanismos predictivos que operan de forma online durante la percepción audiovisual de una lengua. La idea de que existen mecanismos predictivos que actúan a distintos niveles lingüísticos (sintáctico, semántico, fonológico...) durante la percepción de una lengua ha sido ampliamente apoyada recientemente por literatura. Sin embargo, casi toda la literatura está relacionada con los fenómenos predictivos dentro de la misma modalidad sensorial (visual o auditiva). En esta tesis, investigamos si la predicción online durante la percepción del habla puede ocurrir a través de distintas modalidades sensoriales. Los resultados de este trabajo aportan evidencias de que la información visual articulatoria puede ser utilizada para predecir la subsiguiente información auditiva durante el procesamiento de una lengua. Además, los efectos de la predicción intermodal se observaron únicamente en la lengua nativa de los participantes pero no en una lengua con la que no estaban familiarizados. Esto nos lleva a concluir que representaciones fonológicas bien establecidas son esenciales para que ocurra una predicción online a través de modalidades. El último estudio de esta tesis reveló, mediante el uso de ERPs, que la información visual articulatoria puede ejercer una influencia más allá de las etapas fonológicas. En concreto, la saliencia visual de la primera sílaba de una palabra influye durante la etapa de selección léxica, interaccionando con los procesos semánticos durante la comprensión de frases. Los resultados obtenidos en esta tesis demuestran la existencia de mecanismos predictivos a través de distintas modalidades sensoriales, basados en información articulatoria visual. Estos mecanismos actúan de forma online, haciendo uso de la información multisensorial disponible durante la percepción de una lengua, para optimizar su procesamiento.


The present dissertation addresses the predictive mechanisms operating online during audiovisual speech perception. The idea that prediction mechanisms operate during the perception of speech at several linguistic levels (i.e. syntactic, semantic, phonological….) has received increasing support in recent literature. Yet, most evidence concerns prediction phenomena within a single sensory modality, i.e., visual, or auditory. In this thesis, I explore if online prediction during speech perception can occur across sensory modalities. The results of this work provide evidence that visual articulatory information can be used to predict the subsequent auditory input during speech processing. In addition, evidence for cross-modal prediction was observed only in the observer’s native language but not in unfamiliar languages. This led to the conclusion that well established phonological representations are paramount for online cross-modal prediction to take place. The last study of this thesis, using ERPs, revealed that visual articulatory information can have an influence beyond phonological stages. In particular, the visual saliency of word onsets has an influence at the stage of lexical selection, interacting with the semantic processes during sentence comprehension. By demonstrating the existence of online cross-modal predictive mechanisms based on articulatory visual information, our results shed new lights on how multisensory cues are used to speed up speech processing.

Keywords

Habla audiovisual; Predicción; Percepción del habla; Integración multisensorial; Predicción fonológica; Audiovisual speech; Predictive coding; Speech perception; Multisensory integration; Event-related potentials; Phonology based-prediction

Subjects

81 - Linguistics and languages

Documents

tcsg.pdf

1.683Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)