Verificación automática de locutores aplicando pruebas diagnósticas múltiples en serie y en paralelo basadas en DTW (Dynamic Time Warping) y NFCC (Mel-Frequency Cepstral coefficients)

Author

Candel Ramón, Antonio José

Director

Ramón García, José Luis

Date of defense

2015-05-29

Pages

145 p.



Department/Institute

Universidad de Murcia. Departamento de Fisiología y Farmacología

Abstract

La presente Tesis Doctoral consiste en el diseño de un sistema capaz de realizar tareas de verificación automática de locutores, para lo cual se basa en el modelado mediante los procedimientos DTW (Dynamic Time Warping) y MFCC (Mel-Frequency Cepstral Coefficients). Una vez diseñado éste, se ha evaluado el sistema de forma tanto a nivel de pruebas individuales, DTW y MFCC por separado, como múltiples, combinación de ambas en serie y en paralelo, para grabaciones obtenidas de la base de datos AHUMADA de la Guardia Civil. Todos los resultados han sido vistos teniendo en cuenta la significación estadística de los mismos, derivada de la realización de un determinado número finito de pruebas. Se han obtenido resultados estadísticos de dicho sistema para diferentes tamaños de las bases de datos utilizadas, lo que nos permite concluir la influencia de estos en el método. Como conclusión a los mismos, podemos identificar cuál es el mejor sistema, compuesto por el tipo de modelo y el tamaño de la muestra, que debemos utilizar en un estudio forense en función de la finalidad perseguida.


The present thesis is the design of a system capable of performing automatic speaker verification, for which is based on modeling using the DTW (Dynamic Time Warping) and procedures MFCC (Mel-Frequency Cepstral Coefficients). Once designed it, we have evaluated the system so both at individual events, DTW and MFCC separately as multiple, combining both in series and in parallel, to recordings obtained from the data base AHUMADA from the Guardia Civil. All results have been seen considering the statistical significance thereof, derived from performing a given finite number of tests. Statistical results have been obtained in such a system for different sizes of the databases used, allowing us to conclude the influence of these in the method in order to fix a priori the different variables of this, in order to make the best possible study. To the same conclusion, we can identify what is the best system, consisting of model type and sample size, we use a forensic study based on the intended purpose.

Keywords

Voz; Habla; Reconocimiento automático del habla

Subjects

531/534 - Mechanics; 612 - Physiology. Human and comparative physiology

Knowledge Area

Ciencias

Documents

TAJCR.pdf

2.765Mb

 

Rights

ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices.

This item appears in the following Collection(s)