Fast cross-session speaker diarization

Autor/a

Delgado Flores, Héctor

Director/a

Serrano García, Javier

Anguera Miró, Xavier

Fecha de defensa

2015-09-18

ISBN

9788449055317

Depósito Legal

B-25347-2015

Páginas

147 p.



Departamento/Instituto

Universitat Autònoma de Barcelona. Departament de Telecomunicació i Enginyeria de Sistemes

Resumen

Actualmente se crean, almacenan, editan y distribuyen grandes cantidades de contenidos audiovisuales, en parte debido a la capacidad de almacenamiento prácticamente ilimitada, al acceso a los medios necesarios por todo el mundo y en cualquier parte, y a la ubicua conectividad proporcionada por Internet. En este contexto, se requiere una gestión adecuada y sostenible que permita la búsqueda y recuperación de la información de interés. Es aquí donde las técnicas de procesamiento del habla juegan un papel crucial en el etiquetado y anotación automáticos de contenidos audiovisuales. La diarización de locutores es un proceso de apoyo clave para otros sistemas de procesamiento del habla, tales como el reconocimiento automático del habla y el reconocimiento automático de locutores, frecuentemente usados para la extracción automática de metadatos de documentos hablados. Entre las distintas colecciones de contenidos, puede haber locutores recurrentes que participen en diferentes sesiones dentro de una colección determinada (por ejemplo, en contenidos de televisión y radio). Dada la naturaleza local de la tecnología de diarización de locutores, un locutor recurrente arbitrario probablemente recibirá identificadores locales diferentes entre las distintas sesiones donde tal locutor participa. En esta situación tendría más sentido que los locutores recurrentes recibieran el mismo identificador abstracto, global para todas las sesiones. Esta tarea se conoce como diarización de locutores inter-sesión. La diarización de locutores actual ha conseguido muy buena precisión, pero normalmente al coste de largos tiempos de ejecución. Esta limitación podría no ser adecuada para aplicaciones de la vida real a gran escala, se hace aún más evidente el la tarea de diarización de locutores inter-sesión. En esta tesis, la aproximación a la diarización rápida de locutores basada en claves binarias se lleva a un siguiente nivel, con el objetivo de obtener rendimientos similares a los de los sistemas actuales punteros, mientras se preservan altas tasas de velocidad que permitan el tratamiento de grandes colecciones de audio en tiempos competitivos. Además, se propone un nuevo sistema de diarización de locutores inter-sesión basado en claves binarias que sigue los mismos principios previamente establecidos: precisión competitiva en tiempos de ejecución cortos. Como resultado de esta tesis, se propone un sistema mejorado de diarización que consigue una mejora relativa del 16% en rendimiento con respecto a un sistema base de claves binarias (15% DER frente a un 18.22% DER, siendo DER la tasa de error de diarización), siendo 7 veces más rápido (0.035xRT frente a 0.252xRT, siendo xRT el factor de tiempo real) y 28 veces más rápido que el tiempo real. En cuanto a la diarización inter-sesión, en esta tesis se propone un sistema binario cuya precisión es solo levemente inferior (3.5% DER absoluto) a la de su sistema homólogo para sesiones independientes, mientras que presenta factores de tiempo real alrededor de 0.036xRT. Además, la aproximación propuesta escala adecuadamente para tratar colecciones de audio de varios cientos de horas.


Today, massive amounts of audiovisual content are being generated, stored, released and delivered, in part due to the virtually unlimited storage capacity, the access to the necessary media to produce them by anybody and anywhere, and the ubiquitous connectivity provided by the Internet. In this context, suitable, affordable and sustainable content management which enables searching and retrieving information of interest is a must. Since manual handling of such amount of data is intractable, it is here where speech processing techniques may play a crucial role in the automatic tagging and annotation of audiovisual content. The task of speaker diarization (also known as the “who spoke when” task) has become a key process as a supporting technology for further speech processing systems, such as automatic speech recognition and automatic speaker recognition, used for the automatic extraction of metadata from spoken documents. Among the massive amount of audiovisual content being created, there can be recurrent speakers who participate in several sessions within a collection of audiovisual sessions. For instance, in TV and radio content one can frequently find recurrent speakers such as public figures, journalists, presenters, anchors, and so on. Due to the local nature of current speaker diarization technology (systems work on a single-session basis), an arbitrary recurrent speaker will likely receive different local abstract identifiers among the different sessions where he/she participates. In this situation, it would be more meaningful that the recurrent speakers receive the same global, abstract ID along all sessions. This task is known as cross-session speaker diarization. Current state-of-the-art speaker diarization systems have achieved very good performance, but usually at the cost of long processing times. This limitation on execution time makes current systems not suitable for large-scale, real-life applications, and becomes even more evident in the task of cross-session speaker diarization. In this thesis, the fast speaker diarization approach based on binary key speaker modeling is taken to a next level with the aim of bringing it closer to state-of-the-art performance while preserving high speed rates that enable the processing of large audio collections in competitive times. Furthermore, a new cross-session speaker diarization system based on binary key speaker modeling is proposed by following the same previously established goals: competitive performance with short execution times. As a result of this thesis, we propose a new improved single-session speaker diarization system which exhibits a 16% relative improvement in performance with regard to a baseline binary key system (15.15% DER opposed to 18.22% DER, being DER the diarization error rate), while being 7 times faster (0.035xRT against 0.252xRT, being xRT the real-time factor) and 28 times faster than real time. As for cross-session speaker diarization, in this thesis we propose a binary system whose performance is just slightly below (3.5% absolute DER) the performance of its single-session counterpart, while presenting a real-time factor of 0.036xRT. Furthermore, our approach has been shown to successfully scale for processing audio collection of several hundreds of hours.

Palabras clave

Diarització de locutors; Speacker diarization; Reconeixement de locutors; Speaker recognition

Materias

004 - Informática

Área de conocimiento

Tecnologies

Documentos

hdf1de1.pdf

1.644Mb

 

Derechos

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)