Interpretable deep-learning models for sound event detection and classification

Author

Zinemanas Frieti, Pablo

Director

Serra, Xavier ORCID

Font Corbera, Frederic

Date of defense

2023-10-20

Pages

140 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Deep-learning models have revolutionized state-of-the-art technologies in many research areas, but their black-box structure makes it difficult to understand their inner workings and the rationale behind their predictions. This may lead to unintended effects, such as being susceptible to adversarial attacks or the reinforcement of biases. As a consequence, there has been an increasing interest in developing deep-learning models that provide explanations of their decisions, a field known as interpretable deep learning. On the other hand, in the past few years, there has been a surge in developing technologies for environmental sound recognition motivated by its applications in healthcare, smart homes, or urban planning. However, most of the systems used for these applications are deep-learning-based black boxes and, therefore, can not be inspected, so the rationale behind their decisions is obscure. Despite recent advances, there is still a lack of research in interpretable machine learning in the audio domain. This thesis aims to reduce this gap by proposing several interpretable deep-learning models for automatic sound classification and event detection. We start by describing an open-source software tool for reproducible research in the sound recognition field, which was used to implement the models and run experiments presented in this document. We then propose an interpretable front-end based on domain knowledge to tailor the feature-extraction layers of an end-to-end network for sound event detection. We then present a novel interpretable deep-learning model for automatic sound classification, which explains its predictions based on the similarity of the input to a set of learned prototypes in a latent space. We leverage domain knowledge by designing a frequency-dependent similarity measure. The proposed model achieves results comparable to state-of-the-art methods. In addition, we present two automatic methods to prune the proposed model that exploits its interpretability. This model is accompanied by a web application for the manual editing of the model, which allows for a human-in-the-loop debugging approach. Finally, we propose an extension of this model that works for a polyphonic setting, such as the sound event detection task. To provide interpretability, we leverage the prototype network approach and attention mechanisms. The tools for reproducible research and the interpretable deep-learning models, such as those proposed in this thesis, can contribute to developing a more responsible and trustworthy Artificial Intelligence in the audio domain.


Els models de deep learning han revolucionat les tecnologies d’última generació en moltes àrees de recerca, però la seva estructura black-box fa difícil entendre el seu funcionament intern i la lògica darrere de les seves prediccions. Això pot conduir a efectes no desitjats, com ara ser susceptible a atacs adversos o el reforç de biaixos. Com a conseqüència, hi ha hagut un interès creixent en el desenvolupament de models de deep learning que proporcionen explicacions de les seves decisions, un camp conegut com a deep learning interpretable. D’altra banda, en els últims anys, s’ha produït un augment en el desenvolupament de les tecnologies per al reconeixement de so ambiental motivat per les seves aplicacions en l’assistència sanitària, les llars intel·ligents o la planificació urbana. No obstant això, la majoria dels sistemes utilitzats per a aquestes aplicacions són black-boxes basades en el deep learning i, per tant, no poden ser inspeccionades, de manera que la raó de les seves decisions és confusa. Malgrat els avenços recents, encara hi ha una manca d’investigació en el deep learning interpretable en el domini d’àudio. Aquesta tesi té com a objectiu reduir aquest buit proposant diversos models de deep learning per a la classificació automàtica del so i la detecció d’esdeveniments. Comencem descrivint una eina de programari de codi obert per a la investigació reproduïble en el camp del reconeixement de so, que es va utilitzar per implementar els models i executar experiments presentats en aquest document. A continuació, proposem un front-end interpretable basat en el coneixement del domini per adaptar les capes d’extracció de característiques d’una xarxa d’extrem a extrem per a la detecció d’esdeveniments sonors. Llavors presentem un nou model interpretable de deep learning per a la classificació automàtica del so, que explica les seves prediccions basades en la similitud de l’entrada a un conjunt de prototips apresos en un espai latent. Aprofitem el coneixement del domini dissenyant una mesura de similitud dependent de la freqüència. El model proposat aconsegueix resultats comparables als mètodes més moderns. A més, presentem dos mètodes automàtics per a reduir el model proposat que explota la seva interpretabilitat. Aquest model està acompanyat per una aplicació web per a l’edició manual del model, que permet una formulació de depuració human-in-the-loop. Finalment, proposem una extensió d’aquest model que funcioni per a un entorn polifònic, com la tasca de detecció d’esdeveniments sonors. Per proporcionar interpretabilitat, aprofitem l’formulació de la xarxa prototip i els mecanismes d’atenció. Les eines per a la investigació reproduïble i els models interpretables de deeplearning, com els proposats en aquesta tesi, poden contribuir al desenvolupament d’una intel·ligència artificial més responsable i fiable en l’àmbit de l’àudio.

Keywords

Deep learning models; Models de deep learning

Subjects

62 - Engineering. Technology in general

Documents

tpzf.pdf

4.964Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)