On the data quality improvement of air pollution monitoring low-cost sensor networks using data-driven techniques

Author

Ferrer Cid, Pau

Director

García Vidal, Jorge

Codirector

Barceló Ordinas, José María

Date of defense

2023-05-08

Pages

197 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Abstract

(English) Nowadays, authorities monitor the concentrations of regulated air pollutants in order to assist in decision-making processes, e.g., for the implementation of traffic restrictions, and mitigate the effects of air pollution. For this purpose, they deploy high-precision instrumentation, the cost of which makes the number of sensors deployed over a region very low. The advent of air pollution low- cost sensors (LCSs) has opened up the possibility of complementing the authorities' instruments with more measurement points. Unfortunately, LCSs present inaccuracies, which makes it difficult to include them in a regulated way for decision-making processes of authorities. In recent years, enabling technologies such as the internet of things (IoT) and machine learning (ML) have allowed the improvement of the data quality of LCSs. Therefore, this thesis is devoted to the improvement of the data quality of air pollution monitoring LCS networks focusing on two aspects; i) the improvement of data quality at node level using ML-based sensor calibration, and ii) the improvement of the sensor network data quality by using measurements from the network sensors with a graph-based approach. In the first part of the thesis, the improvement of the data quality of individual sensors is investigated. First, it is evaluated how the sensor sampling affects the representativeness of the samples. Then, the use of ML techniques, both linear and nonlinear, for the in-situ calibration of LCSs is analyzed. The in-situ sensor calibration task can be seen as a supervised ML learning problem, so techniques such as multiple linear regression (MLR) or support vector regression (SVR) are evaluated. The evaluation shows how nonlinear techniques improve the quality of pollution estimates significantly. In addition, given the inaccuracies present in LCSs and the difference that exists from one sensor to another of the same manufacturer, the inclusion in the calibration of multiple sensors measuring the same pollutant is investigated. Thereby, the proposed multisensor calibration approach based on ML results in increased calibration accuracy. The second part of the thesis focuses on the quality of the data reported by a sensor network once deployed over an area. A graph-based approach is proposed to describe the existing relationships between sensors using a graph topology and represent the network measurements as signals defined on the graph, as realized in the graph signal processing (GSP) field. First, different techniques have been evaluated to correctly learn the relationships between sensors in a network that can contain both LCSs and high-precision nodes. The most suitable option has proven to be the data-driven GSP model based on signal smoothness. Then, different signal reconstruction techniques coupled with the graph have been studied in order to reconstruct pollution measurements reported by different sensors in a network. Kernel-based techniques and those based on the weights of the Laplacian have been the most effective ones. Once these main components have been studied, a graph-based data reconstruction framework has been proposed for different post-processing applications that appear in LCS networks, e.g., missing value imputation and virtual sensing. The results have shown how this framework allows for dealing with a wide variety of applications and scenarios that can occur in this context with precision. Finally, another important aspect of this type of network has been addressed, which is the detection of outliers. The Volterra graph-based outlier detection (VGOD) has been proposed, using a graph learned from the data and a signal reconstruction model based on the Volterra series, to detect and locate outliers. Therefore, the proposed algorithm has been proven to improve the monitoring and maintenance of heterogeneous air pollution sensor networks by identifying abnormal measurements and malfunctioning sensors.


(Español) Hoy en día, las autoridades vigilan las concentraciones de contaminantes atmosféricos regulados para ayudar en los procesos de toma de decisiones, por ejemplo, en la aplicación de restricciones de tráfico, y mitigar los efectos de la contaminación atmosférica. Para ello, despliegan instrumentación de alta precisión, cuyo coste hace que el número de sensores desplegados en una región sea muy reducido. La aparición de sensores de contaminación atmosférica de bajo coste (LCS) ha abierto la posibilidad de complementar los instrumentos de las autoridades con más puntos de medición. Desafortunadamente, los LCS presentan imprecisiones, dificultando su inclusión de forma regulada en los procesos de toma de decisiones. En los últimos años, tecnologías como el internet de las cosas (IoT) y el aprendizaje automático (ML) han permitido mejorar la calidad de los datos de los LCSs. Por lo tanto, esta tesis está dedicada a la mejora de la calidad de los datos de las redes de LCS de contaminación atmosférica, centrándose en dos aspectos: i) la mejora de la calidad de los datos a nivel de nodo utilizando calibración de sensores basada en ML, y ii) la mejora de la calidad de los datos de la red de sensores utilizando mediciones de los sensores de la propia red mediante un enfoque basado en grafos. En la primera parte de la tesis se investiga la mejora de la calidad de los datos de los sensores de forma individual. Primero, se evalúa cómo afecta el muestreo de los sensores a la representatividad de las muestras. A continuación, se analiza el uso de técnicas ML, tanto lineales como no lineales, para la calibración in-situ de LCSs. La tarea de calibración de sensores in-situ puede considerarse un problema de aprendizaje de ML supervisado, por ello se evalúan técnicas como la multiple linear regression (MLR) o support vector regression (SVR). La evaluación muestra cómo las técnicas no lineales mejoran significativamente la calidad de las estimaciones de contaminación. Además, dadas las imprecisiones presentes en los LCS y la diferencia que existe de un sensor a otro del mismo fabricante, se investiga la inclusión en la calibración de múltiples sensores que miden el mismo contaminante. Así, el enfoque propuesto de calibración multisensor basado en ML permite aumentar la precisión de la calibración. La segunda parte de la tesis se centra en la calidad de los datos medidos por la red de sensores una vez desplegada. Se propone un enfoque basado en grafos para describir las relaciones existentes entre los sensores mediante la topología del grafo y representar las medidas de la red como señales definidas en el grafo, como en el campo del graph signal processing (GSP). Se han evaluado diferentes técnicas para aprender correctamente las relaciones entre sensores de una red que puede contener tanto LCSs como nodos de alta precisión. El modelo de GSP basado en el smoothness de la señal ha resultado ser el mejor. A continuación, se han estudiado distintas técnicas de reconstrucción de señal acopladas al grafo con el fin de reconstruir las medidas de contaminación obtenidas por los distintos sensores de la red. Las técnicas basadas en kernel y las basadas en los pesos del Laplaciano han sido las más efectivas. Luego, se ha propuesto un framework de reconstrucción de datos basado en grafos para diferentes aplicaciones de post-procesado que aparecen en las redes de LCSs, por ejemplo, la imputación de valores perdidos y los sensores virtuales. Los resultados han mostrado cómo este framework permite abordar con precisión una amplia variedad de aplicaciones y escenarios que pueden darse en este contexto. Por último, se ha investigado otro aspecto importante de este tipo de redes, la detección de valores atípicos. Se ha propuesto el algoritmo Volterra graph-based outlier detection (VGOD), que utiliza un grafo aprendido a partir de los datos y un modelo de reconstrucción de señal basado en las series de Volterra, para detectar y localizar medidas anómalas.

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TPFC1de1.pdf

9.490Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)