Relevant statistical applications to real-world data science

Author

Serra Burriel, Feliu

Director

Delicado Useros, Pedro Francisco

Codirector

Cucchietti, Fernando

Date of defense

2022-04-19

Pages

229



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

DOCTORAT EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2012)

Abstract

The work presented in this dissertation is a compendium of articles based on three main applications of advanced statistical methodologies on real-world complex datasets. The first application concerns wildfire effects and is divided into two sections. For the first section, we know that the effects of wildfires are heterogeneous. Yet, which areas are more affected by these events remains unclear. Here we present a novel application of the Generalized Synthetic Control (GSC) method that enables the quantification and prediction of vegetation changes due to wildfires through a time-series analysis of in situ and satellite remote sensing data. We apply this method to a span of medium to large wildfires (> 1000 acres) in California throughout a time-span of two decades (1996–2016). The capacity of this method for estimating counterfactual vegetation characteristics for burned regions is explored, and abrupt system changes are quantified. We find that the GSC method is better at predicting vegetation changes than the more traditional approach of using nearby regions to assess wildfire impacts. With regard to the second section of this first application, we aim to explain the dynamics of wildfire effects on a vegetation index (previously estimated by causal inference through synthetic controls) from available pre-wildfire information (mainly proceeding from satellites). For this purpose, we use regression models from Functional Data Analysis, where wildfire effects are considered functional responses, depending on the elapsed time after each wildfire, with pre-wildfire data acting as scalar covariates. Our main findings show that vegetation recovery after wildfires is a slow process, affected by many pre-wildfire conditions, among which the richness and diversity of vegetation are some of the best predictors. For the second application in this dissertation, we use count data on the arrivals at the Camp Nou stadium, owned and managed by Futbol Club Barcelona (FCB). FCB operates the largest stadium in Europe (with a seating capacity of almost one hundred thousand people) and hosts recurring sports events. The attendance to these is influenced by multiple conditions and have a palpable effect on city dynamics -- e.g., peak demand for related services like public transport and stores. We study fine grain audience entrances at the stadium, segregated by gate and visitor type, in order to gain insights and predict the arrival behavior of future games. We can forecast the timeline of arrivals at gate level 72 hours prior to kickoff, facilitating operational and organizational decision-making by anticipating potential agglomerations and audience behavior, and identify patterns for different types of visitors and understand how relevant factors affect their turnout. Lastly, the third application explores the ways in which mobile phone, census, and volunteered geographical data can be used to measure geographic variations in the relationship between origin-destination flows and local urban accessibility in Barcelona. By means of a Negative Binomial Geographically Weighted Regression model we show that, globally, people tend to visit neighborhoods with better access to education facilities and retail. Locally, these and other features differ in sign and magnitude throughout the different city neighborhoods in ways that are not explained by administrative boundaries, providing deeper insights regarding urban characteristics such as rental prices. In conclusion, our work suggests that the qualities of a 15-minute city can be measured at scale, delivering actionable insights on the polycentric structure of cities, and the way people use and access this structure. All in all, the work presented in this thesis is a combination of statistics, applied statistics, data science, econometrics and economics, showing distinct ways and applications in which the temporal and spatial dimension can be treated and used to answer relevant research questions.


La feina presentada en aquesta tesi és un compendi d’articles basat principalment en tres aplicacions de metodologies estadístiques i conjunts de dades avançades. La primera aplicació és sobre els efectes dels incendis forestals i està dividida en dues seccions. Per a la primera secció, sabem que els efectes dels incendis són heterogenis. Aquí presentem una nova aplicació de la metodologia Generalized Synthetic Controls (GSC), que ens permet la quantificació i predicció de canvis de vegetació deguts a incendis per mitjà de l’anàlisi de sèries temporals obtingudes amb dades satel·litals. Apliquem aquesta metodologia a incendis mitjans i grans (>404 hectàrees) a Califòrnia durant un període de dues dècades (1996-2016) i explorem la capacitat del mètode per a estimar les característiques de les vegetacions contrafactuals o hipotètiques per tal de detectar canvis dràstics en els ecosistemes. Finalment, concloem que el mètode GSC és una opció millor per a predir canvis en la vegetació que els mètodes més tradicionals, com ara utilitzar les regions pròximes per a mesurar els efectes dels incendis. Per a la segona part d’aquesta primera aplicació, l’objectiu és explicar la dinàmica dels efectes sobre un índex de vegetació (anteriorment estimat amb la inferència causal per mitjà de controls sintètics) de la informació prèvia a l’incendi (sobretot informació obtinguda a través dels satèl·lits). Amb aquest propòsit, fem servir models de regressió de l’Anàlisi de Dades Funcionals, on els efectes dels incendis es consideren respostes funcionals en funció del temps transcorregut després de cada incendi, mentre que la informació anterior als incendis s’empra de manera escalar. Els resultats mostren que la recuperació de la vegetació després dels incendis és un procés lent i afectat per moltes condicions prèvies a l’incendi, entre les quals la riquesa i la diversitat de la vegetació són algunes de les qualitats més importants a l’hora de predir recuperacions. Per a la segona aplicació d’aquesta tesi, fem servir dades de comptatge d’assistències al Camp Nou, l’estadi del Futbol Club Barcelona (FCB). El FCB opera l’estadi més gran d’Europa (amb una capacitat de seients totals pròxima a les cent mil persones) i gestiona esdeveniments esportius de manera recurrent. Aquests esdeveniments estan afectats per diverses condicions (l’hora i el dia de la setmana, el temps, l’adversari) i afecten les dinàmiques de la ciutat. Nosaltres estudiem les dades detallades sobre les entrades del públic a l’estadi, segregant per tipus de visitants i per portes, per tal de guanyar perspectives i predir el comportament de l’assistència en partits futurs. Podem predir el cronograma d’entrades per porta 72 hores abans del començament del partit, cosa que fa més fàcil la presa de decisions operacional i organitzacional i permet d’anticipar aglomeracions potencials i el comportament de l’audiència. Finalment, la tercera aplicació explora com, utilitzant dades de dispositius mòbils, censos, i dades geogràfiques voluntàries, podem mesurar les variacions geogràfiques en la relació origen-destí dels fluxos de persones i l’accessibilitat local urbana a Barcelona. Partint d’un model Negative Binomial Geographically Weighted Regression, demostrem que, globalment, la gent tendeix a desplaçar-se als barris amb més bon accés a l’educació i al petit comerç. Localment, aquests factors i d’altres canvien en signe i magnitud en funció del barri de maneres que no s’expliquen satisfactòriament pels límits administratius. En resum, la nostra feina suggereix que les qualitats de les ciutats dels 15 minuts són mesurables a escala, fet que ofereix una visió sobre les estructures pericèntriques de les ciutats i la manera en què la gent utilitza i accedeix a aquesta estructura. En resum, la feina presentada en aquesta tesi mostra diverses aplicacions


El trabajo presentado en esta tesis es un compendio de artículos basado principalmente en tres aplicaciones de metodologías estadísticas avanzadas en conjuntos de datos complejos. La primera aplicación es sobre los efectos de los incendios forestales y está dividida en dos secciones. Para la primera sección, sabemos que los efectos de los incendios son heterogéneos, lo cual significa que la magnitud de sus efectos depende de muchos factores como la región geográfica, el clima, o el tipo de vegetación. Sin embargo, cuales áreas son las que se ven más afectadas por estos acontecimientos no está del todo claro. Aquí presentamos una nueva aplicación de la metodología Generalized Synthetic Controls (GSC) que nos permite la cuantificación y predicción de cambios de vegetación debido a los incendios, a través del análisis de series temporales obtenida de datos satelitales. Aplicamos esta metodología a incendios medianos y grandes (≥ 404 hectáreas) en California durante un periodo de dos décadas (1996-2016). Exploramos las capacidades del método para estimar las características de las vegetaciones contra factuales o hipotéticas para detectar cambios drásticos en los ecosistemas. Finalmente, encontramos que el método GSC es una mejor opción para predecir cambios en la vegetación que los métodos más tradicionales, como utilizar las regiones cercanas para medir los efectos de los incendios. Para la segunda parte de esta primera aplicación, nuestro objetivo es explicar la dinámica de los efectos en un índice de vegetación (anteriormente estimado usando inferencia causal a través de controles sintéticos) de la información previa al incendio (sobretodo información obtenida a través de los satélites). Con ese propósito, utilizamos modelos de regresión del Análisis de Datos Funcional, donde los efectos de los incendios son considerados respuestas funcionales, dependiendo del tiempo transcurrido después de cada incendio, mientras que la información anterior a los incendios es utilizada de forma escalar. Nuestros hallazgos principales muestran que la recuperación de la vegetación después de los incendios es un proceso lento, afectado por muchas condiciones previas al incendio, entre las cuales la riqueza y la diversidad de la vegetación son unas de las cualidades más importantes a la hora de predecir las recuperaciones. Para la segunda aplicación de esta tesis, utilizamos datos de contaje sobre las llegadas al estadio Camp Nou del Futbol Club Barcelona (FCB). El FCB opera el estadio más grande de Europa (con una capacidad de asientos cerca de las cien mil personas) y gestiona recurrentemente eventos deportivos. Estos eventos están influenciados por múltiples condiciones (la hora y el día de la semana, el tiempo, el contrincante) y afectan las dinámicas de la ciudad – por ejemplo, picos de demanda de los servicios relacionados como el transporte público y las tiendas. Nosotros estudiamos datos detallados sobre las entradas de la audiencia en el estadio, segregando por distintos tipos de visitante y puertas, para ganar perspectivas y predecir el comportamiento de las llegadas en futuros partidos. Podemos predecir el cronograma de las llegadas a nivel de puerta 72 horas antes del pitido inicial del partido, facilitando la toma de decisiones operacional y organizacional, anticipando aglomeraciones potenciales y el comportamiento de la audiencia. Además, podemos identificar patrones para distintos tipos de visitantes y entender como distintos factores los afectan. Finalmente, la tercera aplicación explora como el uso de datos de dispositivos móviles, censos, y datos voluntarios geográficos podemos medir las variaciones geográficas en la relación en origen y destino de los flujos de personas y la accesibilidad local urbana en Barcelona. Utilizando un modelo de Negative Binomial Geographically Weighted Regression, demostramos que, globalmente, la gente tiende a visitar vecindarios con mejor acceso a la educación y la venta minorista. Localmente, estos y otros factores cambian en signo y magnitud, a través de los distintos vecindarios de la ciudad en formas que no se explican por los limites administrativos, y que proporcionan conocimientos más profundos respecto a las características urbanas como los precios de los alquileres. En resumen, nuestro trabajo sugiere que las cualidades de las ciudades de 15 minutos pueden ser medidas a escala, entregando y revelando una visión sobre las estructuras policéntricas de las ciudades, y cómo la gente utiliza y accede a esta estructura. En resumen, el trabajo presentado en esta tesis es una combinación de estadística, estadística aplicada, data science, econometría y economía, demostrando distintas formas y aplicaciones en las que, tanto el aspecto temporal, como el dimensional, pueden ser tratados para responder preguntas de investigación relevantes.

Subjects

311 - Statistics as a science. Statistical theory

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística

Note

Tesi en modalitat de compendi de publicacions

Documents

TFSB1de1.pdf

63.66Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)