New approaches for resource management and job scheduling for HEP grid computing

llistat de metadades

Director

Badia Sala, Rosa Maria

Codirector

Betev, Latchezar

Date of defense

2025-06-25

Pages

146 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Doctorate programs

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Abstract

(English) The Large Hadron Collider (LHC) ALICE (A Large Ion Collider Experiment) experiment uses grid computing for its extensive data processing and analysis. The ALICE Grid is composed of 48 sites distributed globally, which provide access to over 300,000 CPU cores. This diverse environment presents unique challenges as the computing nodes are very heterogeneous in terms of hardware, resource availability and management policies. This thesis focuses on optimising resource utilisation and job execution within the ALICE Grid in the context of the evolving multicore computing paradigm. The transition from single to multicore slots, combined with the increasing prevalence of multiprocess and multithreaded workflows, requires new resource management approaches. The thesis presents a black-box analysis of the multicore experiment software framework, tracing resource usage and system calls. Multiple sources of overhead were identified, particularly concerning the large amount of short-lived processes spawned by some workflows. To address this, the JAliEn monitoring system was extended and improved to accurately account for the resource utilisation of these short-lived processes. The observations led to modifications on the internal job workflow, resulting in a 47% reduction in the number of deployed processes and a 35% decrease in overall job execution time. For tailoring job requests to the specific characteristics of the executing systems, a model is proposed to estimate job execution times. This model leverages proportionality factors from the execution times on different Grid CPU models and uses them to dynamically scale job requests. To ensure the coherent and controlled utilisation of CPU resources, two approaches are proposed. The first uses CPU pinning and adapts the core selection to the processor architecture, optimising resource allocation for specific workloads. The second uses cgroups v2 sub-partitioning features to set boundaries on job CPU utilisation. The thesis made significant contributions to popular grid batch systems by enabling support for cgroups v2. This integration allowed JAliEn to become the first grid middleware to make use of this powerful resource management technology. When a slot is sub-partitioned to run multiple jobs in parallel, careful resource orchestration is crucial. This thesis presents a module within JAliEn that ensures equitable memory resource distribution among co-executing jobs. This module implements a targeted preemption of resource-intensive jobs to prevent slot overconsumption and ensure that jobs remain within their allocated memory limits. The thesis explores whole-node slot allocations in which JAliEn manages all the resources of a node. This novel scheduling model offers great flexibility and adaptability. To maximise resource usage in whole-node slots, CPU oversubscription was introduced to allow the execution of additional jobs when the running workload does not fully use the available CPU resources. To exploit whole-node allocations and maximise resource utilisation, the thesis proposes the extension of job brokering to consider not only CPU availability but also memory and disk space. Furthermore, the job definition syntax was equipped with new parameters for users to have greater control over resource requests. To sum up, this thesis presents a set of contributions that have substantially improved the efficiency and performance of grid computing within the ALICE experiment. The thesis addresses the challenges emerging from the evolving multicore environment by optimising resource utilisation and improving middleware reliability and observability. All these contributions introduced significant advances to the capabilities of the ALICE Grid, effectively enabling a more efficient data analysis for the LHC experiment.


(Català) L'experiment ALICE («A Large Ion Collider Experiment») del Gran Col·lisionador d'Hadrons (LHC) utilitza computació en grid per al seu extens processament i anàlisi de dades. La Grid d'ALICE està composta per 48 centres de computació distribuïts arreu del planeta que proporcionen accés a més de 300.000 nuclis de CPU. Aquest entorn divers presenta reptes únics, ja que els nodes de càlcul són molt heterogenis en termes de maquinari, disponibilitat de recursos i protocols de gestió. Aquesta tesi es centra en optimitzar la utilització de recursos i l'execució de tasques dins la Grid d'ALICE en el context del paradigma emergent del càlcul multinucli. La transició de slots individuals a slots multinucli, combinada amb l'augment de la prevalença de fluxos de treball multiprocés i multifil, exigeix noves aproximacions en la gestió de recursos. La tesi presenta una anàlisi de caixa negra del marc de programari de l'experiment multinucli, rastrejant l'ús de recursos i les crides del sistema. S’han identificat múltiples fonts de sobrecàrrega, especialment en relació a la gran quantitat de processos curts generats per alguns fluxos de treball. Per abordar això, s’ha ampliat i millorat el sistema de monitoratge del middleware JAliEn, el middleware de la Grid d'ALICE. Les observacions han conduït a modificacions en el flux de treball intern, que s’han traduït en una reducció del 47% en el nombre de processos desplegats i en una disminució del 35% del temps total d'execució. Per ajustar les sol·licituds de treball a les característiques específiques dels sistemes d'execució, es proposa un model per estimar les durades de les tasques. Aquest model utilitza factors de proporcionalitat dels temps d'execució en diferents models de CPU de la Grid i els utilitza per escalar dinàmicament les sol·licituds de treball. Per assegurar una utilització coherent i controlada dels recursos de CPU, es proposen dues aproximacions. La primera utilitza la seleccio i assignació dels nuclis de CPU, adaptant la selecció de nuclis a l'arquitectura del processador, i optimitzant així l'assignació de recursos per a càrregues de treball específiques. La segona utilitza les funcions de subparticionament de cgroups v2 per establir límits en l'ús de CPU. La tesi fa contribucions significatives als sistemes habituals de lot de la Grid en permetre el suport per a cgroups v2. Aquesta tesi presenta un mòdul dins de JAliEn que assegura una distribució equitativa dels recursos de memòria entre els treballs que s'executen simultàniament. Aquest mòdul implementa una preempció dirigida de treballs amb un consum més elevat per prevenir la sobreconsumició del slot i per assegurar que els treballs es mantinguin dins dels límits de memòria assignats. La tesi explora les assignacions de slot de node sencer on JAliEn gestiona tots els recursos d'un node. Per maximitzar l'ús de recursos en slots de node sencer, s’ha introduït la sobresubscripció de CPU per permetre l'execució de treballs addicionals quan els recursos de CPU disponibles no estan sent totalment utilitzats. Per explotar les assignacions de node sencer i maximitzar l'ús de recursos, la tesi proposa l'extensió de les decisions d'assignació de treballs als nodes de computació en considerant no només la disponibilitat de CPU, sinó també la memòria i l'espai de disc. A més, la sintaxi de definició de treball s’ha equipat amb nous paràmetres per a que els usuaris puguin tenir un major control sobre les sol·licituds de recursos. En resum, aquesta tesi presenta un conjunt de contribucions que milloren substancialment l'eficiència i el rendiment del càlcul en Grid dins de l'experiment ALICE. La tesi aborda els reptes emergents de l'entorn multinucli en evolució, optimitzant l'ús de recursos i millorant la fiabilitat i l'observabilitat del middleware. Totes aquestes contribucions han introduït avenços significatius en les capacitats de la Grid d'ALICE, i permeten així una anàlisi de dades més eficient per a l'experiment LHC.


(Español) El experimento ALICE (A Large Ion Collider Experiment) del Gran Colisionador de Hadrones (LHC) utiliza la computación en grid para su extenso procesamiento y análisis de datos. El Grid de ALICE se compone de 48 centros de computación distribuidos por todo el mundo, que proporcionan acceso a más de 300.000 núcleos de CPU. Este entorno tan diverso presenta desafíos únicos, ya que los nodos de computación son muy heterogéneos en cuanto a su hardware, disponibilidad de recursos y políticas de gestión. Esta tesis se centra en la optimización de la utilización de los recursos y la ejecución de trabajos en la Grid de ALICE en el contexto de la evolución del paradigma informático multinúcleo. La transición de slots mononúcleo a multinúcleo, combinada con la creciente prevalencia de flujos de trabajo multiproceso y multihilo, requiere de nuevos enfoques de gestión de recursos. La tesis presenta un análisis de caja negra del software multinúcleo del experimento, rastreando el uso de recursos y las llamadas al sistema. Se identificaron múltiples fuentes de sobrecarga, en particular en relación con la gran cantidad de procesos de corta duración creados por algunos flujos de trabajo. Para solucionar este problema, se amplió y mejoró el sistema de monitorización de JAliEn, el middleware de la ALICE Grid. Las observaciones llevaron a una reducción de la cantidad de procesos desplegados en un 47% y del tiempo total de ejecución en un 35%. Para adaptar las solicitudes de los trabajos a las características específicas de los sistemas de ejecución, se propone un modelo para estimar los tiempos de ejecución. Este modelo utiliza factores de proporcionalidad de los tiempos de ejecución entre diferentes modelos de CPU de la Grid para escalar dinámicamente los tiempos solicitados. Para garantizar una utilización coherente y controlada de los recursos de CPU, se proponen dos enfoques. El primero utiliza CPU pinning y adapta la selección de núcleos a la arquitectura del procesador, optimizando la asignación de recursos para cargas de trabajo específicas. El segundo utiliza las funciones de subdivisión de cgroups v2 para establecer límites en la utilización de la CPU de los trabajos. La tesis ha realizado contribuciones significativas a los sistemas de grid por lotes más populares al permitir la compatibilidad con cgroups v2. Esta tesis presenta un módulo dentro de JAliEn que garantiza una distribución equitativa de los recursos de memoria entre los trabajos que se ejecutan en paralelo. Implementa una preemción selectiva de los trabajos que consumen más recursos para evitar un consumo excesivo de los slots y garantizar así que los trabajos se mantengan dentro de los límites de memoria asignados. La tesis explora el uso de slots de nodo completo en los que JAliEn gestiona todos los recursos de un nodo. Para maximizar la utilización de los recursos en estos slots, se introdujo la sobresuscripción de CPU para permitir la ejecución de trabajos adicionales cuando la carga de trabajo en ejecución no utiliza por completo los recursos de CPU disponibles. La tesis propone la ampliación de la planificación de trabajos teniendo en cuenta no sólo la disponibilidad de CPU, sino también la de memoria y de espacio en disco. Además, se ha dotado a la sintaxis de definición de trabajos de nuevos parámetros para que los usuarios tengan un mayor control sobre los recursos solicitados. En resumen, esta tesis presenta un conjunto de contribuciones que han mejorado sustancialmente la eficiencia y el rendimiento de la computación grid dentro del experimento ALICE. La tesis aborda los retos derivados de la evolución del entorno multinúcleo optimizando la utilización de los recursos y mejorando la fiabilidad y observabilidad del middleware. Todas estas contribuciones introdujeron avances significativos en las capacidades de la Grid de ALICE, permitiendo efectivamente un análisis de datos más eficiente para el experimento LHC.

Subjects

004 - Informàtica

Note

Tesi amb menció de Doctorat Internacional

Recommended citation

Documents

Llistat documents

TMBF1de1.pdf

11.76Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)