Memory bandwidth and latency in HPC: system requirements and performance impact

Author

Radulović, Milan

Director

Radojković, Petar

Date of defense

2019-05-07

Pages

153 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Abstract

A major contributor to the deployment and operational costs of a large-scale high-performance computing (HPC) clusters is the memory system. In terms of system performance it is one of the most critical aspects of the system’s design. However, next generation of HPC systems poses significant challenges for the main memory, and it is questionable whether current memory technologies will meet the required goals. In this thesis we focus on HPC performance aspects of the memory system design, covering memory bandwidth and latency. We start our study by evaluating and comparing three mainstream and five alternative HPC architectures, regarding memory bandwidth and latency aspects. Increasing diversity of HPC systems in the market causes their evaluation and comparison in terms of HPC features to become complex. There is as yet no well established methodology for a unified evaluation of HPC systems and workloads that quantifies the main performance bottlenecks. Our work provides a significant body of useful information and emphasizes four usually overlooked aspects of HPC systems’ evaluation. Understanding the dominant performance bottlenecks of HPC applications is essential for designing a balanced HPC system. In our study, we execute a set of real HPC applications from diverse scientific fields, quantifying FLOPS performance and memory bandwidth congestion. We show that the results depend significantly on the number of execution processes, and argue for guidance on selecting the representative scale of the experiments. Also, we find that average measurements of performance metrics and bottlenecks can be highly misleading, and suggest reporting as the percentage of execution time in which applications use certain portions of maximum sustained values. Innovations in 3D-stacking technology enable DRAM devices with much higher bandwidths than traditional DIMMs. The first such products hit the market, and some of the publicity claims that they will break through the memory wall. We summarize our preliminary analysis and expectations of how such 3D-stacked DRAMs will affect the memory wall for a set of representative HPC applications. We conclude that although 3D-stacked DRAM is a major technological innovation, it is unlikely to break through the memory wall. Novel memory systems are typically explored by hardware simulators that are slow and often have a simplified or obsolete model of the CPU. We propose an analytical model that quantifies the impact of the main memory on application performance and system power and energy consumption, based on the memory system and application profiles. The model is evaluated on a mainstream platform, comprising various DDR3 memory configurations, and an alternative platform comprising DDR4 and 3D-stacked high-bandwidth memory. The evaluation results show that the model predictions are accurate, typically with only 2% difference from the values measured on actual hardware. Additionally, we compare the model performance estimation with simulation results, and our model shows significantly better accuracy over the simulator, while being faster by three orders of magnitude. Overall, we believe our study provides valuable insights on the importance of memory bandwidth and latency in HPC: their role in evaluation and comparison of HPC platforms, guidelines on measuring and presenting the related performance bottlenecks, and understanding and modeling of their performance, power and energy impact.


Un contribuyente importante a la implementación y los costos operativos de un clúster de computación de altas prestaciónes (HPC) es el sistema de memoria. En términos de prestación del sistema, es uno de los aspectos más críticos del diseño. Sin embargo, la próxima generación de sistemas HPC plantea desafíos importantes para la memoria principal, y es cuestionable si las tecnologías de memoria actuales cumplirán con los objetivos requeridos. En esta tesis, nos centramos en los aspectos de prestación de HPC del diseño del sistema de memoria, que cubren el ancho de banda y la latencia de la memoria. Comenzamos evaluando y comparando tres arquitecturas HPC principales y cinco alternativas, con respecto al ancho de banda de la memoria y los aspectos de latencia. La creciente diversidad de los sistemas de HPC en el mercado hace que su evaluación y comparación en términos de características de HPC se convierta en compleja. Todavía no existe una metodología bien establecida para una evaluación unificada de los sistemas HPC y las cargas de trabajo que cuantifique los principales impedimentos en la prestación. Nuestro trabajo proporciona un cuerpo importante de información útil y enfatiza cuatro aspectos que generalmente se pasan por alto en la evaluación de los sistemas HPC. Aprender los impedimentos dominantes en la prestación de las aplicaciones de HPC es esencial para diseñar un sistema de HPC equilibrado. En nuestro estudio, ejecutamos un grupo de aplicaciones reales de HPC de diversos campos científicos, cuantificando la prestación de FLOPS y congestión de ancho de banda de memoria. Mostramos que los resultados dependen significativamente de la cantidad de procesos de ejecución, y argumentamos para obtener orientación sobre la selección de la escala representativa de los experimentos. Además, encontramos que las mediciones promedio de métricas de rendimiento y impedimiento puede ser muy engañoso, y sugerir informes como el porcentaje del tiempo de ejecución en el que las aplicaciones utilizan ciertas partes de los valores máximos sostenidos. Las innovaciones en la tecnología de 3D permiten que los dispositivos DRAM tengan un ancho de banda mucho mayor que los módulos DIMM tradicionales. El primero de estos productos llegó al mercado, y algunas de las publicidades afirman que romperán el "Memory wall". Resumimos nuestro análisis preliminar y las expectativas de cómo dichas DRAM apiladas en 3D afectarán el "Memory wall" para un grupo de aplicaciones representativas de HPC. Llegamos a la conclusión de que, aunque la DRAM apilada en 3D es una innovación tecnológica importante, es improbable que rompa el "Memory wall". Los sistemas de memoria nuevos ser explorados por simuladores de hardware que son lentos y tienen un modelo simplificado u obsoleto de la CPU. Proponemos un modelo analítico que cuantifica el impacto de la memoria principal en el prestación de la aplicación y la potencia del sistema y el consumo de energía, según el sistema de memoria y los perfiles de la aplicación. El modelo se evalúa en una plataforma que comprende varias configuraciones de memoria DDR3, y una plataforma alternativa que comprende DDR4 y memoria de alto ancho de banda apilada en 3D. Los resultados de la evaluación muestran que las predicciones del modelo son precisas, generalmente con una diferencia de solo el 2% de los valores medidos en el hardware real. Además, comparamos la estimación del rendimiento del modelo con los resultados de la simulación, y nuestro modelo muestra una precisión significativamente mayor en el simulador, al mismo tiempo que es más rápido en tres órdenes de magnitud. En general, creemos que nuestro estudio proporciona información valiosa sobre la importancia del ancho de banda de la memoria y la latencia en HPC: su rol en la evaluación y comparación de plataformas HPC, las pautas para medir y presentar los impedimientos de la prestación y la comprensión y el impacto energético

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TMR1de1.pdf

2.680Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)