Planificación de trabajos en clusters hadoop compartidos

Lopes Bezerra, Aprigio Augusto

Planificación de trabajos en clusters hadoop compartidos

dc.contributor

Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius

dc.contributor.author

Lopes Bezerra, Aprigio Augusto

dc.date.accessioned

2015-02-08T18:24:15Z

dc.date.available

2015-02-08T18:24:15Z

dc.date.issued

2015-01-30

dc.identifier.isbn

9788449049156

cat

dc.identifier.uri

http://hdl.handle.net/10803/285573

dc.description.abstract

La industria y los científicos han buscado alternativas para procesar con eficacia el gran volumen de datos que se generan en diferentes áreas del conocimiento. MapReduce se presenta como una alternativa viable para el procesamiento de aplicaciones intensivas de datos. Los archivos de entrada se dividen en bloques más pequeños. Posteriormente, se distribuyen y se almacenan en los nodos donde serán procesados. Entornos Hadoop han sido utilizados para ejecutar aplicaciones MapReduce. Hadoop realiza automáticamente la división y distribución de los archivos de entrada, la división del trabajo en tareas Map y Reduce, la planificación de tareas entre los nodos, el control de fallos de nodos; y gestiona la necesidad de comunicación entre los nodos del cluster. Sin embargo, algunas aplicaciones MapReduce tienen un conjunto de características que no permiten que se beneficien plenamente de las políticas de planificación de tareas construídas para Hadoop. Los archivos de entrada compartidos entre múltiples trabajos y aplicaciones con grandes volúmenes de datos intermedios son las características de las aplicaciones que manejamos en nuestra investigación. El objetivo de nuestro trabajo es implementar una nueva política de planificación de trabajos que mejore el tiempo de makespan de lotes de trabajos Hadoop de dos maneras: en un nivel macro (nivel de planificación de trabajos), agrupar los trabajos que comparten los mismos archivos de entrada y procesarlos en lote; y en un nivel micro (nivel de planificación de tareas) las tareas de los diferentes trabajos procesados en el mismo lote, que manejan los mismos bloques de datos, se agrupan para ser ejecutas en el mismo nodo donde se asignó el bloque. La política de planificación de trabajos almacena los archivos compartidos de entrada y los datos intermedios en una RAMDISK, durante el procesamiento de cada lote.

spa

dc.description.abstract

Industry and scientists have sought alternatives to process effectively the large volume of data generated in different areas of knowledge. MapReduce is presented as a viable alternative for the processing of data intensive application. Input files are broken into smaller blocks. So they are distributed and stored in the nodes where they will be processed. Hadoop clusters have been used to execute MapReduce applications. The Hadoop framework automatically performs the division and distribution of the input files, the division of a job into Map and Reduce tasks, the scheduling tasks among the nodes, the failures control of nodes; and manages the need for communication between nodes in the cluster. However, some MapReduce applications have a set of features that do not allow them to benefit fully from the default Hadoop job scheduling policies. Input files shared between multiple jobs and applications with large volumes of intermediate data are the characteristics of the applications we handle in our research. The objective of our work is to improve execution efficiency in two ways: On a macro level (job scheduler level), we group the jobs that share the same input files and process them in batch. Then we store shared input files and intermediate data on a RAMDISK during batch processing. On a micro level (task scheduler level) tasks of different jobs processed in the same batch that handle the same data blocks are grouped to be executed on the same node where the block was allocated.

eng

dc.format.extent

113 p.

cat

dc.format.mimetype

application/pdf

dc.language.iso

eng

cat

dc.publisher

Universitat Autònoma de Barcelona

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/3.0/es/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Planificació treballs

cat

dc.subject

Madoop

cat

dc.subject

Clusters compartits

cat

dc.subject.other

Tecnologies

cat

dc.title

Planificación de trabajos en clusters hadoop compartidos

cat

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

aalbeezerra@gmail.com

cat

dc.contributor.director

Hernández Budé, Porfidio

dc.embargo.terms

cap

cat

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B-5057-2015

Documents

aalb1de1.pdf

1.457Mb PDF

This item appears in the following Collection(s)

Departament d'Arquitectura de Computadors i Sistemes Operatius [74]