Medidas de diferencia y clasificación automática no paramétrica de datos composicionales

dc.contributor
Universitat Politècnica de Catalunya. Departament de Matemàtica Aplicada III
dc.contributor.author
Martín Fernández, Josep Antoni
dc.date.accessioned
2011-04-12T15:21:36Z
dc.date.available
2001-05-16
dc.date.issued
2001-03-23
dc.date.submitted
2001-05-16
dc.identifier.isbn
8469953699
dc.identifier.uri
http://www.tdx.cat/TDX-0516101-135345
dc.identifier.uri
http://hdl.handle.net/10803/6704
dc.description.abstract
Es muy frecuente encontrar datos de tipo composicional en disciplinas tan dispares como son, entre otras, las ciencias de la tierra, la medicina, y la economía. También es frecuente en estos ámbitos el uso de técnicas de clasificación no paramétrica para la detección de agrupaciones naturales en los datos. Sin embargo, una búsqueda bibliográfica bastante exhaustiva y la presentación de resultados preliminares sobre el tema en congresos de ámbito internacional han permitido constatar la inexistencia de un cuerpo teórico y metodológico apropiado que permita desarrollar pautas y recomendaciones a seguir en el momento de realizar una clasificación no paramétrica de datos composicionales. Por estos motivos se ha elegido como tema de tesis la adaptación y desarrollo de métodos de agrupación adecuados a datos de naturaleza composicional, es decir, datos tales que el valor de cada una de sus componentes expresa una proporción respecto de un total. El título de la misma, "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales", recoge no sólo este propósito, sino que añade la expresión "medidas de diferencia" con el propósito de reflejar el peso específico importante que tiene el estudio de este tipo de medida en el desarrollo del trabajo. La expresión "no paramétrica'' se refiere a que en la misma no se considerarán técnicas de clasificación que presuponen la existencia de un modelo de distribución de probabilidad para las observaciones objeto de la agrupación. <br/><br/>La memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica. Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales. En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales. En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión. Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario. El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad. En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas. El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico. En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros. Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo. El capítulo finaliza con el estudio de un caso práctico. En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo. En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis. Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación.
spa
dc.description.abstract
On March 23, 2001 Josep Antoni Martín-Fernández from the Dept. of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona. A short resumee follows:<br/><br/>Compositional data are by definition proportions of some whole. Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components. Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance. At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data. J. A. Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis. As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets. Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data. Finally, J. A. Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data.
eng
dc.format.mimetype
application/pdf
dc.language.iso
spa
dc.publisher
Universitat Politècnica de Catalunya
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Logratio transformation
dc.subject
Aitchison distance
dc.subject
Zeros replacement
dc.subject
Cluster analysis
dc.subject
Measures of difference
dc.subject
Measures of divergence
dc.subject
Kullback Leibler information index
dc.subject
Ternary diagram
dc.subject
Compositional data
dc.subject
Centering operation
dc.subject.other
1209. Estadística
dc.title
Medidas de diferencia y clasificación automática no paramétrica de datos composicionales
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
51
cat
dc.contributor.director
Barceló Vidal, Carles
dc.contributor.director
Pawlowsky-Glahn, Vera
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B.29959-2001


Documents

martin_tesi.pdf

2.081Mb PDF

This item appears in the following Collection(s)