Análisis conjunto de múltiples tablas de datos mixtos mediante PLS

Author

González Rojas, Victor Manuel

Director

Aluja Banet, Tomàs

Date of defense

2014-11-28

Legal Deposit

B 28017-2014

Pages

187 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

The fundamental content of this thesis corresponds to the development of the GNM-NIPALIS, GNM-PLS2 and GNM-RGCCA methods, used to quantify qualitative variables parting from the first k components given by the appropriate methods in the analysis of J matrices of mixed data. These methods denominated GNM-PLS (General Non Metric Partial Least Squares) are an extension of the NM-PLS methods that only take the first principal component in the quantification function. The transformation of the qualitative variables is done through optimization processes, usually maximizing functions of covariance or correlation, taking advantage of the flexibility of the PLS algorithms and keeping the properties of group belonging and order if it exists; The metric variables are keep their original state as well, excepting standardization. GNM-NIPALS has been created for the purpose of treating one (J = 1) mixed data matrix through the quantification via ACP type reconstruction of the qualitative variables parting from a k components aggregated function. GNM-PLS2 relates two (J = 2) mixed data sets Y~X through PLS regression, quantifying the qualitative variables of a space with the first H PLS components aggregated function of the other space, obtained through cross validation under PLS2 regression. When the endogenous matrix Y contains only one answer variable the method is denominated GNM-PLS1. Finally, in order to analyze more than two blocks (J = 2) of mixed data Y~X1+...+XJ through their latent variables (LV) the GNM-RGCCA was created, based on the RGCCA (Regularized Generalized Canonical Correlation Analysis) method, that modifies the PLS-PM algorithm implementing the new mode A and specifies the covariance or correlation maximization functions related to the process. The quantification of the qualitative variables on each Xj block is done through the inner Zj = Σj ej Yj function, which has J dimension due to the aggregation of the outer Yj estimations. Zj, as well as Yj estimate the ξj component associated to the j-th block.


El contenido fundamental de esta tesis corresponde al desarrollo de los métodos GNM-NIPALS, GNM-PLS2 y GNM-RGCCA para la cuantificación de las variables cualitativas a partir de las primeras k componentes proporcionadas por los métodos apropiados en el análisis de J matrices de datos mixtos. Estos métodos denominados GNM-PLS (General Non Metric Partial Least Squares) son una extensión de los métodos NM-PLS que toman sólo la primera componente principal en la función de cuantificación. La trasformación de las variables cualitativas se lleva a cabo mediante procesos de optimización maximizando generalmente funciones de covarianza o correlación, aprovechando la flexibilidad de los algoritmos PLS y conservando las propiedades de pertenencia grupal y orden si existe; así mismo se conservan las variables métricas en su estado original excepto por estandarización. GNM-NIPALS ha sido creado para el tratamiento de una (J=1) matriz de datos mixtos mediante la cuantificación vía reconstitución tipo ACP de las variables cualitativas a partir de una función agregada de k componentes. GNM-PLS2 relaciona dos (J=2) conjuntos de datos mixtos Y~X mediante regresión PLS, cuantificando las variables cualitativas de un espacio con la función agregada de las primeras H componentes PLS del otro espacio, obtenidas por validación cruzada bajo regresión PLS2. Cuando la matriz endógena Y contiene sólo una variable de respuesta el método se denomina GNM-PLS1. Finalmente para el análisis de más de dos bloques (J>2) de datos mixtos Y~X1+...+XJ a través de sus variables latentes (LV) se implementa el método NM-RGCCA basado en el método RGCCA (Regularized Generalized Canonical Correlation Analysis) que modifica el algoritmo PLS-PM implementando el nuevo modo A y especifica las funciones de maximización de covarianzas o correlaciones asociadas al proceso. La cuantificación de las variables cualitativas en cada bloque Xj se realiza mediante la función inner Zj de dimensión J debido a la agregación de las estimaciones outer Yj. Tanto Zj como Yj estiman la componente ξj asociad al j-ésimo bloque.

Keywords

Analysis of multiple tables of mixed data; General non metric; Partial least squares; Regression; Path Modeling; Nonlinear estimation by iterative; Regularized generalized canonical correlation analysis; Análisis de múltiples tablas de datos mixtos

Subjects

311 - Statistics as a science. Statistical theory

Documents

TVMGR1de1 .pdf

1012.Kb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/

This item appears in the following Collection(s)