Principios de metodología de superficie de respuesta para modelos logísticos

Author

Zan, Arturo T. de

Director

Ginebra, Josep

Date of defense

2006-02-03

ISBN

8468997013

Legal Deposit

B.37864-2006



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

En esta tesis doctoral abordamos algunos principios para estudiar la Metodología de Superficie de Respuesta (que abreviaremos en adelante como MSR) para datos que siguen distribuciones binarias (Bernoulli y binomial), y que se ajustan mediante Modelos Lineales Generalizados (que abreviaremos como MLG). El punto de partida elegido ha sido el enfoque clásico de la MSR, es decir, en el contexto de modelos lineales y normales y, en particular, a partir del trabajo seminal de Box y Wilson (1951).<br/>Nuestra pregunta de investigación alrededor de la cual hemos elaborado este trabajo gira alrededor del siguiente planteamiento: "¿cómo podría proceder el experimentador cuando la naturaleza de su proceso no sigue los supuestos clásicos de normalidad y linealidad?". Enlazando esta cuestión con el estado actual del arte en materia de la MSR, una segunda pregunta fue: "¿Cómo podría ser un proceso secuencial de aprendizaje del funcionamiento de un sistema en los que intervengan respuestas de naturaleza binaria en el que se persiga un objetivo determinado?". Para poder investigar con mayor profundidad esta pregunta, y mediante un sustento metodológico lo suficientemente sólido, nos apoyamos en los MLG. Estos modelos -a partir de su primera presentación y formulación en el trabajo de Nelder y Wedderburn (1972)- son la herramienta que elegimos para encontrar una metodología de aplicación sistemática, que nos permita buscar modelos adecuados que puedan ajustar respuestas de naturaleza binaria. Consideramos como estrategia particular aquella en la que se encontraría el experimentador cuando dispone de un número fijo de observaciones a realizar de las variables de un sistema, que traducimos con el nombre de "estrategia de presupuesto fijo". Así, el objetivo será poder cuantificar de alguna forma la ganancia de información que alcanzamos a conocer del proceso luego de haber utilizado todo el presupuesto disponible. En todos los casos nuestro plan es el de utilizar familias de estrategias de diseños factoriales a dos niveles, secuencialmente encadenados. Nuestro estudio comienza definiendo una familia de estrategias de exploración de un proceso representado por una superficie de respuesta teórica binaria, en la que hemos identificado tres variables: un valor llamado w, acotado entre 0 y 1, el cual es utilizado para definir el primer centro de experimentación. Luego, se considera una segunda variable, que será el valor que tenga el rango de variación de los factores, L, y finalmente, cuando se ensayen nuevas alternativas de puntos de diseño, habrá un valor S, que llamaremos "salto", que representará la longitud que separa un centro de diseño del siguiente. De esta manera, diremos que una estrategia de diseño queda caracterizada por los valores L, S y w. Partiendo así de una superficie de respuesta que sea la que mejor se considera que se aproxima a un proceso real, el objetivo será el de encontrar a través de simulaciones los niveles de w, L y S que alcancen los mejores valores posibles bajo dos criterios de selección de diseños: (a) una basada en el determinante de la Matriz de Información de Fisher (que hemos llamado "criterio de la cantidad de información"), y (b) el otro, basado en el valor de la superficie teórica evaluado en las mejores condiciones que se obtengan del modelo ajustado (que hemos llamado "criterio de proximidad al máximo"). A tal efecto, hemos utilizado programas escritos en el lenguaje R (www.r-project.orq), un entorno de programación potente y flexible,<br/>La completa revisión bibliográfica de ambos temas (MSR y MLG), junto con el diseño de herramientas informáticas "ad-hoc", ofrecen un enfoque novedoso y origina! que puede servir como punto de partida para continuar buscando el enlace entre estas dos metodologías y su aplicación en problemas prácticos sobre la base de criterios objetivos que puedan soportar la toma de decisiones.


In this PhD thesis we approached some principles that relate to the study the Response Surface Methodology (abbreviated as RSM) for binary responses (Bernoulli and binomial distributions), modellable through the scope of Generalized Linear Models (abbreviated as GLM}. Our starting point is the classic approach of the RSM, in the context of linear normal models and, particularly, from the seminal work on the subject, by the article of Box and Wilson (1951). Our first research question from which we started ellaborating this work was around of the following statement: "How could experimenters deal with this problem when the nature of the process does not follow the classical assumptions of normality and linearity?". Connecting this question with the present state-of-the-art in RSM, the second question that we address is: "How could one design a sequential strategy to learn about the operation of a system with binary response, when certain objectives are persecuted?". In order to explore these questions deeper by means of a methodological support, we leaned towards the GLM approach. These models -presented and formulated primarily in the work of Nelder and Wedderburn (1972)- are the tool that we have chosen in order to find a systematic applied methodology, that aims for suitable models that can be fitted to binary response.<br/>We consider as a particular strategy, the one in which the experimenter has a fixed number of observations to be made, in what we labeled as "strategy of fixed budget". Thus, the objective will be to quantify the information gain once we have used all the budget available. In both cases, our plan is to carry out 2-level factorial and sequential designs. Our approach starts with a definition of a family of design strategies for exploration of a process that is being represented by a certain response surface. These strategies are characterized though three variables: w, bounded between 0 and 1, used to define the first experimentation center point. Once that is determined, a second variable is considered: L, or the range of variation of the factors. Finally, when several experimental conditions were considered, the variable S, identifies the jump length that connects one center point of experimentation with the following one, Having defined the scope this way, we can say that a design strategy may be characterized by means of a three-variable picture: L, S and w. Once the experimenter defined what kind of response surface is the best one to approach the real process, the goal will be to find the levels of L, S and w that maximizes the value of two alternative criteria: the first one is based on the determinant of the Fisher's Information Matrix, and it captures (he amount of information gathered by the design, and the second one is the value taken by the theoretical surface on the maximum of the fitted surface. In order to this scope, we have written some programs in R language (www.r-proiect.org), a powerful and flexible environment of programming and doing statistics.<br/>A complete bibliographical review of both topics (RSM and GLM), as well as the design of "ad-hoc" specific software, try to offer a new and an original point of view to study this problem, which maybe useful as a starting point for continuing the research in these areas and the link between these two methodologies. It is of special interest the exploration of new practical applications to real problems based on some objective criteria that can support the process of decision making.

Keywords

metodología de superficie de respuesta; modelos lineales generalizados; diseño de experimentos; estadística; regresión logística

Subjects

51 - Mathematics; 62 - Engineering. Technology in general

Documents

01Atz01de15.pdf

211.7Kb

02Atz02de15.pdf

132.8Kb

03Atz03de15.pdf

154.4Kb

04Atz04de15.pdf

204.7Kb

05Atz05de15.pdf

1.444Mb

06Atz06de15.pdf

178.2Kb

07Atz07de15.pdf

947.0Kb

08Atz08de15.pdf

802.9Kb

09Atz09de15.pdf

2.714Mb

10Atz10de15.pdf

1.797Mb

11Atz11de15.pdf

165.4Kb

12Atz12de15.pdf

99.16Kb

13Atz13de15.pdf

272.2Kb

14Atz14de15.pdf

226.0Kb

15Atz15de15.pdf

1.236Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)