Optimal personalized treatment learning models with insurance applications

Author

Guelman, Leo

Director

Guillén, Montserrat

Date of defense

2015-03-02

Legal Deposit

B 11623-2015

Pages

224 p.



Department/Institute

Universitat de Barcelona. Departament d'Econometria, Estadística i Economia Espanyola

Abstract

In many important settings, subjects can show significant heterogeneity in response to a stimulus or “treatment". For instance, a treatment that works for the overall population might be highly inefiective, or even harmful, for a subgroup of subjects with specific characteristics. Similarly, a new treatment may not be better than an existing treatment in the overall population, but there is likely a subgroup of subjects who would benefit from it. The notion that “one size may not fit all" is becoming increasingly recognized in a wide variety of fields, ranging from economics to medicine. This has drawn significant attention to personalize the choice of treatment, so it is optimal for each individual. An optimal personalized treatment is the one that maximizes the probability of a desirable outcome. We call the task of learning the optimal personalized treatment personalized treatment learning (PTL). From the statistical learning perspective, building PTL models imposes important challenges, primarily because the optimal treatment is unknown on a given training data set. In this thesis, we formalize the PTL problem from a causal inference perspective and provide a comprehensive description of the existing methods to solve this problem. We contribute to the PTL literature by proposing two novel methods, namely uplift random forests and causal conditional inference forests. Our proposal outperforms the existing methods based on an extensive numerical simulation and real-world data. Next, we introduce the concept of PTL models to insurance marketing and pricing applications. In particular, we contribute to the Insurance literature in these areas by proposing PTL methods to optimize client retention and cross-selling in insurance from experimental data. We also illustrate an application of these methods to price-elasticity estimation and insurance economic price optimization in the context of observational data. In the insurance field, the selection of the optimal personalized treatment also requires consideration of the expected insurance losses of each individual policyholder within the portfolio. We contribute to the non-life insurance ratemaking literature by proposing a novel application of gradient boosting models to estimate insurance loss cost, with key important advantages over the conventional generalized linear model approach. A key problem facing research in this field, has been the lack of publicly available statistical software to estimate PTL models. We implement most of the existing methods for fitting these models, as well as our proposed ones, in a package named uplift, which is now released and freely available from the CRAN (Comprehensive R Archive Network) repository under the R statistical computing environment.


En muchas situaciones importantes, los individuos pueden mostrar una heterogeneidad significativa en respuesta a un estímulo o “tratamiento”. Por ejemplo, un tratamiento que funciona para una población en general, podría ser altamente ineficiente o incluso perjudicial para un subgrupo de individuos con características específicas. Del mismo modo, un tratamiento nuevo puede no ser mejor que uno existente en relación a la población general, pero es probable que un subgrupo de individuos se beneficie con el mismo. La idea de aplicar tratamientos personalizados es cada vez más reconocida en una amplia variedad de campos, que van desde la medicina hasta la economía. Esto ha puesto el foco de atención en la medición de la eficacia que un determinado tratamiento tiene sobre un individuo, de modo de seleccionar el tratamiento personalizado óptimo para el mismo. Un tratamiento personalizado óptimo es aquel que maximiza la probabilidad de un resultado deseable. Llamamos a los modelos estadísticos que tienen como objetivo modelar el tratamiento personalizado óptimo “personalizad treatment learning (PTL) models”. Desde la perspectiva de modelización estadística, la construcción de modelos PTL impone importantes retos, principalmente debido a que el tratamiento óptimo es desconocido en un conjunto de datos de entrenamiento dado. En esta tesis, formalizamos el problema de PTL desde una perspectiva de inferencia causal y proporcionamos una descripción completa de los métodos existentes para resolver este problema. Contribuimos a la literatura de modelos PTL proponiendo dos nuevos métodos: “uplift random forests” y “causal conditional inference forests”. Nuestra propuesta supera a los métodos existentes de acuerdo a los resultados obtenidos de una extensa simulación numérica y datos reales. Luego introducimos el concepto de modelos PTL a marketing y a la fijación del precio en el mercado de seguros. En particular, contribuimos a la literatura de seguros en estas áreas, proponiendo métodos de PTL para optimizar la retención de clientes y la venta cruzada de seguros a partir de datos experimentales. También ilustramos una aplicación de estos métodos a la estimación de la elasticidad-­‐precio y a la optimización económica de precios en el contexto de datos observacionales. En el campo de los seguros, la selección del tratamiento personalizado óptimo también requiere considerar las pérdidas esperadas de cada asegurado dentro de una cartera. Contribuimos a la literatura de fijación de precios de seguros, proponiendo una nueva aplicación de modelos “gradient boosting trees” para estimar el costo relacionado con la pérdida esperada del seguro. Este método tiene ventajas claves sobre el enfoque convencional, que se basa en “generalized linear models”. Un problema clave que enfrenta la investigación en este campo ha sido la falta de software estadístico a disposición del público para estimar modelos PTL. Ponemos a disposición pública la mayoría de los métodos existentes para la estimación de estos modelos, incluyendo los de desarrollo propio, en un paquete llamado “uplift” bajo el software estadístico R.

Keywords

Estadística econòmica; Estadística económica; Economic statistics; Assegurances; Seguros; Insurance; Inferència; Inferencia; Inference; Màrqueting; Marketing; "Uplift modelling"

Subjects

36 - Safeguarding the mental and material necessities of life

Knowledge Area

Ciències Jurídiques, Econòmiques i Socials

Documents

Leo Guelman_PhD_THESIS.pdf

2.483Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)