Metodologia d'identificació de seqüències Web per a business intelligence basada en tècniques de mineria de dades

Author

Palomino Gayete, Arturo

Director

Gibert, Karina

Date of defense

2023-10-03

Pages

257 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

DOCTORAT EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2012)

Abstract

(English) The Internet has changed the way companies sell and users shop. Nowadays, having an online presence is an opportunity, while not doing so is a competitive disadvantage, and companies strive to appear as the first option when users are looking for a product and chained advertising is one of the most used tools currently used to achieve it. The key in these chained advertising campaigns is to correctly choose in which sequence of web domains the pieces of the campaign will be placed for it to be successful, and this is an open problem today, of a highly combinatorial nature, with a very expensive solution computationally initially. This thesis responds to the problem of how to ensure that users are really impacted by a chained advertising campaign by seeing all the banners that compose it in the right order, thus increasing the chances of them making an online purchase. The thesis proposes a method to discover the best sequences of websites for the purchase of optimal advertising spaces to place banners of chained advertising campaigns that lead the consumer towards a potential purchase in a less intrusive way. The proposed model has been constructed from user-centric clickstream data in an original and new way and it has been possible to formulate a data-driven method that finds these sequences in almost constant time. The proposed method, Quick Sequence Detector (QSD) is based on a strategic combination of mathematical formulas that allow the sequences to be transformed into numerical codes on which to operate efficiently, and very specific data engineering operations, which are part of almost all primitive sets of standard programming languages, and of very low algorithmic complexity. These two formal resources combine to articulate a very efficient computational time calculation of the joint probability function of the space produced by web domains, with a power equal to the length of the desired sequences, which is directly linked to the nature of the chained advertising campaign to be launched. The QSD proposal so significantly reduces runtimes in the calculation of this joint probability function that it goes from tens of years of computation to a few seconds in real applications of magnitude, for this reason the method is the subject of a patent currently being processed. Above the conceptualization of the solution, an additional improvement has been made that uses parallelization and programming of graphics processors to further accelerate data processing and obtain even more improved results. It should be said that the proposed solution is not limited to the field of digital marketing but presents a general formalization that allows the method to be transferred to other areas of application. In a second part of the thesis, the method extends to the introduction of conditioning factors on the sociodemographic characteristics of the user so that campaigns can be oriented to the appropriate target populations, and this extension of the method, which we call COND-QSD, is accompanied by an additional proposal on how to make the necessary inference to identify which pages are really significant and specific to the profile with respect to the general population. On the other hand, a software tool with a user interface has also been developed that allows a pilot test with a sample of real Internet users, collecting user-centric data, and comparing the results with the results of the algorithms to confirm the hypotheses. While the user is browsing the internet, they are also impacted by a chained advertising campaign designed for the occasion and in this way measure whether users of the target profile follow the expected itinerary, and how users of the target profile who have been impacted by the campaign make the purchase.


(Català) Internet ha canviat la forma en què les empreses venen i els usuaris compren. Avui dia tenir presència en línia és una oportunitat, mentre que no fer-ho suposa un desavantatge competitiu, i les empreses esforcen per aparèixer com la primera opció quan els usuaris busquen un producte i la publicitat encadenada és una de les eines més utilitzades actualment per aconseguir-ho. La clau en aquestes campanyes de publicitat encadenada és triar correctament en quina seqüència de dominis web es col·locaran les peces de la campanya per a que resulti exitosa, i aquest és un problema obert actualment, de naturalesa altament combinatòria, amb una solució molt costosa computacionalment de partida. Aquesta tesi dóna resposta al problema de com garantir que els usuaris siguin realment impactats per una campanya de publicitat encadenada veient tots els bàners que la composen en l’ordre adient, incrementant així les possibilitats que arribin a realitzar una compra online. La tesi proposa un mètode per descobrir les millors seqüències de webs per a la compra d'espais publicitaris òptims per ubicar bàners de campanyes de publicitat encadenada que guïin el consumidor cap a una compra potencial de forma menys intrusiva. El model proposat s’ha construït a partir de dades de clickstream de tipus user-centric de manera original i nova i s’ha pogut formular un mètode basat en dades que troba aquestes seqüències en temps gairebé constant. El mètode proposat, Quick Sequence Detector (QSD) es basa en una combinació estratègica de fórmules matemàtiques que permeten transformar les seqüències a codis numèrics sobre els que operar de forma eficient, i operacions d’enginyeria de dades molt concretes, que formen part de gairebé tots els conjunts de primitives dels llenguatges de programació estàndard, i de baixíssima complexitat algorísmica. Aquests dos recursos formals es combinen en articular un càlcul molt eficient en temps computacional de la funció de probabilitat conjunta de l’espai producte de dominis web, amb una potència igual a la longitud de les seqüències desitjades, la qual va directament lligada a la naturalesa de la campanya publicitària encadenada que es vol llençar. La proposta QSD redueix de forma tan significativa els temps d’execució en el càlcul d’aquesta funció de probabilitat conjunta que es passa de desenes d’anys de computació a pocs segons en aplicacions reals d’envergadura, per aquest motiu el mètode és objecte de patent actualment en tramit. Per damunt de la conceptualització de la solució, s’ha realitzat una millora addicional que utilitza la paral.lelització i la programació de processadors gràfics per accelerar encara més el processament de les dades i obtenir resultats encara més millorats. Cal dir que la solució que es proposa no es circumscriu a l’àmbit del màrqueting digital sinó que es presenta una formalització general que permet traslladar el mètode a altres àmbits d’aplicació. En una segona part de la tesi s’estén el mètode a la introducció de condicionants sobre les característiques sociodemogràfiques de l’usuari de manera que les campanyes es puguin orientar a les poblacions diana adequades, i aquesta extensió del mètode, que anomenem COND-QSD, va acompanyada d’una proposta addicional sobre com realitzar la inferència necessària per identificar quines pàgines realment són significatives i específiques del perfil respecte població general. Per altra banda també s’ha desenvolupat una eina software amb una interfície d’usuari que permet fer una proba pilot amb una mostra d’internautes reals, tot recollint dades user-centric, i comparar els resultats amb els resultats dels algoritmes per confirmar les hipòtesis. Mentre l’usuari navega per internet també és impactat per una campanya de publicitat encadenada dissenyada per a l’ocasió i d’aquesta manera mesurar si els usuaris del perfil diana segueixen l’itinerari esperat, i com els usuaris del perfil diana que han estat impactats per la campanya realitzen la compra.

Subjects

004 - Computer science and technology. Computing. Data processing; 51 - Mathematics

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística; Àrees temàtiques de la UPC::Informàtica

Note

Tesi amb continguts retallats per motius de confidencialitat

Documents

This document contains embargoed files until 2025-05-07

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)