2024-03-28T21:06:13Zhttps://www.tdx.cat/oai/requestoai:www.tdx.cat:10803/429452017-09-13T15:45:18Zcom_10803_339col_10803_344
TDX (Tesis Doctorals en Xarxa)
author
Macià Antolínez, Núria
authoremail
macia.nuria@gmail.com
authoremailshow
false
director
Bernadó Mansilla, Ester
authorsendemail
true
2011-10-20T15:17:29Z
2011-10-20T15:17:29Z
2011-10-06
http://hdl.handle.net/10803/42945
B. 37560-2011
Aquesta tesi estudia la complexitat de les dades i el seu rol en la definició del comportament de les tècniques d'aprenentatge supervisat, i alhora explora la generació artificial de conjunts de dades mitjançant estimadors de complexitat. El treball s'ha construït sobre quatre principis que s'han succeït de manera natural. (1) La crítica de la metodologia actual utilitzada per la comunitat científica per avaluar el rendiment de nous sistemes d'aprenentatge ha desencadenat (2) l'interès per estimadors alternatius basats en l'anàlisi de la complexitat de les dades i el seu estudi. Ara bé, tant l'estat primerenc de les mesures de complexitat com la disponibilitat limitada de problemes del món real per fer el seu test han inspirat (3) la generació sintètica de problemes, la qual ha esdevingut l'eix central de la tesi, i (4) la proposta de fer servir estàndards artificials amb semblança als problemes reals.
L'objectiu que es persegueix a llarg termini amb aquesta recerca és proporcionar als usuaris (1) unes directrius per escollir el sistema d'aprenentatge idoni per resoldre el seu problema i (2) una col•lecció de problemes per, o bé avaluar el rendiment dels sistemes d'aprenentatge, o bé provar les seves limitacions.
Esta tesis profundiza en el estudio de la complejidad de los datos y su papel en la definición del comportamiento de las técnicas de aprendizaje supervisado, a la vez que explora la generación artificial de conjuntos de datos mediante estimadores de complejidad. El trabajo se ha construido sobre cuatro pilares que se han sucedido de manera natural. (1) La crítica de la metodología actual utilizada por la comunidad científica para evaluar el rendimiento de nuevos sistemas de aprendizaje ha desatado (2) el interés por estimadores alternativos basados en el análisis de la complejidad de los datos y su estudio. Sin embargo, tanto el estado primerizo de las medidas de complejidad como la limitada disponibilidad de problemas del mundo real para su testeo han inspirado (3) la generación sintética de problemas, considerada el eje central de la tesis, y (4) la propuesta del uso de estándares artificiales con parecido a los problemas reales.
El objetivo que se persigue a largo plazo con esta investigación es el de proporcionar a los usuarios (1) unas pautas pare escoger el sistema de aprendizaje más idóneo para resolver su problema y (2) una colección de problemas para evaluar el rendimiento de los sistemas de aprendizaje o probar sus limitaciones.
This thesis takes a close view of data complexity and its role shaping the behaviour of machine learning techniques in supervised learning and explores the generation of synthetic data sets through complexity estimates. The work has been built upon four principles which have naturally followed one another. (1) A critique about the current methodologies used by the machine learning community to evaluate the performance of new learners unleashes (2) the interest for alternative estimates based on the analysis of data complexity and its study.
However, both the early stage of the complexity measures and the limited availability of real-world problems for testing inspire (3) the generation of synthetic problems, which becomes the backbone of this thesis, and (4) the proposal of artificial benchmarks resembling real-world problems.
The ultimate goal of this research flow is, in the long run, to provide practitioners (1) with some guidelines to choose the most suitable learner given a problem and (2) with a collection of benchmarks to either assess the performance of the learners or test their limitations.
cat
Mineria de dades
Aprenentatge supervisat
Complexitat de les dades
Minería de datos
Aprendizaje superivisado
Complejidad de los datos
Data mining
Supervised learning
Data complexity
Data complexity in supervised learning: A far-reaching implication
info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/publishedVersion
URL
https://www.tdx.cat/bitstream/10803/42945/1/Tesi-NuriaMacia-Part1.pdf
File
MD5
a6e73fe8c78b0917d36cd929835eb1e0
4506997
application/pdf
Tesi-NuriaMacia-Part1.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/2/Tesi-NuriaMacia-Part2.pdf
File
MD5
2e4d51dc01acf15f0cb61f356982becb
5153962
application/pdf
Tesi-NuriaMacia-Part2.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/3/Tesi-NuriaMacia-Part3.pdf
File
MD5
e304d9af7e311f30bc3fdbf89fa7fbe8
3790791
application/pdf
Tesi-NuriaMacia-Part3.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/4/Tesi-NuriaMacia-Part4.pdf
File
MD5
ad354345cc9364284f92332bf9605092
403279
application/pdf
Tesi-NuriaMacia-Part4.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/5/Tesi-NuriaMacia-Part5.pdf
File
MD5
43c64daa203bb7d7429843d23d99c683
398552
application/pdf
Tesi-NuriaMacia-Part5.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/6/Tesi-NuriaMacia-Part6.pdf
File
MD5
06b818db30eb5373ffd1492999d65858
3792639
application/pdf
Tesi-NuriaMacia-Part6.pdf
URL
https://www.tdx.cat/bitstream/10803/42945/7/Tesi-NuriaMacia-Part6.pdf.txt
File
MD5
1246f0b08203ec3066787c45cca0e5c5
83626
text/plain
Tesi-NuriaMacia-Part6.pdf.txt
URL
https://www.tdx.cat/bitstream/10803/42945/8/Tesi-NuriaMacia-Part5.pdf.txt
File
MD5
58c89562f58fd276f592420068db8c09
1
text/plain
Tesi-NuriaMacia-Part5.pdf.txt
URL
https://www.tdx.cat/bitstream/10803/42945/9/Tesi-NuriaMacia-Part4.pdf.txt
File
MD5
58c89562f58fd276f592420068db8c09
1
text/plain
Tesi-NuriaMacia-Part4.pdf.txt
URL
https://www.tdx.cat/bitstream/10803/42945/10/Tesi-NuriaMacia-Part3.pdf.txt
File
MD5
11eebd900040f5a6d1a9db164195563a
18362
text/plain
Tesi-NuriaMacia-Part3.pdf.txt
URL
https://www.tdx.cat/bitstream/10803/42945/11/Tesi-NuriaMacia-Part2.pdf.txt
File
MD5
d8564d3ab6465d0dfc5f1519ce492965
101121
text/plain
Tesi-NuriaMacia-Part2.pdf.txt
URL
https://www.tdx.cat/bitstream/10803/42945/12/Tesi-NuriaMacia-Part1.pdf.txt
File
MD5
bd7ace859e94039722c52fda0474dd33
175039
text/plain
Tesi-NuriaMacia-Part1.pdf.txt