Contribucions a la microagregació per a la protecció de dades estadístiques

Author

Torres Aragó, Àngel

Director

Mateo Sanz, Josep Maria

Domingo-Ferrer, Josep, 1965-

Tutor

Aluja Banet, Tomàs

Date of defense

2003-09-08

ISBN

8468838829

Legal Deposit

B.47932-2003



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

Després de recollir la informació referent a les tècniques pertorbatives més rellevants de control de la revelació de microdades contínues actualment existents, l'objectiu general de la tesi és l'anàlisi i la millora d'aquestes tècniques de control de la revelació mitjançant mètodes d'estadística matemàtica; millora referida a almenys un dels tres aspectes següents: <br/>1) Nivell de protecció. Donar un bon grau de protecció a la informació confidencial de les dades que han de ser publicades.<br/>2) Pèrdua d'informació. Minimitzar la pèrdua d'informació durant el procés de modificació de les dades. <br/>3) Complexitat computacional. Reduir el temps de càlcul i/o computació inherent a l'aplicació de tècniques de control de la revelació.<br/><br/>L'anàlisi i millora referides als objectius generals d'aquesta tesi han estat aplicades concretament a una tècnica de control de la revelació per a microdades contínues anomenada microagregació que bàsicament ajunta registres individuals del conjunt de microdades per tal de disminuir el risc de revelació.<br/><br/>Podem diferenciar les diverses aportacions de la tesi de la següent manera:<br/>1. Aportacions als mètodes de microagregació univariant, aplicats fonamentalment al tractament de microdades contínues univariants.<br/>2. Aportacions als mètodes de microagregació multivariant, aplicats bàsicament al tractament de microdades contínues multivariants (més d'una variable observada).<br/>3. Mesures comparatives de mètodes pertorbatius.<br/><br/>1. Microagregació univariant<br/>1.1. S'ha desenvolupat un estudi analític mitjançant estadístics d'ordre sobre la seguretat del mètode de microagregació amb ordenació individual.<br/>1.2. S'ha comparat la qualitat del mètode de microagregació mitjançant ordenació individual amb altres mètodes de control de la revelació per a microdades contínues; qualitat que ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.<br/><br/>2. Microagregació multivariant<br/>2.1. S'ha creat un nou mètode de microagregació multivariant de la "Distància Màxima Modificat" (DMM), modificació d'un altre mètode existent anomenat de la "Distància Màxima" (DM) i s'han comparat les seves complexitats computacionals.<br/>2.2. Hem comparat la qualitat del nou mètode de microagregació de la Distància Màxima Modificat" (DMM) amb altres mètodes de control de la revelació per a microdades contínues; qualitat que també ha estat mesurada per l'equilibri aconseguit entre la pèrdua d'informació i el risc de revelació.<br/>2.3. Hem desenvolupat un estudi analític per calcular el número de possibles particions d'un conjunt de p variables observades en h-1 conjunts de mida s i un únic conjunt de mida s+r, on p=hs+r.<br/>2.4. S'ha realitzat un estudi sobre el número de variables que han de tenir els conjunts d'una partició sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una bona qualitat.<br/>2.5. Hem fet un estudi sobre la combinació de variables dintre els conjunts que formen una partició que, juntament amb l'anterior estudi sobre el número de variables, proporcionen a l'usuari de la microagregació multivariant una guia per saber quantes i quines variables haurien de formar la partició del conjunt de variables sobre la que s'executarà el mètode DMM perquè el conjunt modificat de dades resultant tingui una millor qualitat.<br/><br/>3. Mesures comparatives<br/>3.1. Distinció entre les diverses naturaleses que formen part de les mesures emprades per comparar mètodes pertorbatius.<br/>3.2. Ponderació de les diverses mesures tenint en compte les diverses naturaleses trobades en el punt anterior.<br/>3.3.Creació d'una nova mesura de pèrdua de confidencialitat basada en intervals de confiança construïts a partir de desviacions típiques.


This Ph. D. thesis deals with topics related to the protection of the confidentiality of statistical data being disseminated by statistical offices.<br/><br/>Beyond presenting a state of the art on the most relevant perturbative techniques for statistical disclosure control of microdata, the general objective of this thesis is to analyze and improve such techniques through the use of mathematical statistics. Improvements achieved in at least one of the three following directions:<br/><br/>1) Increase the protection level, i.e. increase the level of protection of sensitive information in <br/> the data being published.<br/><br/>2) Decrease information loss, i.e. the loss of data utility caused by the application of statistical disclosure control techniques.<br/><br/>3) Decrease computational complexity, i.e. the computation inherent to the application of statistical disclosure control techniques.<br/><br/>The analysis and improvement mentioned in the general objectives of this thesis have been<br/>applied to a specific statistical disclosure control technique for continuous microdata. This technique, known as microaggregation, basically consists of clustering individual records in <br/>the data set in order to reduce disclosure risk.<br/><br/>The contributions of this thesis can be classified as follows:<br/><br/>1. Contributions to univariate microaggregation methods, which are mainly used to treat univariate continuous data.<br/><br/>2. Contributions to multivariate microaggregation methods, which are mainly used to treat multivariate continuous data (observations of several variables).<br/><br/>3. Comparative measures for perturbative methods.<br/><br/><br/>1. Univariate microaggregation<br/>1.1. An analytical study has been carried out using order statistics whose purpose is to assess the security of individual ranking microaggregation.<br/>1.2. The quality of individual ranking microaggregation has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.<br/><br/>2.Multivariate microaggregation.<br/>2.1. A new multivariate microaggregation method has been presented which is called "modified maximum distance" (MMD). MMD is a modification of a previous method called "maximum distance" (MD). Computational complexities of MMD and MD have been compared.<br/>2.2. The quality of MMD has been compared with the quality of other statistical disclosure control methods for continuous microdata. Quality is measured as the balance between information loss and disclosure risk.<br/>2.3. An analytical study has been carried out in order to compute the number of possible partitions of a set of p observed variables into h-1 sets of size s and one set of size s+r, where p=hs+r.<br/>2.4. A study has been carried out on the number of variables required by the sets of a partition on which the MMD method is run in order to obtain a modified data set with good quality.<br/>2.5. A study on the combination of variables within the sets that form a partition has been performed which, together with the previous study on the number of variables, provides the user of multivariate microaggregation with a guideline for deciding how many and which variables should form the partition of the set of variables on which MMD is to be run in order to obtain a modified data set with better quality.<br/><br/>3. Comparative measures<br/>3.1. A distinction has been established between the different natures of the measures used to compare perturbative methods.<br/>3.2. A weighting of the various measures has been proposed which takes into account the various natures determined in the previous item.<br/>3.3. A new disclosure risk measure has been introduced which consists of a confidence interval based on standard deviations (rather than on ranks, as proposed in previous work). This new measure is especially suited for skewed data.

Keywords

confidentiality; microagregació; control de la revelació; estadística; mathematics; microaggregation; estatistics; confidencialitat

Subjects

070 - Newspapers. The Press. Journalism; 311 - Statistics as a science. Statistical theory; 51 - Mathematics; 65 - Communication and transport industries. Accountancy. Business management. Public relations

Knowledge Area

1209. Estadística

Documents

TESI.pdf

1.122Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)