Ontology based semantic anonymisation of microdata

Author

Martínez Lluís, Sergio

Director

Valls, Aïda

Codirector

Sánchez Ruenes, David

Date of defense

2013-02-26

Legal Deposit

T.451-2013

Pages

189 p.



Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Abstract

The exploitation of microdata compiled by statistical agencies is of great interest for the data mining community. However, such data often include sensitive information that can be directly or indirectly related to individuals. Hence, an appropriate anonymisation process is needed to minimise the risk of disclosing identities and/or confidential data. In the past, many anonymisation methods have been developed to deal with numerical data, but approaches tackling the anonymisation of non-numerical values (e.g. categorical, textual) are scarce and shallow. Since the utility of this kind of information is closely related to the preservation of its meaning, in this work, the notion of semantic similarity is used to enable a semantically coherent interpretation. Ontologies are the basic pillar to propose a semantic framework that enables the management and transformation of categorical attributes, defining different operators that take into account the underlying semantics of the data values. The application of the operators defined in this semantic framework to the data anonymisation task allows the development of three anonymisation methods especially tailored to categorical attributes: Semantic Recoding, Semantic and Adaptive Microaggregation and Semantic Resampling. In addition a new Semantic Record linkage method is proposed, which considers data semantics in order to more accurately evaluate the disclosure risk of anonymised non-numerical data. The proposed methods have been extensively evaluated with real datasets with encouraging results. Experimental results show that a semantic-based treatment of categorical attributes significantly improves the semantic interpretability and utility of the anonymised data.


L’explotació de microdades compilades pels Instituts d’Estadística és de gran interès per la comunitat de mineria de dades. No obstant, aquest tipus de dades sovint inclouen informació sensible que pot ser, directa o indirectament, relacionada amb els individus. Per tant, es necessita fer un procés d’anonimització apropiat per minimitzar el risc de revelació de les identitats i/o les dades confidencials. En el passat, molts mètodes d’anonimització han estat desenvolupats per tractar dades numèriques, però els enfocaments que aborden l’anonimització de dades no numèriques (per exemple dades categòriques) són escassos i superficials. Com que la utilitat d’aquest tipus de dades està properament relacionada amb la preservació del seu significat, en aquest treball, s’utilitza la noció de similitud semàntica per aconseguir una interpretació semàntica coherent. Les ontologies són el pilar basic per proposar un entorn de treball semàntic que permeti el manegament i transformació d’atributs categòrics, definint diversos operadors que tenen en compte la semàntica subjacent dels valors de les dades. La aplicació dels operadors definits en aquest entorn de treball semàntic per tasques d’anonimització, permet el desenvolupament de tres mètodes dissenyats especialment per atributs categòrics: Recodificació semàntica, Microagregació adaptativa i Remostreig semàntic. A més, es proposa un nou mètode d’enllaçaments de registres, el qual considera la semàntica de les dades amb la finalitat d’avaluar d’una forma més precisa el risc de revelació de les dades no numèriques anonimitzades. Els mètodes proposats han sigut avaluats extensament amb conjunts de dades reals amb resultats encoratjadors. Els resultats experimentals mostren que el tractament basat en la semàntica d’atributs categòrics millora significativament la interpretabilitat semàntica i la utilitat de les dades anonimitzades.


La explotación de microdatos compilados por los Institutos de Estadística es de gran interés para la comunidad de minería de datos. No obstante, este tipo de datos frecuentemente incluyen información sensible que puede ser, directa o indirectamente, relacionada con los individuos. Por tanto, se necesita realizar un proceso de anonimización apropiado para minimizar el riesgo de revelación de las identidades y/o los datos confidenciales. En el pasado, muchos métodos de anonimización han sido desarrollados para tratar datos numéricos, pero los enfoques que abordan la anonimización de datos no numéricos (por ejemplo datos categóricos) son escasos y superficiales. Como que la utilidad de este tipo de datos está cercanamente relacionada con la preservación de su significado, en este trabajo se utiliza la noción de similitud semántica para conseguir una interpretación semántica coherente. Las ontologías son el pilar básico para proponer un entorno de trabajo semántico que permita el manejo y transformación de atributos categóricos, definiendo diversos operadores que tienen en cuenta la semántica subyacente de los valores de los datos. La aplicación de los operadores definidos en este entorno de trabajo semántico para tareas de anonimización, permite el desarrollo de tres métodos diseñados especialmente para atributos categóricos: Recodificación semántica, Microagregación adaptativa y Remuestreo semántico. Además, se propone un nuevo método de enlazamiento de registros, el cual considera la semántica de los datos con la finalidad de evaluar de una forma más precisa el riesgo de revelación de loa datos no numéricos anonimizados. Los métodos propuestos han sido evaluados extensamente con conjuntos de datos reales con resultados alentadores. Los resultados experimentales muestran que el tratamiento basado en la semántica de atributos categóricos mejora significativamente la interpretabilidad semántica y la utilidad de los datos anonimizados.

Keywords

Privacitat; Intel·ligència Artificial; Ontologies; Semàntica

Subjects

004 - Computer science and technology. Computing. Data processing

Documents

Tesi.pdf

3.990Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)