El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español

Stefanova Spassova, Maria

El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español

dc.contributor

Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada

dc.contributor.author

Stefanova Spassova, Maria

dc.date.accessioned

2011-04-12T16:35:38Z

dc.date.available

2010-01-13

dc.date.issued

2009-12-04

dc.date.submitted

2010-01-13

dc.identifier.isbn

9788469302781

dc.identifier.uri

http://www.tdx.cat/TDX-0113110-135809

dc.identifier.uri

http://hdl.handle.net/10803/7512

dc.description.abstract

The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams. The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation). The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.

eng

dc.description.abstract

El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas. Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor). La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales. Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.

spa

dc.format.mimetype

application/pdf

dc.language.iso

spa

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

similitud estilística

dc.subject

estilo

dc.subject

prueba forense

dc.subject

prueba lingüística

dc.subject

prueba

dc.subject

corpus

dc.subject

corpus forense

dc.subject

unicidad lingüística

dc.subject

idiolecto

dc.subject

lenguage individual

dc.subject

idiosincrasia estílistica

dc.subject

idiosincrasia lingüística

dc.subject

estudio forense

dc.subject

estudio de atribución

dc.subject

lengua española

dc.subject

textos en español

dc.subject

variedad lingüística

dc.subject

inter autor

dc.subject

intra autor

dc.subject

variación inter autor

dc.subject

variación intra autor

dc.subject

variación lingüística

dc.subject

variación

dc.subject

clasificación

dc.subject

capacidad discriminante

dc.subject

potencial discriminatorio

dc.subject

texto forense

dc.subject

texto indubitado

dc.subject

texto escrito

dc.subject

texto debitado

dc.subject

análisis de varianza

dc.subject

análisis discriminante

dc.subject

e textos escritos

dc.subject

análisis

dc.subject

análisis estadístico con fines forenses

dc.subject

análisis estadístico

dc.subject

comparación de textos escritos

dc.subject

comparación lingüística forense

dc.subject

análisis lingüístico forense

dc.subject

determinación de autoría

dc.subject

atribución forense de autoría

dc.subject

atribución

dc.subject

determinación

dc.subject

forense

dc.subject

identificación

dc.subject

autoría

dc.subject

marca identificativa

dc.subject

marca de autoría

dc.subject

marca

dc.subject

género textual

dc.subject

español

dc.subject

lingüística

dc.subject

lingüística forense

dc.subject

etiqueta

dc.subject

etiquetas morfosintácticas

dc.subject

anotación morfosintàctica

dc.subject

anotación

dc.subject

cateogría

dc.subject

categoría gramatical

dc.subject

secuencia de categoría gramaticales

dc.subject

combinación de etiquetas

dc.subject

trigrama

dc.subject

bigrama

dc.subject

n-grama

dc.subject

perfil lingüístico

dc.subject

técnica de atribución

dc.subject

técnica de análisis

dc.subject

técnica de comparación

dc.subject

lingüística forense

dc.subject

rasgo idiosincrásico

dc.subject

lingüística aplicada

dc.title

El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

maria.stefanova@upf.edu

dc.contributor.director

Turell, M. Teresa (Maria Teresa)

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B.4508-2010

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documents

tmss.pdf.pdf

1.753Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [292]