El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español

dc.contributor
Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.contributor.author
Stefanova Spassova, Maria
dc.date.accessioned
2011-04-12T16:35:38Z
dc.date.available
2010-01-13
dc.date.issued
2009-12-04
dc.date.submitted
2010-01-13
dc.identifier.isbn
9788469302781
dc.identifier.uri
http://www.tdx.cat/TDX-0113110-135809
dc.identifier.uri
http://hdl.handle.net/10803/7512
dc.description.abstract
The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams.<br/>The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation).<br/>The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. <br/>Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.
eng
dc.description.abstract
El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas.<br/>Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor).<br/>La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales.<br/>Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.
spa
dc.format.mimetype
application/pdf
dc.language.iso
spa
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
similitud estilística
dc.subject
estilo
dc.subject
prueba forense
dc.subject
prueba lingüística
dc.subject
prueba
dc.subject
corpus
dc.subject
corpus forense
dc.subject
unicidad lingüística
dc.subject
idiolecto
dc.subject
lenguage individual
dc.subject
idiosincrasia estílistica
dc.subject
idiosincrasia lingüística
dc.subject
estudio forense
dc.subject
estudio de atribución
dc.subject
lengua española
dc.subject
textos en español
dc.subject
variedad lingüística
dc.subject
inter autor
dc.subject
intra autor
dc.subject
variación inter autor
dc.subject
variación intra autor
dc.subject
variación lingüística
dc.subject
variación
dc.subject
clasificación
dc.subject
capacidad discriminante
dc.subject
potencial discriminatorio
dc.subject
texto forense
dc.subject
texto indubitado
dc.subject
texto escrito
dc.subject
texto debitado
dc.subject
análisis de varianza
dc.subject
análisis discriminante
dc.subject
e textos escritos
dc.subject
análisis
dc.subject
análisis estadístico con fines forenses
dc.subject
análisis estadístico
dc.subject
comparación de textos escritos
dc.subject
comparación lingüística forense
dc.subject
análisis lingüístico forense
dc.subject
determinación de autoría
dc.subject
atribución forense de autoría
dc.subject
atribución
dc.subject
determinación
dc.subject
forense
dc.subject
identificación
dc.subject
autoría
dc.subject
marca identificativa
dc.subject
marca de autoría
dc.subject
marca
dc.subject
género textual
dc.subject
español
dc.subject
lingüística
dc.subject
lingüística forense
dc.subject
etiqueta
dc.subject
etiquetas morfosintácticas
dc.subject
anotación morfosintàctica
dc.subject
anotación
dc.subject
cateogría
dc.subject
categoría gramatical
dc.subject
secuencia de categoría gramaticales
dc.subject
combinación de etiquetas
dc.subject
trigrama
dc.subject
bigrama
dc.subject
n-grama
dc.subject
perfil lingüístico
dc.subject
técnica de atribución
dc.subject
técnica de análisis
dc.subject
técnica de comparación
dc.subject
lingüística forense
dc.subject
rasgo idiosincrásico
dc.subject
lingüística aplicada
dc.title
El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
cat
dc.contributor.authoremail
maria.stefanova@upf.edu
dc.contributor.director
Turell, M. Teresa (Maria Teresa)
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B.4508-2010
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tmss.pdf.pdf

1.753Mb PDF

This item appears in the following Collection(s)