2024-03-29T14:25:46Zhttps://www.tdx.cat/oai/requestoai:www.tdx.cat:10803/75122024-03-15T10:58:08Zcom_10803_236col_10803_690280
00925njm 22002777a 4500
dc
Stefanova Spassova, Maria
author
2009-12-04
The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams.<br/>The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation).<br/>The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. <br/>Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.
El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas.<br/>Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor).<br/>La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales.<br/>Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.
9788469302781
http://www.tdx.cat/TDX-0113110-135809
http://hdl.handle.net/10803/7512
B.4508-2010
similitud estilística
estilo
prueba forense
prueba lingüística
prueba
corpus
corpus forense
unicidad lingüística
idiolecto
lenguage individual
idiosincrasia estílistica
idiosincrasia lingüística
estudio forense
estudio de atribución
lengua española
textos en español
variedad lingüística
inter autor
intra autor
variación inter autor
variación intra autor
variación lingüística
variación
clasificación
capacidad discriminante
potencial discriminatorio
texto forense
texto indubitado
texto escrito
texto debitado
análisis de varianza
análisis discriminante
e textos escritos
análisis
análisis estadístico con fines forenses
análisis estadístico
comparación de textos escritos
comparación lingüística forense
análisis lingüístico forense
determinación de autoría
atribución forense de autoría
atribución
determinación
forense
identificación
autoría
marca identificativa
marca de autoría
marca
género textual
español
lingüística
lingüística forense
etiqueta
etiquetas morfosintácticas
anotación morfosintàctica
anotación
cateogría
categoría gramatical
secuencia de categoría gramaticales
combinación de etiquetas
trigrama
bigrama
n-grama
perfil lingüístico
técnica de atribución
técnica de análisis
técnica de comparación
lingüística forense
rasgo idiosincrásico
lingüística aplicada
El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español