Stylometric Analysis Applied to Spanish Literature: Historical and Crime Fiction
José Manuel Fradejas Rueda (Universidad de Valladolid)
ArtÃculo recibido: 14-07-2016 | ArtÃculo aceptado: 15-10-2016
ABSTRACT: This paper demonstrates that a computer can determine the authorship of a text. To this end we created a corpus of 122 contemporary novels written in Spanish (69 historical novels, 50 crime novels, and 3 westerns). The corpus was then studied using stylo, a stylometric analysis package written in the programming language R. We chose to apply the simplest of the multiple types of analysis offered by this package: cluster analysis. The results are very interesting: by taking into account just the 100 most frequently used words (MFW), the computer was able to group the different works of each author as well as assigning those published under a pseudonym to the true author without incurring in any errors.
RESUMEN: En este artÃculo se trata de mostrar si un ordenador es capaz de determinar la autorÃa de un texto. Para ello se ha creado un corpus de 122 novelas contemporáneas (69 de tema histórico, 50 policiacas y 3 del oeste) y se han analizado con el paquete de análisis estilométrico stylo. De todos los análisis que ofrece este paquete, escrito en R, se ha utilizado el más sencillo: el análisis de grupos. Los resultados han sido muy interesantes ya que con un mÃnimo de 100 palabras (las más frecuentes) el ordenador ha sido capaz de agrupar, sin error alguno, las distintas obras de cada autor y ha sabido asignar al autor real aquellas que se publicaron bajo seudónimo.
KEYWORDS: Stylometry, authorship attribution, R, historical fiction, crime fiction
PALABRAS CLAVE: EstilometrÃa, atribución de autorÃa, R, novela histórica, novela policiaca
1. Introducción
Los problemas de autorÃa, bien porque una obra nos ha llegado anónima, bien porque se ha publicado bajo seudónimo, es una de las tareas a las que los especialistas en literatura se han aplicado desde la noche de los tiempos. Usualmente, la identificación se ha realizado por medio de métodos cualitativos, hermenéuticos, como es determinarlo por cuestiones de Ãndole textual como pueden ser la semejanza y giros peculiares de la lengua, por el tema tratado, por la métrica, por las figuras retóricas que emplea, por el estilo, como por circunstancias extratextuales como puede ser la historia del texto, fuentes secundarias, citas, cartas, estudios de archivo y biblioteca, contexto de la época… (Gil-Albarellos, 2010: 343) y ahà es donde se han originado ciertas disputas académicas[1]. Dentro de la literatura española hay dos casos paradigmáticos: el autor del Lazarillo y quién es realmente Alonso Fernández de Avellaneda. No se ha llegado a ninguna conclusión aún y, quizá, nunca se llegue puesto que no tenemos acceso a más pruebas que los textos mismos y en ellos se buscan con lupa y gran cuidado expresiones que tiene el texto en cuestión y que se documentan en otros textos del autor al que se le quiere atribuir o, en algunos casos, para rechazarla. AsÃ, por ejemplo, Madrigal (2003) establece que el autor de La tÃa fingida es Miguel de Cervantes, y para tal demostración se basa en unas pocas expresiones que solo encuentra en otras obras de Cervantes, es decir, que tienen «una equivalencia verbal con la obra de Cervantes». Es el mismo tipo de análisis que hace MartÃn Jiménez (2007) para establecer que Alonso Fernández de Avellaneda es Jerónimo de Pasamonte. No discuto ninguna de estas dos atribuciones, no soy quién para ello, pero ciertos análisis parecen poner el «Avellaneda» más cerca de Tirso de Molina (Madrigal, 2005) que de la PÃcara Justina (Blasco Pascual, 2005) y de la Vida y trabajos de Jerónimo de Pasamonte (MartÃn Jiménez, 2007); lo más curioso es que esos análisis sitúan lingüÃsticamente el «Avellaneda» con Los trabajos de Persiles y Sigismunda, las Novelas ejemplares y La Galatea, es decir, lo alinea con Cervantes. ¿Qué pasarÃa si Cervantes hubiera escrito el «Avellaneda»?, que es la sorpresa que López expresa al final de su trabajo sobre La tÃa fingida (López, 2011: 36).
Insisto, no es el objetivo de este trabajo demostrar quién pudiera estar tras el nombre de Alonso Fernández de Avellaneda. Nada más lejos. Tan solo experimentar con unas técnicas de investigación que son productivas y eficaces y que pueden ser de gran valor a la hora de determinar el probable autor de un texto dado.
2. La estilometrÃa
Uno de los grandes debates de la literatura inglesa es la llamada Shakespeare Authorship Question, o lo que es lo mismo: la disputa de si William Shakespeare escribió a William Shakespeare y cuál es, en realidad, el canon de las obras shakespearianas. Es una debate que surgió a mediados del siglo XIX y cuenta con numerosos candidatos, pero de entre todos ellos destacan tres: Edward de Vere, XVII Conde de Oxford; Francis Bacon y Christopher Marlowe (Craig, 2009). Este debate se sitúa dentro de los problemas de atribución de autorÃa y desde su concepción a mediados del siglo XUX se ha tratado de resolver por medio de técnicas estilométricas, es decir, por medio del análisis estadÃstico del estilo literario (Holmes, 1998: 111; 1999: 8378) y para Juola estilometrÃa es un near-synonymous de atribución de autorÃa (2006: 238).
En la bibliografÃa cientÃfica española el término estilometrÃa aparece por primera vez en Montoya MartÃnez y Rubio Flores (1994), pero no tiene el mismo sentido, pues ese trabajo, sobre la metáfora y la comparación en la segunda partida alfonsÃ, lo único que ha hecho ha sido “analizar y cuantificar las comparaciones […] por medio de medios electrónicos, [de] todos los elementos comparativos más comunes de la época […]: asi, tanto, tan, tal y formas del verbo ser, combinadas con la partÃcula como†(Montoya MartÃnez & Rubio Flores, 1994: 158). En verdad, lo único que consiguieron fue localizar los datos con un programa llamado WordCruncher y presentar algunas estadÃsticas descriptivas básicas: tokens (palabras del texto), tipos (palabras únicas), caracteres totales, tamaño total –no indican la magnitud– y el número de frases localizadas y en qué tÃtulo de la segunda partida (Montoya MartÃnez & Rubio Flores, 1994: 160). Muchos años más tarde, la emplea FrÃas Delgado (2009), quien utiliza NLTK (Natural Language Tool Kit –(Loper, Bird & Klein, 2009)–) y algunos scripts en Python para mostrar que la longitud de las palabras (por número de letras) es un factor estable en la lengua española desde el punto de vista diacrónico, que podrÃa (no lo demuestra) servir para discriminar géneros pero que no es suficiente para discriminar autorÃas. Posteriormente aparece como palabra clave en Troya Déniz (2015) en un análisis de variación ideolectal –aparición y uso de quizá(s) y tal vez– en novelas escritas en español a principios del siglo XXI (entre 2001 y 2014)[2].
La primera aproximación al problema fue la de T. Mendenhall (1901) que se reflejó en «A Mechanical solution of a literary problem». La solución mecánica consistió en contar las letras de cada una de las palabras de las obras de Shakespeare y comparar la longitud de las palabras de las obras atribuidas a Shakespeare con los sospechosos habituales: de Vere, Bacon y Marlowe[3].
El procedimiento era muy sencillo: una persona leÃa una palabra, contaba el número de letras y lo anunciaba en voz alta; otra apretaba el botón adecuado (uno para cada número) en una máquina registradora construida al efecto. Procedieron asà a lo largo de dos millones de palabras (400 000 eran de Shakespeare). La conclusión a la que llegaron era que la longitud de palabra más usual en Shakespeare era de cuatro letras, «a thing never met with before» (Mendenhall, 1901: 102).
El laborioso procedimiento de Mendenhall debió influir en que nadie se ocupara de los problemas de estilometrÃa, aunque tuvo una secuela en el análisis en el que Brinegar (1963) trató de establecer si Mark Twain escribió las diez cartas Snodgrass que se publicaron en el New Orleans Daily Crescent en 1861 bajo la firma de Quintus Curtius Snodgrass y que describÃan, de manera humorÃstica, las aventuras y experiencias del autor en Nueva Orleans, Baton Rouge y Washington como soldado confederado durante la Guerra Civil americana (1861–1865). Este problema de autorÃa se planteó porque entre los muchos seudónimos de Mark Twain —ya de por sà un seudónimo de Samuel Langhorne Clemens (1835–1910)— estaba el de Thomas Jefferson Snodgrass. La conclusión a la que llegó es que Twain no fue el autor.
Sin embargo, la verdadera aplicación de la estilometrÃa y su primer gran éxito surgió a principios de la década de 1960 con el llamado caso de los Federalist Papers.
Los Federalist Papers es una serie de 85 artÃculos y ensayos que fueron publicados bajo el seudónimo Publius en los periódicos de Nueva York en 1787 para persuadir a los norteamericanos de que ratificaran la nueva constitución. Se sabe que los escribieron Alexander Hamilton (51), James Madison (14) y John Jay (5)[4] y otros tres fueron coescritos por Madison y Hamilton. Sin embargo, doce de ellos los reclamaban como propios tanto Hamilton como Madison. Mosteller y Wallace (1964), basándose en la frecuencia de uso de palabras gramaticales, function words, es decir de artÃculos, conjunciones, preposiciones, pronombres y ciertos adverbios, adjetivos y verbos auxiliares, como discriminadores de estilo establecieron la autorÃa de cada uno de los doce ensayos disputados. AsÃ, pudieron ver, por ejemplo, que la preposición upon aparecÃa 3.24 veces por cada 1 000 palabras en los escritos de Hamilton frente a 0.23 en los de Madison. En cambio, este preferÃa la palabra whilst frente while, que era la favorecida por Hamilton. La conclusión a la que llegaron es que esos doce artÃculos fueron escritos por James Madison.
Esto llevó a la constatación de que pueden ser mucho más interesantes las palabras gramaticales, las function words, para establecer la huella lingüÃstica de un autor que las palabras semánticas ya que las gramaticales no dependen del contexto, del tema ni del género y, además, las palabras gramaticales se usan de manera inconsciente, con lo que son más capaces de atrapar las selecciones estilÃsticas de los diferentes autores (Stamatatos, 2009: 540), aunque se puede jugar con muchos marcadores de estilo como la longitud de palabras[5], la de las oraciones, el número de sÃlabas por palabra, la distribución de letras, la distribución de n-grams, las colocaciones, la distribución de las partes de la oración, la ratio tipo-token, la distribución del vocabulario, etc. (Holmes, 1994).
En todos los trabajos que sobre estilometrÃa se han realizado desde Mosteller y Wallace hasta principios del siglo XXI los investigadores se han ayudado de los ordenadores (computer-assisted), pero no los han realizado con ordenadores (computer-based), con lo que ha habido grandes limitaciones (Stamatatos, 2009: 538). A pesar de ello, ha habido grandes éxitos como fue la identificación del autor de la novela Primary Colors: A Novel of Politics, que se publicó 1996 anónimamente. Esta novela es un roman a clef en el que se describe la primera campaña presidencial de Bill Clinton en 1992. Posteriormente, gracias al análisis estilométrico realizado por Donald Foster, especializado en el debate de la Shakespeare Authorship Question[6], se estableció que el autor era Joe Klein, columnista del Newsweek.
En el año 2006 se presentó un prototipo computerizado de atribución de autorÃa, el Java Graphical Authorship Attribution Program (JGAAP), desarrollado por Patrick Juola en el Evaluation Variation in Language Laboratory (Juola, Sofko & Brennan 2006) y se ha puesto a prueba y ha demostrado su fiabilidad en el caso Robert Galbraith (Juola, 2013a, 2013b, 2015).
Robert Galbraith, un policÃa militar jubilado y con experiencia en la industria de seguridad, publicó en abril de 2013 la novela policiaca titulada The Cuckoo’s Calling (La llamada del Cuco). Esta novela «was lavishly praised by critics» (Sunday Times, 14.7.13). Según contaba The Sunday Times, a uno de sus periodistas le pareció una novela demasiado buena como para ser una obra primeriza y que un autor con la formación que decÃa tener describiese con sumo detalle la ropa femenina, por lo que decidió solicitar los servicios de Juola para averiguar quién pudiera ser el autor real. La verdad es que tenÃan un soplo: que Robert Galbraith era un seudónimo de J. K. Rowling, con lo que pudo partir de una hipótesis que se trató de confirmar.
El procedimiento de Juola (2013b) fue seleccionar la única novela para adultos escrita por J. K. Rowling, The Casual Vacancy, y otras tres novelas policiacas escritas por mujeres: The St. Zita Society de Ruth Rendell, The Private Patient de P. D. James y The Wire in the Blood de Val McDermid para ver cuál era más similar a Galbraith y realizó cuatro análisis centrados en cuatro variables lingüÃsticas:
- distribución de la longitud de las palabras
- uso de las 100 palabras más comunes
- distribución de 4-gram (grupos de cuatro letras juntas, pueden ser palabras, parte de una palabra o de dos palabras adyacentes)
- distribución de bigramas (qué dos palabras aparecen juntas)
La conclusión a la que llegó es que de los cuatro autores, dos quedaban descartados y que «The only person consistently suggested by every analysis was Rowling, who showed up as the winner or the runner-up in each instance» (Juola, 2013b). Ante estos datos, el periodista de The Sunday Times preguntó a J. K. Rowling y esta confesó que era ella la autora.
Como puede verse, los métodos informáticos, ya sean computer-assisted (Foster) y sean computer-driven (Juola) pueden ser de gran ayuda para establecer la autorÃa de un texto anónimo o publicado anónimamente, pero la confirmación solo ha sido posible cuando los autores han confesado que efectivamente eran ellos los autores. Un caso interesante en el mercado editorial actual serÃa responder a la pregunta ¿Quién es Elena Ferrante?[7]
3. Análisis de grupos
Como se ha señalado, hay varias técnicas informáticas que pueden ayudar a la hora de determinar la autorÃa de una obra y muchas de ellas están al alcance de cualquier investigador. En el resto de este trabajo voy a exponer un experimento para determinar la autorÃa de un corpus de novelas españolas contemporáneas por medio del análisis de grupos (también llamado de conglomerados o agrupamiento, en inglés cluster analysis).
El análisis de grupos es una técnica de análisis estadÃstico multivariante cuya finalidad es agrupar una serie de elementos en grupos de manera que se dé la máxima homogeneidad posible dentro de cada grupo y, a la vez, la mayor diferencia entre los diversos grupos. Por lo general, representan los resultados por medio de dendrogramas[8].
Las primeras aproximaciones a este tipo de análisis las realicé a la vista del libro de Jockers (2014), en el que, como un ejercicio para el aprendizaje del lenguaje de programación R para el análisis de textos literarios, propone determinar si un texto marcado como anónimo se agruparÃa de manera natural con algún autor de un grupo de textos de novelistas irlandeses (o de origen irlandés) de los siglos XVIII-XX. A la vista de que funcionaba con los textos ingleses, preparé un pequeño corpus de dieciocho novelas en español del siglo XIX (Eduardo Acevedo DÃaz [3], Benito Pérez Galdós [8], Juan Valera [3], José MarÃa de Pereda [4])[9]. Uno de los ficheros se etiquetó como anónimo (anonimo.xml). Este corpus está constituido por 1 361 448 palabras token y 244 690 palabras tipo[10] y tan solo seleccionando 24 palabras tipo –a, al, como, con, de, del, el, en, la, las, le, lo, los, más, me, no, para, por, que, se, su, un, una e y–, aquellas cuya frecuencia relativa de aparición fuera >= .5, el análisis de agrupación por medio de la medida de la distancia euclidiana los reunió sin error alguno, como puede verse en el dendrograma correspondiente (fig. 1) y estableció que el texto marcado como anónimo era de Pérez Galdós, como efectivamente lo era. Se trataba del Episodio Nacional Trafalgar[11].
Figura 1. Agrupación de las 18 novelas, frecuencia >= .5
Ante este alentador resultado, se decidió incorporar cuatro novelas más. Para este nuevo experimento, el autor seleccionado fue Arturo Pérez-Reverte (El Asedio, Cabo de Trafalgar, El Húsar y Hombres buenos). Aunque está bastante alejado temporalmente de los anteriores (nacidos entre 1824 y 1851; fallecidos entre 1905 y 1921), podrÃa encerrar un cierto problema y provocar un posible error de atribución ya que dos de ellas, una de Pérez Galdós y otra de Pérez-Reverte, tratan el mismo tema: la batalla naval de Trafalgar (21 de octubre de 1805).
La adición de las cuatro novelas de Pérez-Reverte ha aumentado el volumen de palabras-token a 1 874 532 y a 297 841 el de las palabras-tipo. De nuevo, tan solo 24 de ellas, las mismas que en el caso anterior, han permitido agrupar sin error alguno las 22 novelas (fig. 2). La igualdad de argumento en Pérez Galdós y Pérez-Reverte no ha supuesto ningún problema.
Figura 2. Agrupación de las 22 novelas, frecuencia >= .5
A la luz de los ensayos anteriores, propuestos como ejercicios para el aprendizaje de la programación en R, se procedió a diseñar un nuevo experimento con el paquete stylo (Eder, Rybicki & Kestemont, s. f.). Ya no se trata de unas pocas lÃneas de código para aprender a programar y analizar textos, sino de todo un paquete diseñado para el análisis estilométrico, en el mismo lenguaje que las pruebas que acabo de exponer.
El paquete stylo es una aplicación escrita en el lenguaje R desarrollado por Eder, Rybicki y Kestemnot (Eder, Rybicki & Kestemont, s. f.; 2013) para el análisis estilométrico, o estilÃstica computacional, relativamente sencillo de usar puesto que dispone de una interfaz gráfica (GUI) que permite realizar varios tipos de análisis con solo unos clics, desde cargar los textos hasta obtener sofisticados gráficos. Tras esta interfaz se esconde un conjunto funcional de los principales métodos de clasificación que dominan el ámbito de la estilometrÃa. En este estudio solo se hace uso de uno de los posibles análisis que permite el paquete stylo: el análisis multivariado sin supervisión que ofrece como resultado un dendrograma en el que aparecen agrupados los textos, es decir, un análisis de grupos[12].
En esta ocasión el corpus se ha construido con novelas históricas y policiacas contemporáneas (véase en los apéndices I y II el elenco). Se han elegido estos dos temas porque presentan un rico panorama para comprobar problemas de autorÃa, puesto que hay obras escritas bajo seudónimo (dentro de las novelas históricas Peter Harris es el seudónimo de José Calvo Poyato; en el ámbito de la novela negra o policiaca contamos con Francisco González Ledesma quien, asimismo, escribió novelas de intriga policial como Enrique Moriel y novelas del oeste bajo el alias de Silver Kane)[13] y también hay novelas escritas a cuatro manos (Ãngeles de Irisarri y Magdalena Lasala, y Ãngeles de Irisarri y MartÃnez de Lezea). Eso es un terreno inmejorable para probar este software y alguna de las técnicas estilométricas que ofrece ya que sabemos las respuestas: quienes son los autores reales y sabemos de antemano cuál ha de ser el resultado[14].
La construcción del corpus ha sido relativamente sencilla. En la red hay numerosas copias en formato electrónico, por lo normal en formato ePub, de casi cualquier tÃtulo imaginable. Algunos están mejor construidos que otros. Puesto que se trata de ePub se procedió a su desempaquetado y a la extracción del texto de las novelas en texto plano. Se editaron para eliminar todo lo accesorio: paratextos, apéndices, notas al pie, aclaraciones, epÃgrafes, dedicatorias. Todos los textos presentan algunos problemas menores, pero no despreciables, como es el errático uso de los separadores de los millares (la norma actual indica que debe ser con un espacio, la tradicional con un punto[15]), puesto que el concepto palabra para un ordenador es la secuencia de caracteres entre dos espacios en blanco o entre dos caracteres no palabra (non-word character)[16], los separadores ya fuera el punto (tradicional) o el espacio en blanco podÃa convertir una cifra en dos o tres palabras distintas. Por otra parte, en el corpus histórico hay un elevado número de casos en los que aparecen nombres árabes con el artÃculo prefijado (577 casos diferentes con 1 812 ocurrencias) en los que el guion que separa el artÃculo de la palabra, se ha sustituido por un guion bajo (underscore); no hacerlo asà habrÃa aumentado escandalosamente el número de casos de la amalgama de la preposición a y el artÃculo el (53 282 casos en el corpus histórico) y habrÃa podido producir algún sesgo en el análisis estadÃstico.
Con un sencillo script de R se procesaron los 118[17] ficheros que constituyen ambos corpus y se han generado las listas de palabras que conforma cada una de las novelas con indicación del número de palabras-token, palabras tipo y la frecuencia relativa de los token[18] de cada una de las novelas. A partir de ellas se ha construido otras dos listas que contienen el total de palabras que constituye cada uno de los corpus analizados (histórica y policiaca) y cuyas estadÃsticas descriptivas resumidas se pueden ver en la tabla 1.
Histórica |  | Policiaca | |
69 | textos | 49 | |
44Â 252Â 212 | caracteres | 22Â 732Â 809 | |
7Â 659Â 249 | tokens | 4Â 010Â 728 | |
122Â 038 | tipos | 91Â 789 | |
195 805 | párrafos | 149 570 | |
1.593342 | Token-Tipo Ratio | 2.288587 | |
111Â 003.6 | Media de tokens / novela | 81Â 851.59 | |
12Â 900.86 | Media tipos / novela | 10Â 645.39 | |
2 837.754 | Media párrafos / novela | 3 052.449 | |
641Â 336.4 | Media caracteres / novela | 463Â 934.9 | |
39.11672 | Media palabras/párrafo | 26.81506 | |
226.0014 | Media caracteres / párrafo | 151.9878 | |
5.777618 | Media caracteres / palabra | 5.668001 |
Tabla 1. EstadÃsticas descriptivas resumidas
El análisis básico que se ha realizado ha sido un análisis de grupos (cluster analysis) y se ha ejecutado aplicándole varios métodos para calcular la distancia (Classic Delta, Argamon’s Delta, Eder’s Delta, Eder’s Simple, Manhattan, Canberra, Euclidean y Coseno[19]) e inicialmente se han tenido en cuenta tan solo las 100 palabras más utilizadas (MFW most frequent words), aunque solo ofreceré los resultados obtenidos con Classic Delta.
4. Análisis del corpus de novelas históricas
El análisis de grupo de los 69 textos del corpus de novelas históricas, con la medida Delta clásica[20] y con tan solo las 100 palabras más frecuentes ha agrupado correctamente todos los autores (figura 3). Ha sido capaz de establecer que Harris y Calvo Poyato son el mismo autor. Los libros a cuatro manos de Irisarri y Lasala y de Irisarri y MartÃnez de Lezea los ha agrupado con los de Irisarri, pero formando un subgrupo diferente, aunque dentro de un grupo superior en el que se hallan MartÃnez de Lezea e Irisarri. Aquà lo preocupante es que la novela escrita por Irisarri y Lasala se encuentra muy alejada del grupo en el que se insertan los demás textos de Lasala.
Figura 3. Dendrograma con 100 MFW y distancia Classic Delta con stylo
El mismo tipo de análisis, pero aumentando de las 100 a las 1000 palabras más frecuentes arroja el mismo resultado general: todos los libros se agrupan correctamente. Incluso el conjunto de MartÃnez de Lezea, Irisarri y las novelas escritas a cuatro manos. De nuevo Lasala está alejada del de MartÃnez de Lezea e Irisarri. Lo único que varÃa es la disposición y ordenamiento dentro del dendrograma (figura 4).
Figura 4. Dendrograma con 1000 MFW y distancia Classic Delta con stylo
Hay una pregunta que cabe hacerse: ¿cuál es el número mÃnimo y máximo de palabras necesario para que la clasificación sea efectiva? En los experimentos que hice con los novelistas españoles del siglo XIX bastó con 24 palabras[21]. En nuestro caso con 25 palabras mÃnimas hay una cierta descolocación (figura 5). Básicamente todos los autores se agrupan correcta y consistentemente (Asensi, Pérez-Reverte, Vidal, Harris y Calvo Poyato), pero algunos se descolocan: Artega se entremezcla con Lasala y Vidal; dos obras de Sánchez Adalid se sitúan entre las de Corral; y una de MartÃnez de Lezea se acomoda con las de Pérez-Reverte.
Figura 5. Dendrograma con 25 MFW y distancia Classic Delta con stylo
Lo más interesante en este caso es que la novela coescrita por Irisarri y Lasala se encuadra con Lasala y se aleja de las de Irisarri.
Con 50 palabras se obtiene una clasificación casi correcta (figura 6). La única nota curiosa es que El húsar de Pérez-Reverte se separa de las demás de este autor y se alinea con las del Corral, aunque se mantiene dentro del nodo en el que está todo Pérez-Reverte. La otra nota es que Irisarri y Lasala, como autoras independientes, se aproximan, mientras que Irisarri se aleja de MartÃnez de Lezea, que en todos los casos anteriores se aproximaban; lo que, por otra parte, implica que la novela coescrita por Irisarri y Lasala se halla cómodamente asentada entre ellas.
Figura 6. Dendrograma con 50 MFW y distancia Classic Delta con stylo
La conclusión parcial es que con un mÃnimo de 100 palabras la medida Delta clásica agrupa correctamente los textos. Al bajar de ese mÃnimo los problemas surgen y se van incrementando cuanto menor es el número de rasgos que se tienen en cuenta.
Otro rasgo para establecer estos agrupamientos es el de qué bigramas, es decir, qué dos palabras aparecen juntas con mayor frecuencia. De nuevo los análisis con Classic Delta agrupan correctamente los textos (figura 7). Lo más interesante es que las novelas de Irisarri, MartÃnez de Lezea y Lasala constituyen ahora un grupo homogéneo en el que se ha introducido Corral y que la novela coescrita por Irisarri y Lasala se ha agrupado en esta ocasión con su segunda autora (Lasala) y se ha alejado, relativamente, de la otra autora (Irisarri).
Figura 7. Dendrograma con los 100 bigramas más frecuentes y distancia Delta Classic con stylo
Ante el comportamiento un tanto oscilante de los textos coescritos por Ãngeles de Irisarri y MartÃnez de Lezea –Perlas para un collar– por un lado y por Ãngeles de Irisarri y Magdalena Lasala –Moras y cristianas– por otro; aunque en el caso de Irisarri y MartÃnez de Lezea suelen agruparse con ellas sin dificultad, es complicado que Moras y cristianas se aproxime a su otra coautora: Lasala, salvo en la última prueba con bigramas (figura 7), por lo que se decidió editar los dos textos y someterlos a un nuevo análisis.
La edición de los textos ha consistido en dividirlos en otros dos que contuvieran lo que ha escrito cada una de las autoras. Perlas para un collar es una colección de treinta relatos sobre mujeres cristianas, judÃas y musulmanas y cada uno de ellos está firmado al final, mientras que en Moras y cristianas solo se indica que Irisarri se ha ocupado de las cristianas y Lasala de las moras. AsÃ, pues, se han creado cuatro nuevos archivos Irisarri_Moras, Irisarri_Perlas, MLezea_Perlas y Lasala_Moras, se han retirado los originales del corpus y se han procesado con stylo. Se ha llevado a cabo un análisis de grupos con la medida Classic Delta y con 100 palabras más frecuentes (figura 8) y 1000 palabras más frecuentes (figura 9) y han ubicado cada nuevo texto entre las obras de cada una de las autoras y también ha ocurrido asà cuando se ha hecho el análisis con los 100 bigramas más frecuentes (figura 10).
Figura 8. Dendrograma de los textos editados, medida Classic Delta y 100 MFW con stylo
Figura 9. Dendrograma de los textos editados, medida Classic Delta y 1000 MFW con stylo
Figura 10. Dendrograma de los textos editados, constuido con los 100 bigramas más frecuentes y medida Classic Delta con stylo
5. Análisis del corpus de novelas policiacas
Con el corpus policial se han realizado las mismas pruebas que con las novelas históricas: análisis de grupos con las 100 y 1000 palabras más frecuentes y bigramas más frecuentes y los resultados son análogos. Con 100 palabras y la medida Classic Delta se agrupan correctamente los autores (figura 11).
Figura 11. Dendrograma del corpus policial con 100 MFW y Classic Delta con stylo
Al aumentar a 1000 la agrupación sigue siendo correcta, lo único que varÃa, como de costumbre, es la ordenación interna (figura 12).
Figura 12. Dendrograma del corpus policial con 1000 MFW y distancia Classic Delta con stylo
Sin embargo, al reducir el número de rasgos a 25 no hay problemas. Las únicas diferencias se hallan en la ordenación final (figura 13).
Figura 13. Dendrograma del corpus policial con 25 MFW y Classic Delta con stylo
Ahora vamos a introducir un elemento perturbador en el experimento. Francisco González Ledesma usó también el seudónimo de Silver Kane para publicar novelitas del oeste. Para esta parte hemos incorporado al corpus policiaco, aunque temáticamente estén muy alejadas, tres novelas de Silver Kane: Póker de damas, Justiciero S. A. y Cadáver a subasta. Los datos estadÃsticos básicos de estas tres novelitas se encuentran en la tabla 2.
E. Moriel | Silver Kane | Kane+Moriel | |
textos | 1 | 3 | 4 |
caracteres | 589923 | 406566 | 996489 |
tokens | 104356 | 71721 | 176077 |
tipos | 11696 | 8389 | 15940 |
párrafos | 3082 | 4235 | 7317 |
Token-Tipo Ratio | 11.21 | 11.70 | 9.05 |
Media de tokens / novela | 104356 | 23907 | 44019 |
Media tipos / novela | 11696 | 4250 | 6112 |
Media párrafos / novela | 3082 | 1411 | 1829 |
Media caracteres / novela | 589923 | 135522 | 249122 |
Media palabras/párrafo | 33.86 | 16.94 | 24.06 |
Media caracteres / párrafo | 191.41 | 96.00 | 136.19 |
Media caracteres / palabra | 5.65 | 5.67 | 5.66 |
Tabla 2. EstadÃsticas descriptivas resumidas de Silver Kane y E. Moriel
El análisis con tan solo 100 MFW (figura 14) sitúa perfectamente las novelas firmadas por Silver Kane entre las de González Ledesma.
Figura 14. Dendrograma del corpus policial incorporado Silver Kane con 100 MFW y Classic Delta
Añadir la complicación de la otra firma que González Ledesma utilizó para novelas policiacas no mueve un ápice los resultados. Se sitúa claramente con Kane y González Ledesma, es más, ambos se sitúan a ambos lados de González Ledesma dentro del mismo nodo, tanto si solo tenemos en cuentas las 100 palabras más frecuentes (figura 15) como las 1000 (figura 16) e incluso si consideramos los bigramas (figura 17).
Figura 15. Dendrograma del corpus policial añadidos Kane y Moriel con 100 MFW Classic Delta
Figura 16. Dendrograma del corpus policial añadidos Kane y Moriel con las 1000 MFW y Classic Delta
Figura 17. Dendrograma del corpus policial añadidos Kane y Moriel construido con los 100 bigramas más frecuentes y medida Classic Delta
6. Conclusión
La conclusión que se puede extraer a la luz de estos experimentos, elementales, de clasificación estilométrica, y la utilidad del paquete stylo es que estos métodos estadÃsticos para establecer la autorÃa de un texto funcionan sin error dentro de un rango de rasgos de entre las 100 y las 1000 palabras más frecuentes (MFW) aplicando la medida Classic Delta y también con los 100 y 1000 bigramas (2-grams) más frecuentes. Luego, si ejecutamos el mismo tipo de análisis con los mismos rangos de rasgos, podrÃamos establecer quién se esconde tras el nombre de Alonso Fernández de Avellaneda y, a la luz del dendrograma obtenido (figura 18), no pueden ser ni el autor de la PÃcara Justina, como propone Blasco (2005) ni el de la Vida y trabajos de Jerónimo de Pasamonte, que postula de Riquer (1988) y trata de confirmar informáticamente (¿?) MartÃn Jiménez (2007), puesto que ninguno de los dos se encuentra dentro de la rama en la que se ubica el otro Quijote[22]. Pero hay que hacer muchas más pruebas y el paquete stylo se ha mostrado como una interesante herramienta para los problemas de autorÃa que tiene las herramientas estadÃsticas pertinentes. Pero hay que tener en cuenta que quizá no sea ninguno de los autores mencionados, pues son muchos otros los que no se han considerado y, quizá, el autor sea otro del que no tenemos noticia alguna.
Figura 18. Dendrograma de algunos de los posibles responsables del «Avellaneda» realizado con stylo y las 100 MFW medidas con Classic Delta
7. BibliografÃa
Argamon, Shlomo (2008). «Interpreting Burrows’s delta: Geometric and probabilistic foundations». Literary and Linguistic Computing 23 (2): pp. 131-147.
Blasco Pascual, Francisco Javier (2005). «La lengua de Avellaneda en el espejo de “La PÃcara Justinaâ€Â». BoletÃn de la Real Academia Española 85 (291): pp. 53-109.
Brinegar, C. S. (1963). «Mark Twain and the Quintus Curtius Snodgrass letters: A Statistical test of Authorship». Journal of the American Statistical Association 58: pp. 85-96.
Burrows, John (2002). «“Deltaâ€: a measure of stylistic difference and a guide to likely authorship». Literary and Linguistic Computing 17 (3): pp. 267-287.
Calvo Tello, José (2016). «Entendiendo Delta desde las humanidades». Caracteres: estudios culturales y crÃticos de la esfera digital 5 (1): pp. 140-176. <http://revistacaracteres.net/revista/vol5n1mayo2016/entendiendo-delta/> (17/06/2016).
Craig, D. (2009). Shakespeare, computers, and the mystery of authorship. New York: Cambridge University Press.
Eder, Maciej, Jan Rybicki y Mike Kestemont (2013). Stylo: a Package for Stylometric Analyses. <https://sites.google.com/site/computationalstylistics/stylo/stylo_howto.pdf?attredirects=0&d=1> (17/06/2016).
Eder, Maciej, Jan Rybicki y Mike Kestemont (s. f.). «Stylometry with R: A Package for Computational Text Analysis». The R Journal: pp. 1-15. <https://journal.r-project.org/archive/accepted/eder-rybicki-kestemont.pdf> (17/06/2016).
Foster, Donald (1989). Elegy by W.S.: a study in attribution. Newark: University of Delaware Press.
FrÃas Delgado, Antonio (2009). «Distribución de frecuencias de la longitud de las palabras en español aspectos diacrónicos y de estilometrÃa». Eds. Pascual Cantos Gómez y Aquilino Sánchez Pérez. A survey of corpus-based research. <http://www.um.es/lacell/aelinco/contenido/pdf/51.pdf> (17/06/2016).
Gil-Albarellos Pérez-Pedrero, Susana (2010). «Algunas consideraciones teóricas sobre el fraude literario». Eds. Javier Blasco, Patricia Cepeda MarÃn y Cristina Ruiz Urbón. Hos ego versiculos feci… Estudios de atribucioÌn y plagio. Madrid: Iberoamericana – Vervuert. pp. 333-345.
Gil-Albarellos Pérez-Pedrero, Susana (2011). «“Que no hay tan diestra mentira/que no se venga a saberâ€. TeorÃas de la falsificación literaria». Ed. JoaquÃn Ãlvarez Barrientos. Imposturas literarias españolas. Salamanca: Ediciones Universidad de Salamanca. pp. 17-32.
Holmes, David I. (1994). «Authorship attribution». Computers and the Humanities 28 (2): pp. 87-106.
Holmes, David I. (1999). «Stylometry». Encyclopedia of Statistics. Londres: Wiley.
Holmes, David I. (1998). «The Evolution of Stylometry in Humanities Scholarship». Literary and Linguistic Computing 13 (3): pp. 111-117.
Jockers, M.L. (2014). Text Analysis with R for Students of Literature. Cham: Springer.
Juola, Patrick (2006). «Authorship attribution». Foundations and Trends in Information Retrieval 1 (3): pp. 233-334.
Juola, Patrick (2013a): «How a Computer Program Helped Reveal J. K. Rowling as Author of A Cuckoo’s Calling». Scientific American <http://www.scientificamerican.com/article/how-a-computer-program-helped-show-jk-rowling-write-a-cuckoos-calling/> (17/6/2016).
Juola, Patrick (2013b). «Rowling and “Galbraithâ€: an authorial analysis». Language Blog <http://languagelog.ldc.upenn.edu/nll/?p=5315> (17/6/2016).
Juola, Patrick (2015). «The Rowling case: A proposed standard analytic protocol for authorship questions». Digital Scholarship in the Humanities 30. <http://dsh.oxfordjournals.org/content/30/suppl_1/i100> (17/7/2016).
Juola, Patrick, John Sofko y Patrick Brennan (2006). «A prototype for authorship attribution studies». Literary and Linguistic Computing 21 (2): pp. 169-178.
Loper, Edward, Steven Bird y Ewan Klein (2009). Natural language Processing with Python. Sebastopol: O’Reilly.
López, Freddy (2011). «Donde se muestran algunos resultados de atribución de autor en torno a la obra cervantina». Revista Colombiana de EstadÃstica 34 (1): pp. 15-37. <http://www.scielo.org.co/pdf/rce/v34n1/v34n1a02.pdf> (17/6/2016).
Madrigal, José Luis (2003). «De cómo y por qué La tÃa fingida es de Cervantes». Artifara 2. <http://www.cisi.unito.it/artifara/rivista2/testi/tiafingida.asp> (17.6.2016).
Madrigal, José Luis (2005). «El “Quijote†de Avellaneda, un crimen literario casi perfecto» Voz y letra: Revista de literatura 16 (1): pp. 247-294.
MartÃn Jiménez, Alfonso (2007). «Cotejo por medios informaÌticos de la “Vida†de Pasamonte y el “Quijote†de Avellaneda». Etiópicas 3: pp. 69-131. <http://www.uhu.es/revista.etiopicas/num/03/art_3_3.pdf> (17/6/2016).
Mendenhall, Thomas (1901). «A mechanical solution of a literary problem». Popular Science Monthly 60: pp. 97-105.   <https://en.wikisource.org/wiki/Popular_Science_Monthly/Volume_60/December_1901/A_Mechanical_Solution_of_a_Literary_Problem> (17/6/2016).
Merriam, Thomas (2013). «“Sir Thomas Moreâ€; sin estilometrÃa». Nueva revista de polÃtica, cultura y arte 146: pp. 119-134.
Montoya MartÃnez, Jesús y Antonio Rubio Flores (1994). «De la comparación a la metáfora en Alfonso X. Cuestiones de estilometrÃa en la prosa de la Partida Segunda». Actas Primer Encuentro Interdisciplinar sobre Retórica, texto y Comunicación Cádiz 9, 10, 11 de diciembre de 1993. Cádiz: Universidad Servicio de Publicaciones. pp. 156-162.
Mosteller, Frederick y David L. Wallace (1964). Inference and disputed authorship: The Federalist. Reading: Addison-Wesley.
Niederkorn, William S. (2002, 20 junio). «A Scholar Recants on His “Shakespeare†Discovery». The New York Times.   <http://www.nytimes.com/2002/06/20/arts/a-scholar-recants-on-his-shakespeare-discovery.html> (17/6/2016).
Riquer, MartÃn de (1988). Cervantes, Passamonte y Avellaneda. Barcelona: Sirmio.
Rissler-Pipka, Nanette (2016a). «Avellaneda y los problemas de la identificación del autor. Propuestas para una investigación con nuevas herramientas digitales». Ed. Hanno Ehrlicher. El otro Don Quijote. La continuación de Fernández de Avellaneda y sus efectos. Ausburgo: Institut für Spanien, Portugal- und Lateinamerikastudien (ISLA). pp. 27-51.
Rissler-Pipka, Nanette (2016b). «Der falsche Quijote? Autorschaftsattribution für spanische Prosa der frühen Neuzeit», DHd 2016 Modellierung, Vernetzung, Visualisierung, pp. 212-217. <http://dhd2016.de/boa.pdf> (17/6/2016).
Stamatatos, Efstathios (2009). «A survey of modern authorship attribution methods». Journal of the American Society for Information Science and Technology. <http://www.icsd.aegean.gr/lecturers/stamatatos/papers/survey.pdf> (17/6/2016).
Troya Déniz, Magnolia (2015). «Quizá(s) y tal vez en novelistas de España y América». Philologica canariensia 21. pp. 109-132. <http://ojsspdc.ulpgc.es/ojs/index.php/PhilCan/article/view/382> (17/6/2016).
8. Apéndice I
8.1 Lista de las novelas históricas analizadas
Autor | TÃtulo | Año de publicación |
Jesús Sánchez Adalid | Alcazaba | 2012 |
Jesús Sánchez Adalid | El alma de la ciudad | 2007 |
Jesús Sánchez Adalid | El caballero de Alcántara | 2008 |
Jesús Sánchez Adalid | El Cautivo | 2005 |
Jesús Sánchez Adalid | El mozárabe | 2001 |
Jesús Sánchez Adalid | La sublime puerta | 2006 |
Almudena de Arteaga | Ãngeles custodios | 2010 |
Almudena de Arteaga | Capricho | 2012 |
Almudena de Arteaga | Catalina de Aragón, reina de Inglaterra | 2002 |
Almudena de Arteaga | El desafÃo de las damas | 2006 |
Almudena de Arteaga | La esclava de marfil | 2005 |
Almudena de Arteaga | Eugenia de Montijo | 2000 |
Matilde Asensi | La conjura de Cortes | 2012 |
Matilde Asensi | Iacobus | 2000 |
Matilde Asensi | El origen perdido | 2003 |
Matilde Asensi | El salón de Ãmbar | 1999 |
Matilde Asensi | Tierra Firme | 2007 |
Matilde Asensi | El último Catón | 2001 |
José Luis Corral | ¡Independencia! | 2005 |
José Luis Corral | El invierno de la corona | 1999 |
José Luis Corral | Numancia | 2003 |
José Luis Corral | Rey Felón | 2009 |
José Luis Corral | El salón dorado | 1996 |
José Luis Corral | Trafalgar | 2001 |
José Calvo Poyato | La Biblia negra | 2000 |
José Calvo Poyato | Conjura en Madrid | 1999 |
José Calvo Poyato | La dama del dragón | 2008 |
José Calvo Poyato | Los galeones del rey | 2002 |
José Calvo Poyato | El Gran Capitán | 2015 |
José Calvo Poyato | Mariana, los hilos de la libertad | 2013 |
Peter Harris | El cÃrculo Octogunus | 2007 |
Peter Harris | La conspiración del templo | 2006 |
Peter Harris | El enigma de Vivaldi | 2005 |
Peter Harris | El mensajero del Apocalipsis | 2012 |
Peter Harris | El pintor maldito | 2013 |
Peter Harris | El secreto de peregrino | 2010 |
Ãngeles de Irisarri | La estrella peregrina | 2010 |
Ãngeles de Irisarri | Isabel, la reina | 2001 |
Ãngeles de Irisarri | La reina Urraca | 2000 |
Ãngeles de Irisarri | Romance de ciego | 2005 |
Ãngeles de Irisarri | El viaje de la reina | 1991 |
Ãngeles de Irisarri & Magdalena Lasala | Moras y cristianas | 1998 |
Ãngeles de Irisarri &
Esperanza MartÃnez de Lezea |
Perlas para un collar | 2009 |
Magdalena Lasala | La cortesana de Taifas | 2007 |
Magdalena Lasala | Doña Jimena. La gran desconocida en la historia del Cid | 2006 |
Magdalena Lasala | La estirpe de la mariposa | 1999 |
Magdalena Lasala | La última heredera | 2015 |
Esperanza MartÃnez de Lezea | La abadesa | 2002 |
Esperanza MartÃnez de Lezea | La calle de la juderÃa | 1998 |
Esperanza MartÃnez de Lezea | La comunera. MarÃa Pacheco, una mujer rebelde | 2003 |
Esperanza MartÃnez de Lezea | la herbolera | 2000 |
Esperanza MartÃnez de Lezea | El mensajero del rey | 2002 |
Esperanza MartÃnez de Lezea | A la sombra del templo | 2005 |
Esperanza MartÃnez de Lezea | Veneno para la corona | 2011 |
Arturo Pérez-Reverte | Cabo de Trafalgar | 2004 |
Arturo Pérez-Reverte | El asedio | 2010 |
Arturo Pérez-Reverte | El húsar | 1986 |
Arturo Pérez-Reverte | Hombres buenos | 2015 |
Javier Sierra | La cena secreta | 2004 |
Javier Sierra | La dama azul | 2008 |
Javier Sierra | La pirámide inmortal | 2014 |
Javier Sierra | Las puertas templarias | 2000 |
Javier Sierra | El secreto egipcio de Napoleón | 2002 |
César Vidal | El aprendiz de cabalista | 2003 |
César Vidal | La ciudad del rey leproso | 2009 |
César Vidal | El inquisidor decapitado | 2014 |
César Vidal | El judÃo errante | 2009 |
César Vidal | El médico de Sefarad | 2004 |
César Vidal | El testamento del pescador | 2004 |
9. Apéndice II
9.1. Lista de las novelas policiacas analizadas
Autor | TÃtulo | Año de publicación |
Alicia Giménez Bartlett | Un barco cargado de arroz | 2004 |
Alicia Giménez Bartlett | CrÃmenes que no olvidare | 2015 |
Alicia Giménez Bartlett | DÃa de perros | 1997 |
Alicia Giménez Bartlett | Mensajeros de la oscuridad | 1999 |
Alicia Giménez Bartlett | Muertos de papel | 2000 |
Alicia Giménez Bartlett | Nadie quiere saber | 2013 |
Alicia Giménez Bartlett | Nido vacÃo | 2007 |
Alicia Giménez Bartlett | Ritos de muerte | 1996 |
Alicia Giménez Bartlett | Serpientes en el paraÃso | 2002 |
Alicia Giménez Bartlett | El silencio de los claustros | 2009 |
Francisco GarcÃa Pavón | Historias de Plinio | 1968 |
Francisco GarcÃa Pavón | Las hermanas coloradas | 1970 |
Francisco GarcÃa Pavón | Los carros vacÃos | 1965 |
Francisco GarcÃa Pavón | El rapto de las sabinas | 1969 |
Francisco GarcÃa Pavón | El reinado de Witiza | 1968 |
Francisco González Ledesma | Las calles de nuestros padres | 1983 |
Francisco González Ledesma | Crónica sentimental en rojo | 1984 |
Francisco González Ledesma | La dama de Cachemira | 1986 |
Francisco González Ledesma | Expediente Barcelona | 1983 |
Francisco González Ledesma | Historia de Dios en una esquina | 1991 |
Juan Madrid | Las apariencias no engañan | 1982 |
Juan Madrid | Asuntos de rutina | 2010 |
Juan Madrid | Un beso de amigo | 1980 |
Juan Madrid | Cuentas pendientes | 1995 |
Juan Madrid | Flores, el gitano | 2010 |
Juan Madrid | El hombre del reloj | 2010 |
Juan Madrid | Mujeres & Mujeres | 1995 |
Juan Madrid | Regalo de la casa | 1986 |
Luis Gutiérrez Maluenda | un buen lugar para reposar | 2012 |
Luis Gutiérrez Maluenda | Mala hostia | 2011 |
Luis Gutiérrez Maluenda | RuÃdo de cañerÃas | 2012 |
Dolores Redondo | El guardian invisible | 2012 |
Dolores Redondo | Legado en los huesos | 2013 |
Dolores Redondo | Ofrenda a la tormenta | 2014 |
Lorenzo Silva | El alquimista impaciente | 2000 |
Lorenzo Silva | La estrategia del agua | 2010 |
Lorenzo Silva | El lejano paÃs de los estanques | 1998 |
Lorenzo Silva | La niebla y la doncella | 2002 |
Lorenzo Silva | La reina sin espejo | 2005 |
Domingo Villar | Ojos de Agua | 2006 |
Domingo Villar | la playa de los ahogados | 2009 |
Manuel Vázquez Montalbán | Asesinato en el Comité Central | 1981 |
Manuel Vázquez Montalbán | Los mares de Sur | 1979 |
Manuel Vázquez Montalbán | La soledad del mánager | 1977 |
Manuel Vázquez Montalbán | Tatuaje | 1974 |
Manuel Vázquez Montalbán | Yo maté a Kennedy | 1971 |
Carlos Zanón | Yo fui Johnny Thunders | 2014 |
Carlos Zanón | No llames a casa | 2014 |
Carlos Zanón | Tarde, mal y nunca | 2009 |
10. Apéndice III
10.1.Datos adjuntos
En el fichero de datos complementarios (“fradejas_datos.zipâ€), que se encuentra en <http://revistacaracteres.net/wp-content/uploads/2016/11/fradejas_datos.zip>, una vez descomprimido, en el primer nivel, se encuentran los ficheros “historica.txt†y “policiaca.txt†que contienen una tabla (separada con tabuladores) que recoge las informaciones básicas de cada uno de los textos considerados (autor, tÃtulo, año de publicación, nombre abreviado –que es el que se utiliza en los dendrogramas–) y las estadÃsticas descriptivas básicas (número de párrafos, número de palabras-token, número de palabras-tipo, ratio token-tipo, número de caracteres, número de palabras por párrafo, número de caracteres por párrafo y número de caracteres por palabra). Los subdirectorios “historica-frecuencia-textosâ€, “policiaca-frecuencia-textos†y “Kane+Moriel-frecuencias-textos†contienen un fichero por cada una de las novelas analizadas; en cada uno de ellos se halla el texto Ãntegro de la novela en forma de una tabla (separada con tabuladores) con todas las palabras tipo que constituyen el texto con sus frecuencias absolutas y relativas. Los subdirectorios “historica-tablasâ€, “policial-tablasâ€, “policial+ampliado-tablas†contienen dos tipos de ficheros: el de frecuencias y la lista de palabras (wordlist) que stylo ha manejado para realizar los análisis de grupos; pueden ser de las palabras consideradas individualmente o de los bigramas. En el subdirectorio “historica-tablas†algunos ficheros acaban en “4Manosâ€, esos contienen las listas de palabras y las tablas de frecuencias de los textos del corpus histórico una vez editadas las novelas coescritas. Los ficheros de los subdirectorios acabados en “–tablas†han sido generados por stylo. Todos los ficheros están en texto plano (UTF-8 y Unix LF) y pueden ser importados con sencillez en hojas de cálculo o reimportados en cualquier programa capaz de leer ficheros separados con tabuladores.
· Descargar el vol.5 nº2 de Caracteres como PDF. · Descargar este texto como PDF. · Regresar al Ãndice de la edición web. |
- Una relación y breve exposición de algunos de los métodos más usuales se puede ver en Gil-Albarellos (2011).↵
- En Dialnet (https://dialnet.unirioja.es/servlet/articulo?codigo=4533246, acceso 17-06-2016) se localiza otro artÃculo en el que aparece el término estilometrÃa pero que no es sino la versión al español (Merriam, 2013) del artÃculo Thomas Merriam publicado en Notes and Queries, 241 (1997), por lo que no se puede tener en cuenta. Asimismo, se mencionan dos tesis doctorales realizadas en las universidades politécnicas de Cataluña y Valencia.↵
- Estos recuentos también los hicieron con M. Cervantes, A. Dumas, J. V. von Scheffel, A. Boito, Julio César y EurÃpides (Mendenhall, 1901: 100-101, figs. 2 y 3).↵
- Alexander Hamilton (1755–1804) es uno de los padres fundadores de los Estados Unidos de América y creador del sistema financiero estadounidense. James Madison (1751-1836) fue el cuarto presidente de Estados Unidos (1809–1817) y un teórico polÃtico. John Jay (1745–1829) fue uno de los signatarios del Tratado de ParÃs (1783) por medio del cual se dio por concluida la guerra de independencia americana y también fue el primer presidente del Tribunal Supremo de Estados Unidos.↵
- De acuerdo con el análisis de FrÃas Delgado (2009) la longitud de palabras no es un discriminador de autorÃa.↵
- Su tesis doctoral trató de establecer si «Funeral Elegy [for] William Peter», firmada con las iniciales W. S. e impresa por Georg Eld para el librero londinense Thomas Thorp, las mismas personas que se hicieron cargo de la publicación de los sonetos de Shakespeare en 1609, habÃa sido escrita por Shakespeare. No llegó a una conclusión definitiva, tan solo lo sugirió (Foster, 1989). Años más tarde se incluyó en tres ediciones estándar de Shakespeare, pero en 2002 Foster reconoció que se habÃa equivocado (Niederkorn, 2002).↵
- Durante el proceso de maquetación de estas páginas saltó a los medios de comunicación que Elena Ferrante es la traductora Anita Raja. Ahora que ya hay una posible candidata serÃa el momento de proceder a los análisis estilométricos para establecer si Anita Raja es Elena Ferrante. El problema: no hay obras escritas por Anita Raja con las que comparar las novelas de Ferrante. Luego el misterio continúa.↵
- Un dendrograma es una representación arbórea de los datos. En gran medida es semejante a los stemma utilizados en crÃtica textual o a los cladogramas que se emplean en biologÃa; solo que nos referimos a estos esquemas como dendrogramas cuando son el resultado de la aplicación de un algoritmo de agrupación jerárquica.↵
- Los textos se han extraÃdo de las versiones ePub creadas por la Biblioteca Virtual Cervantes (http://www.cervantesvirtual.com) y distribuidas con el e-reader Papyre 6.1. Posteriormente se etiquetaron sucintamente de acuerdo con el sistema de marcado de la Text Encoding Initiative (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/) según el siguiente esquema: cada capÃtulo constituye un <div>, el tÃtulo y número de capÃtulo se marca con <head>, y el texto con <p> para cada párrafo, entendiendo por párrafo cada vez que hay un punto y aparte. No se ha tenido en cuenta ninguna otra caracterÃstica gráfica. Evidentemente, esta colección requiere una revisión ulterior.↵
- Se entienden por palabras token todas y cada una de las palabras que constituyen un texto, con independencia de cuántas veces aparezca cada una de ellas. En cambio, las palabras tipo son cada una de las palabras diferentes que conforman el texto. AsÃ, en el enunciado inicial del Quijote («En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivÃa un hidalgo de los de lanza en astillero, adarga antigua, rocÃn flaco y galgo corredor») hay 33 palabras-token, pero solo 27 palabras-tipo puesto que la preposición de, que aparece cuatro veces (tokens), solo se cuenta como un único tipo y lo mismo sucede con en, un y no, todas ellas aparecen dos veces, pero tan solo constituyen un tipo cada una de ellas. Por otra parte, a efectos de estos análisis, se entiende por palabra la secuencia de caracteres alfabéticos o numéricos entre dos espacios o delimitada por un signo de puntuación. Véase también la nota 16.↵
- PodrÃa haber complicado el problema si hubiera incluido Trafalgar de José Luis Corral (2001), pero, como se verá, no habrÃa cambiado el resultado.↵
- La versión de stylo empleada ha sido la 0.6.3 y se ha ejecutado con la versión 3.2.2 de R en un Apple iMac (21,5â€, con procesador Intel Core 2 Duo @ 3,06 GHz y 4 GB de memoria RAM) bajo OS X Yosemite (OS X 10.10.5).↵
- Francisco González Ledesma (1927-2015) ha utilizado otros seudónimos como Taylor Nummy, Silvia Valdemar o Rosa Alcázar, bajo este último ha escrito novelas románticas.↵
- PodrÃamos llevarnos una sorpresa: que alguna novela no haya sido escrita por quien dice que la ha escrito, sino que hubiera sido de un autor fantasma (ghostwriter). Pero no ha sido el caso.↵
- Según las normas ortográfica de las RAE y de acuerdo con las normativas internacionales, el separador de millares consiste en «introducir un pequeño espacio en blanco, lo que se conoce en tipografÃa como espacio fino» (663), y «no deben utilizarse ni el punto ni la coma para separar los grupos de tres dÃgitos en la parte entera de un número» (664). Otro problema lo constituyen las fechas separadas por puntos (1.10.15) y los números de teléfono.↵
- Esto es algo sutil. Se consideran caracteres palabra cualquier carácter que sea una letra (con y sin diacrÃticos, de cualquier alfabeto), cualquier número (0 a 9) y el guion bajo (underscore), todo lo demás es no palabra.↵
- En verdad son 122, pues al final se añadieron tres novelas firmadas por Silver Kane y una cuarta firmada por Enrique Moriel al elenco policiaco.↵
- No podemos facilitar acceso al corpus por evidentes razones legales, sin embargo, se puede acceder a todo el material procesado en <http://revistacaracteres.net/wp-content/uploads/2016/11/fradejas_datos.zip>. Véase al final de este artÃculo el apéndice III, titulado «Datos adjuntos» para una explicación detallada del contenido del fichero fradejas_datos.zip.↵
- Tan solo enunciamos los métodos, quien esté interesado en la fórmulas matemáticas que subyacen véase Eder, Rybicki y Kestemont (2013: 15-17).↵
- Para una explicación sencilla de cómo se realiza este tipo de análisis veáse Calvo Tello (2016).↵
- En aquel caso se utilizó la distancia Euclidiana. Utilizando esta medida los errores de agrupamiento son numerosos tanto con 25 como con 100 como con 1000 palabras. Según Eder, Rybick y Kestemont (2013: 15-16) la distancia Euclidiana, aunque es básica y la más natural, se debe evitar en los análisis estilométricos basados en la frecuencia de palabras, salvo que estén normalizadas, que es el caso de la fórmula Delta introducida por Burrows (2002) o incluso la Delta Lineal de Argamon (2008) que no deja de ser una distancia Euclidiana aplicada la frecuencias de palabras normalizadas (z-scored). Pero no merece la pena introducirnos en las complejidades matemáticas que subyace en todo esto, como bien indica en varias ocasiones Juola (2006), pero puede verse una explicación muy sencilla en Calvo Tello (2016).↵
- Hay dos interesantes ensayos sobre el Avellaneda y su análisis estilométrico con stylo de mano de Rissler-Pipka (2016a), pero en uno de ellos –«Der falsche Quijote?» (Rissler-Pipka, 2016b)–, en el que ha aplicado la distancia del coseno (Consine Distance), los gráficos son ilegibles y no puede verse cómo se sitúa el Avellaneda.↵