Corpus Notarial y Sint√°ctico del Asturiano Medieval (CoNSAM-XIII)

Syntactic Notarial Corpus of Medieval Asturian (CoNSAM-XIII)

Rosabel San Segundo-Cachero (Universidad de Zaragoza)

Artículo recibido: 30-09-2017 | Artículo aceptado: 01-12-2017

RESUMEN: El Corpus Notarial y Sint√°ctico del Asturiano Medieval (CoNSAM-XIII) es un repositorio sint√°ctico integrado por 50 documentos notariales del siglo XIII procedentes del Archivo Catedralicio de Oviedo y del Archivo Municipal de Avil√©s en el que es posible buscar construcciones espec√≠ficas y controlar m√ļltiples variables al mismo tiempo mediante la combinaci√≥n de criterios lineales y estructurales. Para su creaci√≥n se han utilizado herramientas inform√°ticas de software libre y un sistema de anotaci√≥n sint√°ctica (Magro, Galves y Carrilho, 2016) basado en el est√°ndar Penn-Helsinki (Kroch y Taylor, 2000) que permite la consulta mediante el motor de b√ļsqueda CorpusSearch (Randall, 2005) y facilita la comparaci√≥n con otras lenguas anotadas con el mismo sistema.
ABSTRACT: The Syntactic Notarial Corpus of Medieval Asturian (CoNSAM-XIII) is a syntactic repository made up of 50 notarial deeds from the 13th century, kept in the Oviedo Cathedral Archive and the Avilés Municipal Archive. It enables us to search specific constructions and to select multiple variables simultaneously by combining linear and structural criteria. In order to create it free software tools and a syntactic annotation system (Magro, Galves y Carrilho, 2016) based on the standard Penn-Helsinki (Kroch y Taylor, 2000) have been used. This annotation system allows for queries and comparative studies among languages annotated according to the same standard by using the searcher CorpusSearch (Randall, 2005).

PALABRAS CLAVE: Sintaxis diacr√≥nica, ling√ľ√≠stica de corpus, anotaci√≥n sint√°ctica, asturiano medieval, documentos notariales
KEY WORDS: Diachronic Syntax, Corpus Linguistics, parsing, Medieval Asturian, notarial documents

La creación del corpus es parte del proyecto Sintaxis diacrónica del asturleonés (s. XIII): estructura oracional y orden de constituyentes (ACA14-11), desarrollado en el Centro de Linguistica da Universidade de Lisboa y financiado por la Comisión Europea y el Gobierno del Principado de Asturias a través del programa de ayudas postdoctorales Marie-Curie-Clarín-COFUND (2014-2016).

Quiero expresar mi gratitud al Centro de Ling√ľ√≠stica da Universidade de Lisboa por poner a mi disposici√≥n todos los medios necesarios para el desarrollo del proyecto y especialmente a Ana Maria Martins y a Sandra Pereira. Agradezco tambi√©n a Xos√© Lluis Garc√≠a Arias su ayuda con la interpretaci√≥n de algunas palabras de los textos. No obstante, solo yo soy responsable de cualquier error o incoherencia que pueda haber en el an√°lisis.


1. Introducción

La investigaci√≥n ling√ľ√≠stica se ha beneficiado en las √ļltimas d√©cadas de los avances de las nuevas tecnolog√≠as y de las herramientas inform√°ticas que se han ido desarrollando. As√≠, en el caso del espa√Īol ha sido posible la creaci√≥n de grandes corpus de diverso tipo y finalidad como el CORDE (RAE), el CREA (RAE), el Corpus del Espa√Īol (Davies, 2001-2016), la Biblia Medieval (Enrique-Arias y Pueyo Mena) o el CODEA+2015 (GITHE), que son en la actualidad obras de referencia para cualquier ling√ľista. No obstante, la obtenci√≥n de datos para el estudio de la sintaxis sigue siendo tarea ardua, porque, aunque algunos corpus permiten consultar ciertas combinaciones de unidades, no es posible buscar estructuras sint√°cticas mediante criterios de dependencia estructural.

En este sentido, la ling√ľ√≠stica portuguesa ha avanzado notablemente, ya que cuenta con un corpus hist√≥rico desarrollado en Brasil, Corpus Hist√≥rico do Portugu√™s Tycho-Brahe (Tycho-Brahe) (Galves y Britto, 2010) y otro, en Lisboa por el equipo WOChWEL (Martins, 2015), un corpus dialectal sincr√≥nico del √°rea portuguesa Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) (Martins, 2010), y un corpus epistolar luso-hisp√°nico, Post Scriptum (PS) (CLUL, 2014) cuyos sistemas de etiquetado y anotaci√≥n morfosint√°cticos son una adaptaci√≥n del est√°ndar Penn-Helsinki (Kroch y Taylor, 2000, Kroch et. al., 2004, 2016, Santorini, 2016), lo que facilita la consulta de los corpus y favorece los estudios comparativos con lenguas que empleen en mismo sistema de anotaci√≥n. Por ello, cuando comenc√© a estudiar la sintaxis del romance asturiano medieval y me percat√© de la ausencia de recursos informatizados, decid√≠ crear un peque√Īo corpus sint√°ctico que resultase representativo del periodo estudiado y adoptar la metodolog√≠a de los citados corpus portugueses.

En esas circunstancias y con ese objetivo surge el Corpus Notarial y Sintáctico del Asturiano Medieval (CoNSAM-XIII), que contiene 50 documentos notariales del siglo XIII, procedentes del Archivo Catedralicio de Oviedo (ACO) y del Archivo Municipal de Avilés (AMA). En las siguientes páginas describiré cómo se han procesado los textos y qué tipo de información morfológica y sintáctica se codifica en el corpus, así como la clase de consultas que se pueden realizar y las ventajas de usar un recurso de este tipo para estudiar la sintaxis.

2. ¬ŅPor qu√© un corpus notarial?

La importante labor legislativa, cultural y filol√≥gica llevada a cabo durante el reinado de Fernando III y Alfonso X convierte al romance castellano y a la escritura toledana en el modelo ling√ľ√≠stico de la √©poca, que se impone en los documentos oficiales de la canciller√≠a castellano-leonesa. Sin embargo, en Asturias, la zona m√°s perif√©rica del reino, el romance asturleon√©s se mantiene en los documentos de car√°cter privado y local, escritos por notarios, cuya formaci√≥n se supone inferior a la de los altos funcionarios de la canciller√≠a. Por lo tanto, los √ļnicos textos disponibles actualmente para estudiar el romance medieval asturiano son los documentos notariales escritos entre la segunda mitad del siglo XIII (antes solo hay fragmentos romances en textos latinos) y finales del siglo XIV, pues en el siglo XV concluye el proceso de castellanizaci√≥n y el asturleon√©s desaparece del registro escrito hasta siglos despu√©s (Morala, 2004 y Garc√≠a Arias, 2013).

Lejos de lo que pueda parecer por sus caracter√≠sticas textuales (Mar√≠n Mart√≠nez, 1991, D√≠ez de Revenga, 1994, Garc√≠a Valle, 2004), el documento notarial constituye una importante fuente de informaci√≥n ling√ľ√≠stica para el estudio de la sintaxis diacr√≥nica y de la dialectolog√≠a hist√≥rica, no solo por su abundancia¬† y similitud en todo el territorio peninsular¬† y en los distintos dominios ling√ľ√≠sticos, sino tambi√©n porque las constricciones del patr√≥n textual limitan las posibilidades interpretativas de las estructuras sint√°cticas y de la disposici√≥n de constituyentes, al mismo tiempo que su naturaleza performativa (Mar√≠n Mart√≠nez, 1991, Bono Huerta, 1992) lo hace permeable a rasgos diat√≥picos, diaf√°sicos y diastr√°ticos que no est√°n presentes en otros textos (Men√©ndez Pidal, 1926).

3. Descripción y composición del corpus

La creación del corpus CoNSAM-XIII es, como he apuntado antes, consecuencia de la necesidad contar con una muestra representativa de las características sintácticas del asturleonés del siglo XIII, por lo que se han descartado textos de la primera mitad del siglo, cuya sintaxis es fundamentalmente latina, y los que no fueron escritos por notarios asturianos.

El CoNSAM-XIII está integrado por 50 documentos notariales originales,[1] 36 procedentes del ACO (testamentos, cartas de donación y venta) y 14, del AMA (cartas de vecindad, pleitos vecinales), todos ellos editados por Menéndez Gómez (2008) y publicados por la Academia de la Llingua Asturiana. Lo que ofrece este corpus no es, pues, una nueva edición de los textos, sino un repositorio de estructuras sintácticas, para cuya creación ha sido necesario modificar y simplificar el formato de la edición paleográfica utilizada en aras de obtener un texto compatible con las herramientas utilizadas para su procesamiento morfológico y sintáctico, como explicaré en el siguiente apartado. Por lo tanto, el lector no debe esperar unos resultados como los que ofrecen el CODEA+2015 o PS, en los que es posible ver el original y distintos tipos de ediciones y presentaciones.

Lo que ofrece el CoNSAM-XIII es un conjunto de ficheros constituido por dos versiones de cada documento que corresponden a sendas fases del procesamiento computacional:

  1. Versi√≥n morfol√≥gica: los textos √ļnicamente llevan etiquetas morfol√≥gicas del sistema estandarizado POS (part of speech) pero no han sido sometidos al analizador sint√°ctico o parser. Convertida en TXT, esta versi√≥n puede ser utilizada con otros analizadores o puede convertirse a otro formato de etiquetado morfol√≥gico.
  2. Versión sintáctica: los ficheros contienen el análisis sintáctico de los documentos, oración por oración, representado mediante estructuras parentéticas. Convertidos en ficheros PSD, son compatibles con el buscador CorpusSearch (Randall, 2005).

Los ficheros se agrupan en dos carpetas: una para los que contienen la versi√≥n morfol√≥gica (CoNSAMXIII_POS) y otra para los que contienen la versi√≥n sint√°ctica (CoNSAMXIII_SYP). Para su correcta identificaci√≥n, los ficheros llevan por nombre la referencia oficial de los manuscritos, a la que se a√Īaden las codas _POS y _SYP (syntactic parsing), respectivamente. El listado completo puede consultarse en el anexo 1, donde cada texto aparece con la referencia identificativa oficial y la referencia simplificada (conforme a los requisitos de las herramientas computacionales) que se utiliza dentro de los textos ya procesados para identificar y numerar todos los p√°rrafos.

En total se han etiquetado y analizado morfosint√°cticamente 23.529 palabras: 17.130 corresponden a los 34 textos del ACO y 6.399, a los 16 textos del AMA. Dada su importancia hist√≥rica y ling√ľ√≠stica, los documentos notariales que integran el CoNSAM-XIII se han analizado en su totalidad, sin omitir partes formulares ni fragmentos en lat√≠n, ya que los formulismos tambi√©n sufren cambios a lo largo del tiempo y se observan diferencias entre notarios, lo que puede resultar de inter√©s para distintos tipos de investigaciones.

4. Procesamiento de los textos

El procesamiento morfosint√°ctico se inicia a partir de un texto sin formato y se realiza en tres etapas en las que se utilizan sendas herramientas inform√°ticas:

  1. etiquetado morfológico POS (part of speech) con eDictor (Faria, Kepler & Paixão de Sousa, 2010);
  2. análisis sintáctico automático (parsing) con el parser de Bikel (2004a, b), un analizador sintáctico de base estadística que segmenta automáticamente los textos ya etiquetados por eDictor y establece una delimitación de los constituyentes;
  3. revisión y corrección manual mediante la herramienta CorpusDraw, un complemento de CorpusSearch (Randall, 2005), que permite la visualización del texto en estructuras arbóreas editables.

Estas herramientas fueron dise√Īadas para los corpus diacr√≥nicos del ingl√©s, (Kroch y Taylor, 2000, Kroch et. al., 2004, 2016), en la Universidad de Pensilvania y posteriormente se adaptaron al portugu√©s para elaborar los corpus Tycho-Brahe, CORDIAL-SIN, WOChWEL y PS. Las etiquetas que se utilizan, tanto las morfol√≥gicas como las sint√°cticas, constituyen un sistema estandarizado y pueden emplearse de forma generalizada en las lenguas iberorrom√°nicas para delimitar los constituyentes y los niveles estructurales, sin que ello implique renuncia alguna a reflejar las particularidades sint√°cticas de cada lengua, pues es tarea del investigador o del equipo de investigaci√≥n establecer unos criterios para representar las estructuras sint√°cticas y para determinar el etiquetado que se va a emplear. Explicar√© a continuaci√≥n en qu√© consiste cada etapa del procesamiento y qu√© pautas se han seguido para la asignaci√≥n de etiquetas.

4.1. El texto sin formato: la presentación crítica

El paso previo al etiquetado morfol√≥gico es la conversi√≥n de la edici√≥n paleogr√°fica de los documentos (Men√©ndez G√≥mez, 2008) en un texto legible por el etiquetador morfosint√°ctico de eDictor. Vid. (1) y (2). Para ello es necesario eliminar todas las marcas tipogr√°ficas (cursiva, super√≠ndice, sub√≠ndice, etc.), regular la puntuaci√≥n y el uso de las may√ļsculas para tratar de reflejar la sintaxis del original y facilitar la segmentaci√≥n de constituyentes. El resultado es algo similar a lo que se denomina ‚Äúpresentaci√≥n cr√≠tica‚ÄĚ (AA.VV., 2013): un texto que se mantiene fiel al original, pero que ha sido regularizado en mayor o menor medida de acuerdo a una determinada finalidad. En el caso del CoNSAM-XIII se ha querido alterar lo menos posible la edici√≥n paleogr√°fica y, por ello, se han aplicado los siguientes criterios:

  1. a) no se alteran las grafías ni la acentuación de la edición paleográfica utilizada;
  2. b) se eliminan las marcas de edici√≥n, a excepci√≥n de los tres puntos entre corchetes [‚Ķ] que se√Īala las partes del texto perdidas o no legibles;
  3. c) se regulariza el uso de las may√ļsculas conforme a los criterios actuales;
  4. d) el signo tironiano se desarrolla siempre como et para evitar decantarse por una forma concreta de la conjunción copulativa, ya que en los textos puede aparecer de distintas formas (et, e, hie);
  5. e) se intenta reflejar en la medida de lo posible la sintaxis de la época mediante el sistema de puntuación actual; pero
  6. f) se mantiene la uni√≥n y separaci√≥n de palabras de la edici√≥n paleogr√°fica y se pospone hasta la fase de an√°lisis sint√°ctico la delimitaci√≥n de las unidades ling√ľ√≠sticas conforme a los criterios gramaticales actuales, pero sin perder informaci√≥n con respecto a la uni√≥n que pudiera existir en el original.

 

  • Fragmento de la edici√≥n paleogr√°fica (Men√©ndez G√≥mez ,2008: 49):

[‚Ķ] mandamos per manda ŌĄ so pena de la /12 fiadoria que se contien en el compromisso que sont dos mill maravedis dela moneda noua./ quel Concellow de abilles entreguen luego alos vezinosx de Ouiedo los pannos quellos prindaron¬† (AMA, 23, 1289)

 

  • Fragmento de la presentaci√≥n cr√≠tica:

[…] mandamos per manda et so pena de la fiadoria que se contien en el compromisso, que sont dos mill maravedis dela moneda noua, quel Concello de Abilles entreguen luego alos vezinos de Ouiedo los pannos quellos prindaron (AMA, 23, 1289)

4.2. El etiquetado morfosint√°ctico

Una vez preparado, el texto sin formato es procesado por el etiquetador de eDictor, que asigna a cada palabra una etiqueta morfosintáctica conforme al sistema estandarizado POS utilizado para el portugués (Britto et al. 2016, Magro y Morgado, 2008,  Martins, 2015).

Como se puede ver en las tablas del anexo 2, las etiquetas POS indican la clase, l√©xica o funcional, a la que pertenece cada palabra,[2] as√≠ como los rasgos flexivos y/o sem√°nticos asociados a cada categor√≠a, que se expresan mediante subetiquetas. Por lo que respecta a los verbos, se establece una distinci√≥n entre los verbos l√©xicos /VB y los que pueden utilizarse tambi√©n como auxiliares en funci√≥n del contexto (ser/SR, estar/ET, haber/HV, tener/TR) y solo se reflejan cuatro tiempos verbales, cuyas etiquetas pueden combinarse con la etiqueta de subjuntivo /-S. Obs√©rvese que el etiquetado no refleja los rasgos considerados no marcados, como el g√©nero masculino, el n√ļmero singular o el modo indicativo.

La configuraci√≥n del etiquetador eDictor permite asignar a un segmento ling√ľ√≠stico integrado por distintas unidades una etiqueta compleja, compuesta por tantas etiquetas como unidades contenga el segmento ling√ľ√≠stico en cuesti√≥n, separadas por el signo +. Sin embargo, dado que el parser no puede leer estas etiquetas complejas, como paso previo al an√°lisis sint√°ctico, es necesario separar las palabras que, respetando la edici√≥n paleogr√°fica, se han mantenido juntas. Para separarlas se adoptan criterios lexicol√≥gicos vigentes en la √©poca del texto y se les asignan individualmente las etiquetas, dejando constancia de la uni√≥n gr√°fica de las palabras mediante la inserci√≥n del s√≠mbolo @ en el punto de uni√≥n.

  • Fragmento versi√≥n morsint√°ctica (AMA,23,1289_POS)

mandamos/VB-P per/P manda/N et/CONJ so/P pena/N de/P la/D-F fiadoria/N que/WPRO se/SE contien/VB-P en/P el/D compromisso/N ,/, que/WPRO sont/SR-P dos/NUM mill/NUM maravedis/N-P dela/P+D-F moneda/N noua/ADJ-F ,/, quel/C+D Concello/NPR de/P Abilles/NPR entreguen/VB-SP luego/ADV alos/P+D-P vezinos/N-P de/P Ouiedo/NPR los/D-P pannos/N-P quellos/WPRO+CL prindaron/VB-D (AMA1289,1.10)

  • Fragmento convertido en input del parser:

mandamos/VB-P per/P manda/N et/CONJ so/P pena/N de/P la/D-F fiadoria/N que/WPRO se/SE contien/VB-P en/P el/D compromisso/N ,/, que/WPRO sont/SR-P dos/NUM mill/NUM maravedis/N-P de@/P @la/D-F moneda/N noua/ADJ-F ,/, que@/C @l/D Concello/NPR de/P Abilles/NPR entreguen/VB-SP luego/ADV a@/P @los/D-P vezinos/N-P de/P Ouiedo/NPR los/D-P pannos/N-P que@/WPRO @llos/CL prindaron/VB-D (AMA1289,1.10)

4.3. El an√°lisis sint√°ctico

Una vez adaptado el output de eDictor a las condiciones de legibilidad del parser (Bikel, 2004a), se lleva a cabo el análisis sintáctico de forma automática. El parser es un analizador de base estadística que lee las etiquetas morfosintácticas y establece los límites entre constituyentes, atribuyéndoles una estructura y asignándoles unas etiquetas sintácticas basadas en un modelo formalista que refleja la proyección de categorías léxicas y funcionales y especifica su función sintáctica.

Como el analizador fue concebido para que sus resultados pudieran ser aceptados por la mayor√≠a de los modelos te√≥ricos, no hay ramificaci√≥n binaria de las estructuras (como en los modelos formalistas m√°s extendidos) y la categor√≠a verbal no proyecta, de manera que el verbo y todos sus argumentos y sat√©lites est√°n dominados por el nudo IP (Inflectional Phrase). Tambi√©n se utilizan categor√≠as vac√≠as, cuyo uso combinado con la coindexaci√≥n permite reflejar el movimiento de constituyentes, sin que ello implique la adopci√≥n de un modelo te√≥rico que asuma la existencia de tales categor√≠as. Estas etiquetas se utilizan como recurso o estrategia para localizar elementos desplazados y construcciones que de otro modo no podr√≠amos encontrar, como la subida de cl√≠ticos, movimiento de sintagmas interrogativos, etc. Recordemos que el objetivo de un corpus sint√°ctico no es otro que proporcionar material para investigaciones ling√ľ√≠sticas, por lo que no se pretende condicionar la interpretaci√≥n de los datos, sino facilitar su localizaci√≥n. En el anexo 3 pueden consultarse las etiquetas utilizadas en el CoNSAM-XIII, un subconjunto de la adaptaci√≥n portuguesa del sistema de anotaci√≥n sint√°ctica Penn-Helsinki realizada por equipos brasile√Īos¬† y portugueses (Galves 2008, Carrilho y Magro, 2011,) y unificada en Magro, Galves y Carrillo (2016).

El análisis sintáctico se representa en estructuras parentéticas (Figura 1) que pueden visualizarse como árboles sintácticos (Figura 2) si los ficheros PSD se abren con el editor CorpusDraw (Randall, 2005), una herramienta que permite la revisión y la corrección manual de las estructuras generadas automáticamente por el parser.

Figura 1. Análisis sintáctico: estructura parentética
Figura 2. Análisis sintáctico: estructura arbórea

4.4. El an√°lisis sint√°ctico en el CoNSAM-XIII: algunas precisiones

Aunque en el CoNSAM-XIII se utiliza el sistema de anotaci√≥n desarrollado para el portugu√©s, hay algunas divergencias en cuanto la representaci√≥n de determinadas estructuras que conviene tener en cuenta a la hora de realizar b√ļsquedas con CorpusSearch para estudios comparativos.

Las oraciones completivas no interrogativas seleccionadas por un verbo o por una preposici√≥n se etiquetan siempre como CP-THT; por el contrario, en los corpus portugueses se utiliza CP-ADV cuando la oraci√≥n subordinada est√° dominada por una preposici√≥n y todo el segmento desempe√Īa una funci√≥n no argumental. As√≠, para que ser√≠a (PP (P) (CP-THT)) en el corpus asturiano y (PP (P) (CP-ADV)) en los corpus portugueses.¬† En el caso de las oraciones con valor causal, si la preposici√≥n y el complementizador est√°n escritos como dos unidades independientes, por/P que/C, se analizan igual que para que (PP (P) (CP-THT)); mientras que, si ambas constituyen una √ļnica unidad (porque/C), entonces la subordinada es (CP-ADV).

Entre las oraciones relativas, las libres y semilibres se anotan de forma diferente a las relativas dependientes. Estas √ļltimas llevan la etiqueta CP-REL y est√°n dominadas por la proyecci√≥n m√°xima del n√ļcleo al que complementan (NP-ACC (N) (CP-REL)). Las otras dos, en cambio, se etiquetan como CP-FRL y no son hermanas de ning√ļn n√ļcleo. Si se trata de una relativa semilibre (el que, las que, etc.) o de una relativa libre encabezada por el pronombre quien, el nudo que domina a CP-FRL es NP, acompa√Īado de la subetiqueta que le corresponda seg√ļn su funci√≥n sint√°ctica. Si las relativas est√°n encabezadas por un adverbio relativo (donde, cuando, como, mientras, seg√ļn), en el CoNSAM-XIII se consideran relativas libres que desempe√Īan funciones adverbiales (Brucart, 1999), por lo que el nudo que las domina es ADVP. En cambio, en los corpus portugueses solo se procede de este modo cuando el adverbio relativo es el locativo onde, pues las subordinadas temporales se etiquetan como CP-ADV y las modales introducidas por como, aunque se etiquetan como CP-ADV, est√°n precedidas de un constituyente adverbial vac√≠o. En el CoNSAM-XIII, pues, se ha adoptado una representaci√≥n √ļnica para todos estos casos que parece reflejar de forma adecuada las caracter√≠sticas formales de estas estructuras con independencia de su contenido sem√°ntico.

5. B√ļsquedas autom√°ticas con CorpusSearch

La consulta autom√°tica del corpus est√° supeditada a la conversi√≥n de los ficheros en archivos PSD que sean legibles por el motor de b√ļsqueda CorpusSearch (Randall, 2005).[3] El modo de hacer las consultas o queries consiste en crear ficheros de texto y combinar en ellos operadores l√≥gicos con comandos de b√ļsqueda (basados en criterios de linealidad y jerarqu√≠a estructural) y etiquetas morfosint√°cticas. En (5) y (6) se presentan algunos ejemplos donde aparece la query con su glosa correspondiente y el resultado obtenido: en (5) se buscan estructuras en las que el OD es una completiva postverbal, y en (6) oraciones con ascenso de cl√≠ticos. El producto de la b√ļsqueda es un nuevo fichero de texto en el que aparecen las estructuras solicitadas con su correspondiente an√°lisis y el recuento total de los resultados.¬† Como explico en San-Segundo-Cachero (2017) con un caso pr√°ctico, es imprescindible conocer bien el sistema de anotaci√≥n sint√°ctica para poder realizar consultas precisas y evitar resultados no deseados. Puede consultarse una gu√≠a detallada para la realizaci√≥n de queries en http://corpussearch.sourceforge.net/ .

  • Consulta 1: V+completiva
Figura 3. Query 1

Glosa: oración subordinada con verbo no copulativo que domina a una oración completiva o interrogativa que aparece en posición postverbal.

Resultado: ‚ÄúEt faggo este otro que mando que sea firme et uala‚ÄĚ. (ACO1289,3,.9)

Figura 4. Resultado de query 1
  • Consulta 2: ascenso de cl√≠ticos
Figura 5. Query 2

Glosa: en cualquier oración, un sintagma nominal constituido por un clítico está coindexado con una huella de clítico y tiene como hermano un verbo finito al que precede.

Resultado: ‚Äúpor otros que los podan scomungar‚ÄĚ (ACO1281,1,9)

Figura 6. Resultado de query 2

6. Conclusiones

Aunque de reducido volumen, el corpus CoNSAM-XIII ofrece un repositorio de estructuras sintácticas representativas del romance asturleonés del siglo XIII procedentes de documentos notariales asturianos originales. No es, por supuesto, un trabajo concluido, sino un primer paso en la creación de una base de datos sintáctica más amplia. La descripción de la metodología y de las herramientas de acceso libre y gratuito utilizadas pretende ser un acicate para animar a quienes trabajan en el campo de la sintaxis a crear corpus sintácticos de diversas épocas, lenguas y tipologías textuales que faciliten el estudio comparado de la sintaxis dialectal, tanto diacrónica como sincrónica, de los romances peninsulares.

7. Referencias

Bikel, Dan (2004a). dbparser. Ubuntu 8.04 LTS. 32-bits. <http://www.tycho.iel.unicamp.br/~tycho/apps/dbparser-files/>.

Bikel, Dan (2004b). On the parameter space of generative lexicalized statistical parsing models. Tesis doctoral University of Pennsylvania. <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.107.2734&rep=rep1&type=pdf>.

Bono Huerta, Jos√© (1992). ‚ÄúConceptos fundamentales de la diplom√°tica notarial‚ÄĚ. Historia. Instituciones. Documentos 19: pp. 73-88.

Britto, Helena, Maria Clara Paix√£o de Sousa, Shirley Guedes y Charlotte Galves (2016). The Tycho Brahe Corpus Annotation System. Morphological Tags (POS and Inflectional). Universidade Estadual de Campinas (UNICAM). <http://www.tycho.iel.unicamp.br/corpus/manual/pos2016.html>. (26-11-2016).

Carrilho, Ernestina y Catarina Magro (2011). CORDIAL-SIN Syntactic Annotation System Manual. Centro de Linguistica, Universidade de Lisboa. <http://www.clul.ul.pt/cordial-sam/>. (24-7-2017).

Centro de Linguistica da Universidade de Lisboa (CLUL) (2014). P. S. Post Scriptum. Arquivo digital de escrita quotidiana em Portugal e Espanha na época moderna. <http://ps.clul.ul.pt>. (6-6-2017).

Davies, Mark. (2001-2016). Corpus del Espa√Īol. <https://www.corpusdelespanol.org/x.asp>. (15-9-2017).

D√≠ez de Revenga, Pilar (1985). ‚ÄúAn√°lisis de las lex√≠as complejas en documentos medievales murcianos‚ÄĚ. Estudios Ling√ľ√≠sticos de la Universidad de Alicante 3: pp. 193-208.

Enrique-Arias, Andrés, y F. Javier Pueyo Mena. Biblia Medieval [en línea]. <http://www.bibliamedieval.es>. (15-9-2017).

Faria, Pablo, F√°bio Kepler y Maria Clara Paix√£o de Sousa (2010). eDictor 1.0 beta10. <https://humanidadesdigitais.org/edictor/>. (7-8-2016).

Galves, Charlotte (2008). Tycho Brahe Parsed Corpus of Historical Portuguese. Syntactic Annotation System. Universidade Estadual de Campinas (UNICAM). <http://www.tycho.iel.unicamp.br/corpus/manual/syn-frm.html>. (18-5-2017).

Galves, Charlotte y Pablo Faria (2010). The Tycho Brahe Corpus of Historical Portuguese. Universidade Estadual de Campinas (UNICAM). <http://www.tycho.iel.unicamp.br/~tycho/>. (20-6-2017).

Garc√≠a Arias, Xos√© Lluis (2013). ‚ÄúConciencia lling√ľ√≠stica y testos asturianos medievales‚ÄĚ. Lletres Asturianes. Bolet√≠n de l‚ÄôAcademia de la Llingua Asturiana 108: pp. 87-106.

Garc√≠a Valle, Adela (2004). ‚ÄúLas f√≥rmulas jur√≠dicas medievales. Un acercamiento preliminar desde la documentaci√≥n notarial de Navarra‚ÄĚ. Anuario de historia del derecho espa√Īol 74: pp. 613-640.

GITHE (Grupo de Investigaci√≥n Textos para la Historia del Espa√Īol). CODEA+ 2015 (Corpus de Documentos Espa√Īoles Anteriores a 1800) [en l√≠nea]. <http://corpuscodea.es>. (15-9-2017).

Kroch, Anthony, Beatrice Santorini y Lauren Delfs (2004). The Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME). <http://www.ling.upenn.edu/ppche-release-2016/PPCEME-RELEASE-3>. (20-6-2017).

Kroch, Anthony, Beatrice Santorini y Ariel Diertani (2016). The Penn-Helsinki Parsed Corpus of Modern British English (PPCMBE2). <http://www.ling.upenn.edu/ppche-release-2016/PPCMBE2-RELEASE-1>.(20-6-2017).

Kroch, Anthony y Ann Taylor (2000). The Penn-Helsinki Parsed Corpus of Middle English (PPCME2). <http://www.ling.upenn.edu/ppche-release-2016/PPCME2-RELEASE-4>. (20-6-2017).

Magro, Catarina, Charlotte Galves y Ernestina Carrilho (2016). Portuguese Syntactic Annotation Manual. Lisboa/ Campinas: Centro de Linguística da Universidade de Lisboa/ Instituto de Estudos da Linguagem da Universidade de Campinas. Ms.

Magro, Catarina y Cristina Morgado (2008). CORDIAL-SIN POS Annotation Manual. Centro de Linguística, Universidade de Lisboa. <http://www.clul.ul.pt/english/sectores/variacao/cordialsin/pos_annotation_manual.pdf>. (2-9-2017).

Martins, Ana Maria (2015). Word Order and Word Order Change in Western European Languages. Centro de Linguística, Universidade de Lisboa. <http://alfclul.clul.ul.pt/wochwel/oldtexts.html>. (2-9-2017).

Martins, Ana Maria (coord.) (2000-2010). CORDIAL-SIN: Corpus Dialectal para o Estudo da Sintaxe. Centro de Linguística, Universidade de Lisboa. <http://www.clul.ul.pt/en/resources/411-cordial-corpus>. (6-5-2017).

Men√©ndez G√≥mez, Jes√ļs (ed.) (2008). Documentos orixinales del dominiu lling√ľ√≠sticu √°stur I. (1244-1299). Uvi√©u: Academia de la Llingua Asturiana.

Men√©ndez Pidal, Ram√≥n (1926). Or√≠genes del espa√Īol. Estado ling√ľ√≠stico de la Pen√≠nsula Ib√©rica hasta el siglo XI. Madrid: Espasa, ed. 1950.

Morala, Jos√© Ram√≥n (2004). ‚ÄúDel leon√©s al castellano‚ÄĚ. Coord. Rafael Cano Aguilar. Historia de la Lengua Espa√Īola. Barcelona: Ariel. pp. 555-570.

Randall, Beth (2005). CorpusSearch 2. Windows-64bits. Universiy of Pennsylvania. <http://corpussearch.sourceforge.net/>. (24-9-2016).

Real Academia Espa√Īola. Banco de Datos (CORDE) [en l√≠nea]. Corpus Diacr√≥nico del Espa√Īol. <http://www.rae.es>. (15-9-2017).

Real Academia Espa√Īola. Banco de Datos (CREA) [en l√≠nea]. Corpus de Referencia del Espa√Īol Actual. <http://www.rae.es>. (15-9-2017).

San Segundo-Cachero, Rosabel. (2017). ‚ÄúLa anotaci√≥n sint√°ctica de textos medievales: un recurso fundamental para el estudio del orden de constituyentes‚ÄĚ. Ed. Silvia Gumiel. Investigaciones en Ling√ľ√≠stica: Vol. III: Sintaxis. Alcal√° de Henares: Universidad de Alcal√° de Henares.

Santorini, Beatrice. (2016). Annotation Manual for the Penn Historical Corpora and the York-Helsinki Corpus of Early English Correspondence. University of Pennsylvania. <http://www.ling.upenn.edu/ppche/ppche-release-2016/annotation/index.html> (17-8-2016)

Varios Autores (2013). ‚ÄúCriterios de edici√≥n de documentos hisp√°nicos (Or√≠genes-Siglo XIX) de la Red Internacional CHARTA‚ÄĚ. Corpus hisp√°nico y americano en la red: textos antiguos. <http://files.redcharta1.webnode.es/200000023-de670df5d6/Criterios%20CHARTA%2011abr2013.pdf>. (03-04-2016).

8. Anexo 1. Textos que integran el CoNSAM-XIII

Documentos descargables desde: http://revistacaracteres.net/wp-content/uploads/2018/05/CoNSAM-XIII.zip

 

Referencia identificativa / Referencia simplificada

ACO, A.7.3, 1244                  ACO1244,1

ACO, A.7.6, 1247                   ACO1247,1

ACO, A.7.7, 1247                   ACO1247,2

ACO, A.7.8, 1247                   ACO1247,3

ACO, A.7.9, 1249                  ACO1249,1

ACO, A.7.11, 1254                 ACO1254,1

ACO, A.7.12, 1254                 ACO1254,2

ACO, A. 7.13, 1255                ACO1255,1

ACO, A.7.16, 1257                 ACO1257,1

ACO, A.8.2, 1260                   ACO1260,1

ACO, A.8.11, 1268                 ACO1268,1

ACO, A.8.12, 1269                 ACO1296,1

ACO, A.8.13, 1269                 ACO1269,2

ACO, A.8.16, 1271                 ACO1271,1

ACO, A.9.1, 1272                   ACO1272,1

ACO, A.9.2, 1273                   ACO1273,1

ACO, A.9.6, 1274                   ACO1274,1

ACO, A.9.7, 1275                   ACO1275,1

ACO, A.9.8, 1277                   ACO1277,1

ACO, A.9.9, 1277                   ACO1277,2

ACO, A.9.10, 1278                 ACO1278,1

ACO, A.9.11, 1278                 ACO1278,2

ACO, A.9.12, 1281                 ACO1281,1

ACO, A.9.13, 1283                 ACO1283,1

ACO, A.9.14, 1285                 ACO1284,1

ACO, A.9.15, 1285                 ACO1285,2

ACO, A.9.16, 1286                 ACO1286,1

ACO, A.10.1, 1286                 ACO1286,2

ACO, A.10.2, 1287                 ACO1287,1

ACO, A.10.3, 1287                 ACO1287,2

ACO, A.10.4, 1289                 ACO1289,1

ACO, A.10.5, 1289                 ACO1289,2

ACO, A.10.6, 1289                 ACO1289,3

ACO, A.10.7, 1289                 ACO1289,4

AMA, 3, 1266                        AMA1266,1

AMA, 4, 1269                        AMA1269,1

AMA, 6, 1280                        AMA1280,1

AMA, 7, 1281                        AMA1281,1

AMA, 8, 1281                        AMA1281,2

AMA, 9, 1281                        AMA1281,3

AMA, 10, 1281                      AMA1281,4

AMA, 12, 1282                      AMA1282,1

AMA, 13, 1283                      AMA1283,1

AMA, 14, 1284                      AMA1284,1

AMA, 16, 1286                      AMA1286,1

AMA, 17, 1286                      AMA1286,2

AMA, 19, 1287                      AMA1287,1

AMA, 23, 1289                      AMA1289,1

AMA, 24, 1289                      AMA1289,2

AMA, 27, 1299                      AMA1299,1

 

9. Anexo 2. Etiquetas POS

Categorías léxicas Categorías funcionales
Verbo pleno /VB Conjunción /CONJ
Auxiliar/ pleno /SR, /ET, /HV, /TR Complementante /C
Nombre /N Pronombre /PRO
Adjetivo /ADJ Determinante /D
Adverbio /ADV Posesivo /PRO$
Preposición /P Cuantificador /Q
Negación /NEG

Figura 7. Clases de palabras

 

 

 

Indicativo Subjuntivo Imperativo
Formas finitas Presente /VB-P /VB-SP /VB-I
Pasado /VB-D /VB-SD
Futuro y condicional /VB-R /VB-SR
Formas con -ra /VB-RA
Formas no finitas Infinitivo

 

/VB,

/SR, /ET, /HV, /TR

Gerundio /VB-G
Participio /VB-PP
Participio activo /VB-AG

Figura 8. Flexión verbal

(Masculino singular) Femenino Género

invariable

Plural
Nombre /N /N-F /N(-F)-P
Adjetivo /ADJ /ADJ-F /ADJ-G /ADJ(-X)-P
Determinante y demostrativos variables /D /D-F /D-G /D(-X)-P
Determinante indefinido / numeral /D-UM /D-UM-F /D-UM(-F)-P
Posesivo /PRO$ /PRO$-F /PRO$(-F)-P
Otro,-a,-s /OUTRO /OUTRO-F /OUTRO(-F)-P
Pronombre /PRO /PRO /PRO
Cuantificador /Q /Q-F /Q-G /Q(-X)-P
Demostrativo invariable /DEM
Pronombre clítico /CL /CL /CL /CL
se /SE /SE /SE /SE

Figura 9. Flexión nominal

(Masculino) Femenino Género invariable Plural
Adjetivo comparativo /ADJ-R /ADJ-R-F /ADJ-R-G /ADJ-R-(-F)-P
Adjetivo superlativo /ADJ-S /ADJ-S-F /ADJ-S-G /ADJ-S(-F)-P
Adverbio comparativo /ADV-R
Adverbio superlativo /ADV-S

Figura 10. Categorías con gradación

Masculino Femenino Plural
Negación /NEG
Sinón[4] /SENAO
Cuantificador /Q-NEG /Q-NEG-F /Q-NEG(-F)-P
Adverbio /ADV-NEG
Conjunción /CONJ-NEG
Partículas focales negativas /FP-NEG

Figura 11. Categorías negativas

Masculino Femenino Género invariable Plural
Pronombres /WPRO /WPRO-F /PRO(-F)-P
Adjetivos[5] /WADJ /WADJ-F /WADJ-G /WADJ(-X)-P
Determinante /WD /WD-F /WD-G /WD(-X)-P
Posesivo /WPRO$ /WPRO$-F /WPRO$-F-P
Adverbio /WADV

Figura 12. Unidades relativas e interrogativas

Otros constituyentes Puntuación
Partículas focales /FP Punto ./.
N√ļmeros cardinales /NUM Dos puntos :/.
Interjecciones /INTJ Punto y coma ;/.
Palabras desconocidas /FW Exclamación !/.
Texto omitido […] /CODE Interrogación ?/.
Coma ,/,
Comillas ‚Äú/QT¬†¬†¬† ‚ÄĚ/QT
Paréntesis (/(     )/)
Guion -/(    -/)

Figura 13. Otras etiquetas

[[1]]Una primera versi√≥n morfol√≥gica y sint√°ctica de los textos est√° disponible en el Respositorio Institucional del Principado de Asturias <http://ria.asturias.es/RIA/index.jsp> (POS-tagged documents from the Oviedo Cathedral Archive, POS-tagged documents from the Avil√©s Municipal Archive, Parsed documents from the Oviedo Cathedral Archive, Parsed documents from the Avil√©s Municipal Archive). Aqu√≠ se presenta una versi√≥n revisada, corregida e individualizada de cada uno de los textos.En casos ambiguos o dudosos se opta por aplicar la etiqueta que parece m√°s adecuada seg√ļn el contexto sint√°ctico o seg√ļn el patr√≥n textual.[[2]]

Caracteres vol.7 n1

¬∑ Descargar el vol.7 n¬ļ1 de Caracteres como PDF.

· Descargar este texto como PDF.

· Regresar al índice de la edición web.

Notas:    (↵ regresa al texto)

  1. Los textos en formato PSD pueden solicitarse a la autora.
  2. Se adopta esta etiqueta para el elemento que introduce una construcción exceptiva: senão en portugués y sinón en asturiano.
  3. Etiqueta a√Īadida en el CoNSAM-XIII por ser necesaria para representar algunas estructuras.

Caracteres. Estudios culturales y críticos de la esfera digital | ISSN: 2254-4496 | Salamanca