Desarrollos en la traducci贸n autom谩tica: esperando a煤n una traducci贸n de alta calidad

Developments in machine translation: still waiting for a high quality translation

Rosanne Caroline Tertoolen (Utrecht University)

Art铆culo recibido: 4-10-2012 | Art铆culo aceptado: 26-10-2012

ABSTRACT: In a world which is everytime more open and with an excess of open source data, we have the idea of having access to all information. Nonetheless, something that looks like a minor barrier at first sight keeps us from accessing all this information: the language barrier. If you don’t belong to a certain language group or if you haven’t learned the language you don’t have access to this information. In this respect, machine translation is of great importance. Despite 60 years of research we still haven麓t reached a fully automatic high quality translation. In this article we describe the development in machine translation and we try to understand why translation is so dificult for computers.
RESUMEN: En un mundo cada vez m谩s abierto y con exceso de datos de c贸digo abierto, tenemos la idea de tener acceso a toda informaci贸n. No obstante, hay una barrera que a primera vista parece min煤scula pero que nos impide acceder toda esta informaci贸n: la barrera del idioma. Si uno no pertenece a una determinada comunidad ling眉铆stica o si no ha aprendido su idioma, no tiene acceso a la informaci贸n. A este respecto, el valor de la traducci贸n autom谩tica es de gran importancia. A pesar de 60 a帽os de investigaci贸n todav铆a no hemos conseguido una traducci贸n autom谩tica de alta calidad. En este art铆culo describimos el desarrollo de la traducci贸n autom谩tica e intentamos entender por qu茅 traducir es tan dif铆cil para los ordenadores.

KEYWORDS: translation, machine translation, transfer system, ALPAC
PALABRAS CLAVE: traducci贸n, traducci贸n autom谩tica, sistema de transferencia, ALPAC

____________________________

1. Introducci贸n

El ser humano es capaz de lograr cosas que hasta hace poco tiempo se antojaban imposibles. Hemos conseguido aterrizar en la Luna, manipular el ADN y clonar animales. Sin embargo,  y pese a estos innegables avances, a煤n no hemos logrado automatizar una lengua. En los comienzos de la investigaci贸n en la traducci贸n autom谩tica (TA), los investigadores cre铆an en la idea de lograr un fully automatic high quality translation en un par de a帽os. No obstante, despu茅s de 60 a帽os de investigaci贸n casi nadie cree que un d铆a logremos esta traducci贸n autom谩tica de alta calidad. Incluso hay muchos que opinan que apenas se ha hecho progreso en los 60 a帽os de investigaci贸n.

En este art铆culo describimos la evoluci贸n en el desarrollo de la traducci贸n autom谩tica e intentamos explicar por qu茅 traducir es tan dif铆cil para ordenadores.

1. Los sistemas de la traducci贸n autom谩tica

Para entender la complejidad de la traducci贸n autom谩tica queremos dar una breve explicaci贸n de los diferentes sistemas de la traducci贸n autom谩tica. Conocemos el fen贸meno de 鈥榯raducci贸n autom谩tica鈥  tambi茅n por su denominaci贸n en ingl茅s (machine translation). Aunque el t茅rmino ingl茅s supone que se trata de una m谩quina 鈥渕谩gica鈥 que convierte un texto de una lengua en otro de una lengua diferente, la realidad es muy distinta. Berner (2003) presenta la siguiente de definici贸n de traducci贸n autom谩tica:

Machine translation (MT) is the use of computer software to translate text or speech from one natural language into another. Like translation done by humans, MT does not simply involve substituting words in one language for another, but the application of complex linguistic knowledge: morphology, syntax, semantics, and understanding of concepts such as ambiguity.

Con los a帽os se han desarrollado diferentes arquitecturas de TA con diversos resultados. Distinguimos dos enfoques principales, el enfoque basado en normas y el enfoque basado en un corpus.

2.1 Enfoques basados en normas 

Las estrategias basadas en normas, de acuerdo con Hutchins (2005), las podemos dividir en tres enfoques tradicionales, a saber: el sistema de traducci贸n directa; el sistema interlingual; y el sistema de transferencia (mostrados en la figura 1).

Sistema de traducci贸n directa

El sistema de traducci贸n directa es el enfoque m谩s sencillo. Est谩 dise帽ado para un par de lenguas determinado. Se traduce directamente de la lengua fuente (LF) a la lengua meta (LM), su supuesto b谩sico es que el vocabulario y la sintaxis de los textos de la lengua fuente no necesitan ser analizados, s贸lo lo estrictamente necesario para la resoluci贸n de ambig眉edades y la correcta identificaci贸n de las expresiones apropiadas en la lengua meta, as铆 como tambi茅n para la especificaci贸n del orden de palabras de la lengua meta. Normalmente, estos sistemas consisten en un 煤nico diccionario biling眉e y un programa 煤nico para analizar el texto fuente.

Sistema interlingual

El segundo sistema b谩sico es el sistema interlingual, que asume que es posible convertir un texto de LF en representaciones sint谩cticas y sem谩nticas comunes para m谩s de una lengua. El texto en la LF se transforma en un lenguaje intermedio mediante el componente 鈥渁n谩lisis鈥. El texto en la LM se obtiene a partir de la representaci贸n del texto en el lenguaje intermedio, mediante el componente 鈥済eneraci贸n鈥. La estructura del lenguaje intermedio, llamado 鈥渋nterlingua鈥, es independiente de la de la lengua fuente y de la de la lengua meta y basada en una lengua artificial como por ejemplo el esperanto. Un  argumento en su favor es el efecto de econom铆a, con un s贸lo sistema se puede traducir a varias lenguas, aunque por otro lado, la construcci贸n de tal interlingua es un trabajo muy complejo.

Sistema de transferencia

La tercera estrategia b谩sica, el menos ambicioso 鈥渟istema de transferencia鈥, consiste en tres etapas. La primera etapa (an谩lisis) consiste en la conversi贸n de los textos de la LF en representaciones de transferencia de la misma LF: la Estructura Interfaz de la LF (EI LF).  El segundo paso (transferencia) ser谩 convertirlas en representaciones de la LM: la Estructura Interfaz de la LM (EI LM). El 煤ltimo paso (generaci贸n) consiste en convertir la estructura interfaz de la LM en un texto final de la LM.

Figura 1. El diagrama de la pir谩mide (Hutchins 2005).
Figura 1. El diagrama de la pir谩mide (Hutchins 2005).

2.2 Enfoques basados en corpus

Los enfoques basados en corpus, tambi茅n llamados 鈥渆nfoques emp铆ricos鈥, los podemos distinguir en dos sistemas, a saber, la TA basada en ejemplos y la TA estad铆stica. En este apartado nos basamos en Somers (2003).

2.3 Traducci贸n autom谩tica basada en ejemplos

La idea b谩sica de la traducci贸n autom谩tica basada en ejemplos (TABE) es reutilizar muestras reales con sus respectivas traducciones como base de una nueva traducci贸n. El proceso de la TABE consiste en tres etapas: encontrar correspondencias; alinear; y recombinar. En la primera etapa el sistema encontrar谩, mediante correspondencias con la entrada, muestras de traducciones que pueden contribuir a la traducci贸n. La segunda etapa, la alineaci贸n, consiste en identificar las partes 煤tiles de la traducci贸n correspondiente. En el tercer paso, recombinaci贸n, se recombinan las partes correspondientes. Cuando sabemos qu茅 partes de los ejemplos reutilizamos, tenemos que intentar que las partes correspondan de manera leg铆tima.

2.4 Traducci贸n autom谩tica estad铆stica

En su forma aut茅ntica, la traducci贸n autom谩tica estad铆stica no usa datos ling眉铆sticos tradicionales. La esencia de este m茅todo es alinear frases, grupos de palabras y palabras individuales de textos paralelos y calcular las probabilidades de que una palabra en una frase de una lengua se corresponda con una palabra en una frase de una traducci贸n con la que est谩 alineada. Dado que la TA estad铆stica genera sus traducciones a partir de m茅todos estad铆sticos basados en corpus de textos biling眉es, la disponibilidad de un corpus grande de traducciones fiables es una caracter铆stica esencial de este sistema. Se suele ver este m茅todo como 鈥渁nti-ling眉铆stico鈥. Si el sistema relaciona 鈥渓a鈥 con 鈥渇lor鈥, no es porque 鈥渟epa鈥 algo de la concordancia de g茅nero, sino porque esta combinaci贸n es la m谩s frecuente.

3. Los cambios en las concepciones

En este apartado explicamos la evoluci贸n y el desarrollo de estos diferentes sistemas de traducci贸n autom谩tica en su contexto hist贸rico. En sesenta a帽os de investigaci贸n las concepciones de los investigadores han fluctuado mucho, desde altas expectativas hasta grandes desilusiones.

Precursores y pioneros, 1933-1956: En el a帽o 1933 se otorgaron dos patentes en Francia y Rusia a, respectivamente, George Artsrouni y Petr Trojanski. De las dos patentes, la de Trojanski era la m谩s significativa, debido a que no s贸lo propone un m茅todo para un diccionario biling眉e autom谩tico, sino tambi茅n un esquema para codificar funciones gramaticales interlinguales (basado en el esperanto) y un dise帽o de c贸mo podr铆an funcionar los componentes an谩lisis y s铆ntesis. Para entonces, la idea de traducci贸n mec谩nica hab铆a surgido de manera independiente y en el a帽o 1949 Warren Weaver (el director de la Fundaci贸n Rockefeller) propuso ideas espec铆ficas para solucionar los problemas evidentes de ambig眉edad, basadas en su conocimiento de criptograf铆a, estad铆stica, l贸gica y lenguajes universales. Este memorando fue el mayor est铆mulo de investigaci贸n en la TA en los Estados Unidos. Un par de a帽os despu茅s la investigaci贸n en TA empezaba en varias universidades estadounidenses y en 1954 tuvo lugar la primera demostraci贸n p煤blica (una colaboraci贸n entre IBM y la Universidad de Georgetown). Aunque se usaban un vocabulario y una gram谩tica restringidos, fue lo suficientemente impresionante para estimular la financiaci贸n de la TA en los Estados Unidos y para inspirar proyectos de TA en todo el mundo.

La d茅cada del optimismo, 1954-1966: Cuando la investigaci贸n en TA comenzaba, los m茅todos de investigaci贸n tend铆an a polarizarse en, por un lado, los enfoques emp铆ricos que a menudo adoptaban m茅todos estad铆sticos para 鈥渄escubrir鈥 regularidades gramaticales y l茅xicas, y, por otro lado, los enfoques te贸ricos con su base en la investigaci贸n ling眉铆stica, lo que trajo consigo el comienzo de la investigaci贸n en lo que m谩s tarde se llamar铆a 鈥渓ing眉铆stica computacional鈥. En esta 茅poca se sol铆an describir estos m茅todos contrastivos respectivamente como 鈥渇uerza bruta鈥 y 鈥減erfeccionista鈥. En esta 茅poca, por motivos pol铆ticos y militares, casi toda la investigaci贸n estadounidense se centraba en la traducci贸n de ruso a ingl茅s. Adem谩s, tenemos que tener en mente que los ordenadores de entonces no ten铆an la misma capacidad que los de hoy. Esta 茅poca se caracterizaba por el optimismo y las altas expectativas. El desarrollo de la inform谩tica y de la ling眉铆stica formal, en particular en el 谩mbito sint谩ctico, eran prometedores. Hab铆a muchas predicciones de avances inminentes y sistemas completamente autom谩ticos en pocos a帽os. Sin embargo, la desilusi贸n creci贸 cuando la complejidad de los problemas ling眉铆sticos eran m谩s evidentes, los investigadores se enfrentaron con barreras sem谩nticas sin soluciones aparentes.

El informe ALPAC y sus consecuencias: En 1964, el gobierno estadounidense, que patrocin贸 la investigaci贸n, estaba cada vez m谩s preocupado por la falta de progreso, por esa raz贸n formaron el Automatic Language Processing Advisory Committee (ALPAC), que investig贸 el estado de la TA y sus futuras perspectivas. El ALPAC concluy贸 en su famoso informe que la TA era m谩s lenta, menos precisa y dos veces m谩s cara que la traducci贸n humana y que no hab铆a perspectivas inmediatas o previsibles de un m茅todo de TA 煤til (ALPAC 1966). No se ve铆a ninguna necesidad de invertir m谩s en la investigaci贸n en TA, en su lugar se recomendaba el desarrollo de ayudas para el traductor como por ejemplo diccionarios autom谩ticos.

Aunque muchos condenaban el informe como 鈥渃orto de vista鈥, la influencia del ALPAC fue significativa; durante muchos a帽os se les denegaron todos los fondos oficiales para investigaciones dedicadas a este fin en los Estados Unidos y tuvo gran impacto en otras partes del mundo.

La d茅cada silenciosa, 1967-1976: En los Estados Unidos la actividad principal se concentr贸 en traducciones de ingl茅s a ruso de materiales cient铆ficos y t茅cnicos. En Canad谩 y Europa las necesidades eran muy distintas. En Canad谩, la pol铆tica bicultural produc铆a una demanda de traducciones de ingl茅s a franc茅s m谩s all谩 de la capacidad de la profesi贸n de traductor. Los problemas de traducci贸n en la Comunidad Europea eran igualmente urgentes, con una creciente demanda de traducciones de documentaciones cient铆ficas, t茅cnicas, administrativas y jur铆dicas desde y hacia todos los idiomas comunitarios. En 1976, el sistema Systran se instal贸 en la Comisi贸n de la Comunidad Europea para la traducci贸n de la documentaci贸n r谩pidamente creciente.

Sistemas comerciales 1976-1989: En los a帽os 80 tuvo lugar el desarrollo de una gran variedad de sistemas de TA en cada vez m谩s pa铆ses. Una serie de estos sistemas centrales contin煤a us谩ndose hasta el d铆a de hoy. Aparte de Systran, que hoy en d铆a ofrece muchos pares de idiomas, estaba Logos (que serv铆a de alem谩n a ingl茅s y de ingl茅s a franc茅s); los sistemas desarrollados en la Organizaci贸n Panamericana de la Salud (espa帽ol a ingl茅s e ingl茅s a espa帽ol); el sistema Metal (alem谩n a ingl茅s); y los sistemas para la traducci贸n de ingl茅s a japon茅s y de japon茅s a ingl茅s de empresas inform谩ticas japonesas. La gran presencia de ordenadores y de procesadores de texto creaba un mercado para sistemas de TA m谩s baratos, explotado por empresas norteamericanas y europeas como ALPS, Weidner, Linguistic Products y Globalink y por muchas empresas japonesas como Sharp, NEC, Oki, Mitsubishi y Sanyo. A lo largo de los a帽os 80 se continu贸 con la investigaci贸n de m茅todos y t茅cnicas m谩s avanzados. La estrategia dominante en esta d茅cada era la traducci贸n 鈥渋ndirecta鈥 a trav茅s de representaciones de intermediarios, a veces de car谩cter interlingual, usando tanto an谩lisis sem谩nticos como morfol贸gicos y a veces usando componentes no ling眉铆sticos como una 鈥渂ase de conocimiento鈥. Los proyectos m谩s notables de este per铆odo fueron el proyecto de Eurotra (Grenoble), que ten铆a como objetivo construir un sistema de transferencia multiling眉e para la traducci贸n entre todas las lenguas comunitarias; el proyecto de Mu (Kyoto), que ofrece una gran variedad de m茅todos tanto de transferencia como interlinguales; el proyecto de DLT (Utrecht) de la compa帽铆a de software BSO, que desarroll贸 un sistema interactivo multiling眉e basado en redes inform谩ticas.

El gran giro: A principios de los a帽os 90 hubo un gran giro en la evoluci贸n de la TA. En primer lugar, un grupo de IBM public贸 los resultados de los experimentos de un sistema (Candide) basado en m茅todos exclusivamente estad铆sticos. Los investigadores, enfocados en sistemas basados en ling眉铆stica, estaban sorprendidos de los aceptables resultados de estos experimentos. Vemos este per铆odo como la vuelta del 鈥渆mpirismo鈥 de la primera d茅cada y el desaf铆o al 鈥渞acionalismo鈥 de los a帽os 60 y 80.

La TA en Internet: Desde mediados de los a帽os 90 Internet ha sido una influencia poderosa en el desarrollo de la TA. La llegada de Internet ha producido una demanda de traducciones inmediatas en l铆nea, algo que los traductores imposiblemente puedan cubrir. Gracias a las t茅cnicas avanzadas sabemos inmediatamente qu茅 pasa al otro lado del mundo. Una de las pocas barreras que nos impide el acceso a esta informaci贸n es el idioma, por lo tanto hay una alta demanda a traducciones inmediatas de sitios web. La primera aplicaci贸n de TA gratuita en l铆nea fue Babelfish, un sistema basado en reglas, localizado en el sitio web de Altavista en el a帽o 1997. Esta aplicaci贸n ofrece una versi贸n de Systran para traducir del franc茅s, del alem谩n y del espa帽ol al ingl茅s y a la inversa, y m谩s tarde muchos otros pares de idiomas. En 2006 el Traductor Google lleg贸 al mercado. El Traductor Google, desarrollado por Franz-Josef Och (ahora jefe del departamento de TA en Google), se basa en m茅todos estad铆sticos. La aplicaci贸n de Google no s贸lo se distingue por su enfoque estad铆stico, sino tambi茅n por el gran n煤mero de pares de lenguas que ofrece.

4. 驴Por qu茅 traducir es tan dif铆cil para ordenadores?

Para dar una respuesta a esta pregunta, primero tenemos que decir algo sobre lenguas naturales, porque la complejidad de traducci贸n autom谩tica tiene todo que ver con la riqueza de lenguas naturales. El procesamiento de lenguas naturales es algo muy complejo que todav铆a no entendemos completamente. Cuetara Priede (2007:10) presenta la siguiente definici贸n de las lenguas naturales:

Una lengua natural es un conjunto de s铆mbolos vocales arbitrarios por medio del cual se comunican los seres humanos. Tal conjunto est谩 organizado en un sistema de relaciones, sintagm谩ticas y paradigm谩ticas, muy cohesionadas que hace posible que el habla sea un sistema de comunicaci贸n muy preciso y especializado.

Esta arbitrariedad de la lengua natural tambi茅n la menciona el ling眉ista Charles F. Hockett (1960) en sus rasgos definitorios de la lengua natural. Con la arbitrariedad Hockett quiere decir que no existe correlaci贸n entre el signo (signifiant) y el significado (signifi茅). Por ejemplo, los fonemas que crean la palabra 鈥渓ibro鈥 no tienen ninguna relaci贸n con el concepto de 鈥渓ibro鈥. No hay ninguna raz贸n para que el concepto de un conjunto de hojas debiera ser un 鈥渓ibro鈥 y no cualquier otra combinaci贸n de fonemas[1]. Otro rasgo interesante de Hockett es la productividad de una lengua, es decir que las reglas de la gram谩tica permiten la creaci贸n de una infinita cantidad de construcciones sint谩cticas; en otras palabras, lo que Chomsky (1977) llama 鈥済ram谩tica generativa鈥, permite la creaci贸n de oraciones que jam谩s han sido creadas, pero que pueden ser entendidas. Por ejemplo, la frase 鈥淐on el perro en mi armario azul hablo sobre mis vacaciones en Marte durante el verano de 1970鈥, probablemente es una frase que nunca antes ha sido creada, pero que un hispanohablante puede entender perfectamente. Por 煤ltimo queremos mencionar el rasgo de transmisi贸n cultural, que quiere decir que la lengua humana no es innata, sino un producto de la evoluci贸n hist贸rica que se transmite entre generaciones. Por consiguiente, una lengua natural est谩 vinculada con la evoluci贸n cultural e hist贸rica de una regi贸n. Es obvio que por lo menos estos tres rasgos producen problemas a la hora de automatizar una lengua.

No solo las lenguas naturales son complejas, los ordenadores tambi茅n tienen sus limitaciones. Para poder traducir de una lengua a otra, un ordenador necesita reglas precisas. Gran parte de la dificultad del procesamiento de la lengua natural en general es la dificultad de encontrar reglas suficientemente precisas de ideas intuitivamente muy claras, como por ejemplo: 鈥済eneralmente, el sujeto precede al verbo鈥. El problema aqu铆 es la palabra 鈥済eneralmente鈥, que desgraciadamente aparece en muchas reglas. Un ordenador necesita reglas precisas, lo que no siempre es posible. Otra limitaci贸n es que los ordenadores no pueden realizar 鈥渞azonamientos de sentido com煤n鈥 porque eso implica, literalmente, millones de hechos en el mundo. Por ejemplo, el agua es h煤meda, el fuego es caliente, los hombres no pueden estar embarazados, la mayor铆a de las personas tiene dos pies, un caballo es m谩s grande que un rat贸n, etc. La tarea de codificar esta gran cantidad de conocimiento es de proporciones enormes. Otro factor importante, que es dif铆cil para los ordenadores, es aprender nuevas cosas. Para un traductor es importante aprender nuevas cosas porque el mundo y la lengua est谩n cambiando continuamente. Y aprender nuevas cosas requiere creatividad, es decir, el traductor debe inventar las reglas en lugar de seguir las reglas.

Se puede prever que las limitaciones de los ordenadores y la complejidad de las lenguas naturales producen muchos problemas a la hora de automatizar el proceso de traducir. Es por eso que muchos creen en el sistema 鈥渁nti-ling眉铆stico鈥, o sea, el sistema de traducci贸n autom谩tica estad铆stica. Sin embargo, las posibilidades de mejorar el rendimiento de estos sistemas son limitadas. Ni la traducci贸n autom谩tica basada en ejemplos, ni la basada en estad铆stica, han resultado mejor que los sistemas basados en reglas, aunque cada m茅todo ha sido prometedor en ciertos terrenos. Eso favoreci贸 el desarrollo de 鈥渟istemas h铆bridos鈥, que reconocen las ventajas y desventajas espec铆ficas de cada m茅todo.

Bibliograf铆a

ALPAC (1966). Languages and machines: computers in translation and linguistics. Washington D.C.: National Academy of Sciences, National Research Council.

Arnold, D. (2003). “Why translation is difficult for computers”. Ed. Somers, H. Computers and Translation: A translator’s guide. Amsterdam: John Benjamins, pp. 119-142.

Chomsky, N. (1977). Problemas actuales en teor铆a ling眉铆stica: temas te贸ricos de gram谩tica generativa. M茅xico DF: Siglo XXI.

Cuetara Priede, J. (2007). Manual de gram谩tica hist贸rica. M茅xico DF: Universidad Nacional Aut贸noma de M茅xico.

Hockett, C. (1960). “The origin of speech”. Scientific American 203, pp. 88-96.

Hutchins, J. (2005). “The history of machine translation in a nutshell”. Hutchinsweb. <http://www.hutchinsweb.me.uk/Nutshell-2005.pdf> (2-10-2012).

Somers, H. (2003). 鈥淢achine translation: latest developments鈥. Ed. Ruslan Mitkov. Oxford handbook of computational linguistics. Oxford: Oxford University Press, pp. 512-528.

Caracteres vol.1 n.2

路 Descargar el vol.1 n潞2 de Caracteres como PDF.

路 Descargar este texto como PDF.

路 Regresar al 铆ndice de la edici贸n web.

Notas:    (↵ regresa al texto)
  1. Aqu铆 no mencionamos las onomatopeyas, que s铆 muestran una relaci贸n entre el signo y el significado (aunque los perros espa帽oles dicen 鈥済uau鈥 y los perros holandeses dicen 鈥渨af鈥).

Caracteres. Estudios culturales y cr铆ticos de la esfera digital | ISSN: 2254-4496 | Salamanca