Desarrollos en la traducción automática: esperando aún una traducción de alta calidad

Developments in machine translation: still waiting for a high quality translation

Rosanne Caroline Tertoolen (Utrecht University)

Artículo recibido: 4-10-2012 | Artículo aceptado: 26-10-2012

ABSTRACT: In a world which is everytime more open and with an excess of open source data, we have the idea of having access to all information. Nonetheless, something that looks like a minor barrier at first sight keeps us from accessing all this information: the language barrier. If you don’t belong to a certain language group or if you haven’t learned the language you don’t have access to this information. In this respect, machine translation is of great importance. Despite 60 years of research we still haven´t reached a fully automatic high quality translation. In this article we describe the development in machine translation and we try to understand why translation is so dificult for computers.
RESUMEN: En un mundo cada vez más abierto y con exceso de datos de código abierto, tenemos la idea de tener acceso a toda información. No obstante, hay una barrera que a primera vista parece minúscula pero que nos impide acceder toda esta información: la barrera del idioma. Si uno no pertenece a una determinada comunidad lingüística o si no ha aprendido su idioma, no tiene acceso a la información. A este respecto, el valor de la traducción automática es de gran importancia. A pesar de 60 años de investigación todavía no hemos conseguido una traducción automática de alta calidad. En este artículo describimos el desarrollo de la traducción automática e intentamos entender por qué traducir es tan difícil para los ordenadores.

KEYWORDS: translation, machine translation, transfer system, ALPAC
PALABRAS CLAVE: traducción, traducción automática, sistema de transferencia, ALPAC

____________________________

1. Introducción

El ser humano es capaz de lograr cosas que hasta hace poco tiempo se antojaban imposibles. Hemos conseguido aterrizar en la Luna, manipular el ADN y clonar animales. Sin embargo, y pese a estos innegables avances, aún no hemos logrado automatizar una lengua. En los comienzos de la investigación en la traducción automática (TA), los investigadores creían en la idea de lograr un fully automatic high quality translation en un par de años. No obstante, después de 60 años de investigación casi nadie cree que un día logremos esta traducción automática de alta calidad. Incluso hay muchos que opinan que apenas se ha hecho progreso en los 60 años de investigación.

En este artículo describimos la evolución en el desarrollo de la traducción automática e intentamos explicar por qué traducir es tan difícil para ordenadores.

1. Los sistemas de la traducción automática

Para entender la complejidad de la traducción automática queremos dar una breve explicación de los diferentes sistemas de la traducción automática. Conocemos el fenómeno de ‘traducción automática’ también por su denominación en inglés (machine translation). Aunque el término inglés supone que se trata de una máquina “mágica” que convierte un texto de una lengua en otro de una lengua diferente, la realidad es muy distinta. Berner (2003) presenta la siguiente de definición de traducción automática:

Machine translation (MT) is the use of computer software to translate text or speech from one natural language into another. Like translation done by humans, MT does not simply involve substituting words in one language for another, but the application of complex linguistic knowledge: morphology, syntax, semantics, and understanding of concepts such as ambiguity.

Con los años se han desarrollado diferentes arquitecturas de TA con diversos resultados. Distinguimos dos enfoques principales, el enfoque basado en normas y el enfoque basado en un corpus.

2.1 Enfoques basados en normas

Las estrategias basadas en normas, de acuerdo con Hutchins (2005), las podemos dividir en tres enfoques tradicionales, a saber: el sistema de traducción directa; el sistema interlingual; y el sistema de transferencia (mostrados en la figura 1).

Sistema de traducción directa

El sistema de traducción directa es el enfoque más sencillo. Está diseñado para un par de lenguas determinado. Se traduce directamente de la lengua fuente (LF) a la lengua meta (LM), su supuesto básico es que el vocabulario y la sintaxis de los textos de la lengua fuente no necesitan ser analizados, sólo lo estrictamente necesario para la resolución de ambigüedades y la correcta identificación de las expresiones apropiadas en la lengua meta, así como también para la especificación del orden de palabras de la lengua meta. Normalmente, estos sistemas consisten en un único diccionario bilingüe y un programa único para analizar el texto fuente.

Sistema interlingual

El segundo sistema básico es el sistema interlingual, que asume que es posible convertir un texto de LF en representaciones sintácticas y semánticas comunes para más de una lengua. El texto en la LF se transforma en un lenguaje intermedio mediante el componente “análisis”. El texto en la LM se obtiene a partir de la representación del texto en el lenguaje intermedio, mediante el componente “generación”. La estructura del lenguaje intermedio, llamado “interlingua”, es independiente de la de la lengua fuente y de la de la lengua meta y basada en una lengua artificial como por ejemplo el esperanto. Un argumento en su favor es el efecto de economía, con un sólo sistema se puede traducir a varias lenguas, aunque por otro lado, la construcción de tal interlingua es un trabajo muy complejo.

Sistema de transferencia

La tercera estrategia básica, el menos ambicioso “sistema de transferencia”, consiste en tres etapas. La primera etapa (análisis) consiste en la conversión de los textos de la LF en representaciones de transferencia de la misma LF: la Estructura Interfaz de la LF (EI LF). El segundo paso (transferencia) será convertirlas en representaciones de la LM: la Estructura Interfaz de la LM (EI LM). El último paso (generación) consiste en convertir la estructura interfaz de la LM en un texto final de la LM.

Figura 1. El diagrama de la pirámide (Hutchins 2005).

2.2 Enfoques basados en corpus

Los enfoques basados en corpus, también llamados “enfoques empíricos”, los podemos distinguir en dos sistemas, a saber, la TA basada en ejemplos y la TA estadística. En este apartado nos basamos en Somers (2003).

2.3 Traducción automática basada en ejemplos

La idea básica de la traducción automática basada en ejemplos (TABE) es reutilizar muestras reales con sus respectivas traducciones como base de una nueva traducción. El proceso de la TABE consiste en tres etapas: encontrar correspondencias; alinear; y recombinar. En la primera etapa el sistema encontrará, mediante correspondencias con la entrada, muestras de traducciones que pueden contribuir a la traducción. La segunda etapa, la alineación, consiste en identificar las partes útiles de la traducción correspondiente. En el tercer paso, recombinación, se recombinan las partes correspondientes. Cuando sabemos qué partes de los ejemplos reutilizamos, tenemos que intentar que las partes correspondan de manera legítima.

2.4 Traducción automática estadística

En su forma auténtica, la traducción automática estadística no usa datos lingüísticos tradicionales. La esencia de este método es alinear frases, grupos de palabras y palabras individuales de textos paralelos y calcular las probabilidades de que una palabra en una frase de una lengua se corresponda con una palabra en una frase de una traducción con la que está alineada. Dado que la TA estadística genera sus traducciones a partir de métodos estadísticos basados en corpus de textos bilingües, la disponibilidad de un corpus grande de traducciones fiables es una característica esencial de este sistema. Se suele ver este método como “anti-lingüístico”. Si el sistema relaciona “la” con “flor”, no es porque “sepa” algo de la concordancia de género, sino porque esta combinación es la más frecuente.

3. Los cambios en las concepciones

En este apartado explicamos la evolución y el desarrollo de estos diferentes sistemas de traducción automática en su contexto histórico. En sesenta años de investigación las concepciones de los investigadores han fluctuado mucho, desde altas expectativas hasta grandes desilusiones.

Precursores y pioneros, 1933-1956: En el año 1933 se otorgaron dos patentes en Francia y Rusia a, respectivamente, George Artsrouni y Petr Trojanski. De las dos patentes, la de Trojanski era la más significativa, debido a que no sólo propone un método para un diccionario bilingüe automático, sino también un esquema para codificar funciones gramaticales interlinguales (basado en el esperanto) y un diseño de cómo podrían funcionar los componentes análisis y síntesis. Para entonces, la idea de traducción mecánica había surgido de manera independiente y en el año 1949 Warren Weaver (el director de la Fundación Rockefeller) propuso ideas específicas para solucionar los problemas evidentes de ambigüedad, basadas en su conocimiento de criptografía, estadística, lógica y lenguajes universales. Este memorando fue el mayor estímulo de investigación en la TA en los Estados Unidos. Un par de años después la investigación en TA empezaba en varias universidades estadounidenses y en 1954 tuvo lugar la primera demostración pública (una colaboración entre IBM y la Universidad de Georgetown). Aunque se usaban un vocabulario y una gramática restringidos, fue lo suficientemente impresionante para estimular la financiación de la TA en los Estados Unidos y para inspirar proyectos de TA en todo el mundo.

La década del optimismo, 1954-1966: Cuando la investigación en TA comenzaba, los métodos de investigación tendían a polarizarse en, por un lado, los enfoques empíricos que a menudo adoptaban métodos estadísticos para “descubrir” regularidades gramaticales y léxicas, y, por otro lado, los enfoques teóricos con su base en la investigación lingüística, lo que trajo consigo el comienzo de la investigación en lo que más tarde se llamaría “lingüística computacional”. En esta época se solían describir estos métodos contrastivos respectivamente como “fuerza bruta” y “perfeccionista”. En esta época, por motivos políticos y militares, casi toda la investigación estadounidense se centraba en la traducción de ruso a inglés. Además, tenemos que tener en mente que los ordenadores de entonces no tenían la misma capacidad que los de hoy. Esta época se caracterizaba por el optimismo y las altas expectativas. El desarrollo de la informática y de la lingüística formal, en particular en el ámbito sintáctico, eran prometedores. Había muchas predicciones de avances inminentes y sistemas completamente automáticos en pocos años. Sin embargo, la desilusión creció cuando la complejidad de los problemas lingüísticos eran más evidentes, los investigadores se enfrentaron con barreras semánticas sin soluciones aparentes.

El informe ALPAC y sus consecuencias: En 1964, el gobierno estadounidense, que patrocinó la investigación, estaba cada vez más preocupado por la falta de progreso, por esa razón formaron el Automatic Language Processing Advisory Committee (ALPAC), que investigó el estado de la TA y sus futuras perspectivas. El ALPAC concluyó en su famoso informe que la TA era más lenta, menos precisa y dos veces más cara que la traducción humana y que no había perspectivas inmediatas o previsibles de un método de TA útil (ALPAC 1966). No se veía ninguna necesidad de invertir más en la investigación en TA, en su lugar se recomendaba el desarrollo de ayudas para el traductor como por ejemplo diccionarios automáticos.

Aunque muchos condenaban el informe como “corto de vista”, la influencia del ALPAC fue significativa; durante muchos años se les denegaron todos los fondos oficiales para investigaciones dedicadas a este fin en los Estados Unidos y tuvo gran impacto en otras partes del mundo.

La década silenciosa, 1967-1976: En los Estados Unidos la actividad principal se concentró en traducciones de inglés a ruso de materiales científicos y técnicos. En Canadá y Europa las necesidades eran muy distintas. En Canadá, la política bicultural producía una demanda de traducciones de inglés a francés más allá de la capacidad de la profesión de traductor. Los problemas de traducción en la Comunidad Europea eran igualmente urgentes, con una creciente demanda de traducciones de documentaciones científicas, técnicas, administrativas y jurídicas desde y hacia todos los idiomas comunitarios. En 1976, el sistema Systran se instaló en la Comisión de la Comunidad Europea para la traducción de la documentación rápidamente creciente.

Sistemas comerciales 1976-1989: En los años 80 tuvo lugar el desarrollo de una gran variedad de sistemas de TA en cada vez más países. Una serie de estos sistemas centrales continúa usándose hasta el día de hoy. Aparte de Systran, que hoy en día ofrece muchos pares de idiomas, estaba Logos (que servía de alemán a inglés y de inglés a francés); los sistemas desarrollados en la Organización Panamericana de la Salud (español a inglés e inglés a español); el sistema Metal (alemán a inglés); y los sistemas para la traducción de inglés a japonés y de japonés a inglés de empresas informáticas japonesas. La gran presencia de ordenadores y de procesadores de texto creaba un mercado para sistemas de TA más baratos, explotado por empresas norteamericanas y europeas como ALPS, Weidner, Linguistic Products y Globalink y por muchas empresas japonesas como Sharp, NEC, Oki, Mitsubishi y Sanyo. A lo largo de los años 80 se continuó con la investigación de métodos y técnicas más avanzados. La estrategia dominante en esta década era la traducción “indirecta” a través de representaciones de intermediarios, a veces de carácter interlingual, usando tanto análisis semánticos como morfológicos y a veces usando componentes no lingüísticos como una “base de conocimiento“. Los proyectos más notables de este período fueron el proyecto de Eurotra (Grenoble), que tenía como objetivo construir un sistema de transferencia multilingüe para la traducción entre todas las lenguas comunitarias; el proyecto de Mu (Kyoto), que ofrece una gran variedad de métodos tanto de transferencia como interlinguales; el proyecto de DLT (Utrecht) de la compañía de software BSO, que desarrolló un sistema interactivo multilingüe basado en redes informáticas.

El gran giro: A principios de los años 90 hubo un gran giro en la evolución de la TA. En primer lugar, un grupo de IBM publicó los resultados de los experimentos de un sistema (Candide) basado en métodos exclusivamente estadísticos. Los investigadores, enfocados en sistemas basados en lingüística, estaban sorprendidos de los aceptables resultados de estos experimentos. Vemos este período como la vuelta del “empirismo” de la primera década y el desafío al “racionalismo” de los años 60 y 80.

La TA en Internet: Desde mediados de los años 90 Internet ha sido una influencia poderosa en el desarrollo de la TA. La llegada de Internet ha producido una demanda de traducciones inmediatas en línea, algo que los traductores imposiblemente puedan cubrir. Gracias a las técnicas avanzadas sabemos inmediatamente qué pasa al otro lado del mundo. Una de las pocas barreras que nos impide el acceso a esta información es el idioma, por lo tanto hay una alta demanda a traducciones inmediatas de sitios web. La primera aplicación de TA gratuita en línea fue Babelfish, un sistema basado en reglas, localizado en el sitio web de Altavista en el año 1997. Esta aplicación ofrece una versión de Systran para traducir del francés, del alemán y del español al inglés y a la inversa, y más tarde muchos otros pares de idiomas. En 2006 el Traductor Google llegó al mercado. El Traductor Google, desarrollado por Franz-Josef Och (ahora jefe del departamento de TA en Google), se basa en métodos estadísticos. La aplicación de Google no sólo se distingue por su enfoque estadístico, sino también por el gran número de pares de lenguas que ofrece.

4. ¿Por qué traducir es tan difícil para ordenadores?

Para dar una respuesta a esta pregunta, primero tenemos que decir algo sobre lenguas naturales, porque la complejidad de traducción automática tiene todo que ver con la riqueza de lenguas naturales. El procesamiento de lenguas naturales es algo muy complejo que todavía no entendemos completamente. Cuetara Priede (2007:10) presenta la siguiente definición de las lenguas naturales:

Una lengua natural es un conjunto de símbolos vocales arbitrarios por medio del cual se comunican los seres humanos. Tal conjunto está organizado en un sistema de relaciones, sintagmáticas y paradigmáticas, muy cohesionadas que hace posible que el habla sea un sistema de comunicación muy preciso y especializado.

Esta arbitrariedad de la lengua natural también la menciona el lingüista Charles F. Hockett (1960) en sus rasgos definitorios de la lengua natural. Con la arbitrariedad Hockett quiere decir que no existe correlación entre el signo (signifiant) y el significado (signifié). Por ejemplo, los fonemas que crean la palabra “libro” no tienen ninguna relación con el concepto de “libro”. No hay ninguna razón para que el concepto de un conjunto de hojas debiera ser un “libro” y no cualquier otra combinación de fonemas^[1]. Otro rasgo interesante de Hockett es la productividad de una lengua, es decir que las reglas de la gramática permiten la creación de una infinita cantidad de construcciones sintácticas; en otras palabras, lo que Chomsky (1977) llama “gramática generativa”, permite la creación de oraciones que jamás han sido creadas, pero que pueden ser entendidas. Por ejemplo, la frase “Con el perro en mi armario azul hablo sobre mis vacaciones en Marte durante el verano de 1970”, probablemente es una frase que nunca antes ha sido creada, pero que un hispanohablante puede entender perfectamente. Por último queremos mencionar el rasgo de transmisión cultural, que quiere decir que la lengua humana no es innata, sino un producto de la evolución histórica que se transmite entre generaciones. Por consiguiente, una lengua natural está vinculada con la evolución cultural e histórica de una región. Es obvio que por lo menos estos tres rasgos producen problemas a la hora de automatizar una lengua.

No solo las lenguas naturales son complejas, los ordenadores también tienen sus limitaciones. Para poder traducir de una lengua a otra, un ordenador necesita reglas precisas. Gran parte de la dificultad del procesamiento de la lengua natural en general es la dificultad de encontrar reglas suficientemente precisas de ideas intuitivamente muy claras, como por ejemplo: “generalmente, el sujeto precede al verbo”. El problema aquí es la palabra “generalmente”, que desgraciadamente aparece en muchas reglas. Un ordenador necesita reglas precisas, lo que no siempre es posible. Otra limitación es que los ordenadores no pueden realizar “razonamientos de sentido común” porque eso implica, literalmente, millones de hechos en el mundo. Por ejemplo, el agua es húmeda, el fuego es caliente, los hombres no pueden estar embarazados, la mayoría de las personas tiene dos pies, un caballo es más grande que un ratón, etc. La tarea de codificar esta gran cantidad de conocimiento es de proporciones enormes. Otro factor importante, que es difícil para los ordenadores, es aprender nuevas cosas. Para un traductor es importante aprender nuevas cosas porque el mundo y la lengua están cambiando continuamente. Y aprender nuevas cosas requiere creatividad, es decir, el traductor debe inventar las reglas en lugar de seguir las reglas.

Se puede prever que las limitaciones de los ordenadores y la complejidad de las lenguas naturales producen muchos problemas a la hora de automatizar el proceso de traducir. Es por eso que muchos creen en el sistema “anti-lingüístico”, o sea, el sistema de traducción automática estadística. Sin embargo, las posibilidades de mejorar el rendimiento de estos sistemas son limitadas. Ni la traducción automática basada en ejemplos, ni la basada en estadística, han resultado mejor que los sistemas basados en reglas, aunque cada método ha sido prometedor en ciertos terrenos. Eso favoreció el desarrollo de “sistemas híbridos”, que reconocen las ventajas y desventajas específicas de cada método.

Bibliografía

ALPAC (1966). Languages and machines: computers in translation and linguistics. Washington D.C.: National Academy of Sciences, National Research Council.

Arnold, D. (2003). «Why translation is difficult for computers». Ed. Somers, H. Computers and Translation: A translator’s guide. Amsterdam: John Benjamins, pp. 119-142.

Chomsky, N. (1977). Problemas actuales en teoría lingüística: temas teóricos de gramática generativa. México DF: Siglo XXI.

Cuetara Priede, J. (2007). Manual de gramática histórica. México DF: Universidad Nacional Autónoma de México.

Hockett, C. (1960). «The origin of speech». Scientific American 203, pp. 88-96.

Hutchins, J. (2005). «The history of machine translation in a nutshell». Hutchinsweb. <http://www.hutchinsweb.me.uk/Nutshell-2005.pdf> (2-10-2012).

Somers, H. (2003). “Machine translation: latest developments”. Ed. Ruslan Mitkov. Oxford handbook of computational linguistics. Oxford: Oxford University Press, pp. 512-528.

· Descargar el vol.1 nº2 de Caracteres como PDF.

· Descargar este texto como PDF.

· Regresar al índice de la edición web.

Notas: (↵ regresa al texto)

Aquí no mencionamos las onomatopeyas, que sí muestran una relación entre el signo y el significado (aunque los perros españoles dicen “guau” y los perros holandeses dicen “waf”).↵

Compartir:

Caracteres. Estudios culturales y críticos de la esfera digital | ISSN: 2254-4496 | Salamanca