¿Qué es la traducción automática? Traducción automática basada en reglas vs. traducción automática estadística

La traducción automática (TA) es traducción automatizada. Es el proceso mediante el cual se utiliza software de computadora para traducir un texto de un lenguaje natural (como el inglés) a otro (como el español).

Al procesar cualquier traducción, humana o automática, el significado del texto en el idioma original (origen) se debe restaurar totalmente en el de destino, es decir, en la traducción. Aunque en apariencia parezca sencillo, es mucho más complejo. La traducción no es una mera sustitución de una palabra por otra. Un traductor debe interpretar y analizar todos los elementos del texto y saber cómo influyen unas palabras en otras. Para ello se necesitan amplios conocimientos de gramática, sintaxis (estructura de las oraciones), semántica (significados), etc., de los idiomas de origen y de destino, además de familiaridad con cada región específica.

Tanto la traducción humana como la automática tienen sus propios desafíos. Por ejemplo, dos traductores individuales no pueden producir traducciones idénticas del mismo texto en el mismo par de idiomas, y es posible que se requieran varias rondas de revisiones para lograr la satisfacción del cliente. Pero el mayor desafío reside en cómo se pueden producir traducciones de calidad aptas para ser publicadas mediante la traducción automática.

Tecnología de traducción automática basada en reglas

La traducción automática basada en reglas se basa en incontables reglas lingüísticas integradas y en millones de diccionarios bilingües para cada par de idiomas.

El software analiza sintácticamente el texto y crea una representación transitoria a partir de la cual se genera el texto en el idioma de destino. Este proceso requiere léxicos amplios con información morfológica, sintáctica y semántica, además de grandes conjuntos de reglas. El software utiliza esos conjuntos de reglas complejos y, a continuación, transfiere la estructura gramatical del idioma de origen al idioma de destino.

Las traducciones se construyen con diccionarios enormes y reglas lingüísticas sofisticadas. Los usuarios pueden mejorar la calidad de la traducción instantánea añadiendo su terminología al proceso de traducción. Para ello crean diccionarios definidos por el usuario que invalidan la configuración predeterminada del sistema.

En la mayoría de los casos, hay dos pasos: una inversión inicial que aumenta de forma significativa la calidad con un costo limitado, y una inversión acumulable que aumenta la calidad de forma incremental. Aunque la TA basada en reglas proporciona a las empresas el umbral de calidad que necesitan e incluso más, el proceso de mejora de calidad puede ser largo y costoso.

Tecnología de traducción automática estadística

La traducción automática estadística utiliza modelos de traducción estadísticos cuyos parámetros emanan del análisis de corpus monolingües y bilingües. La creación de modelos de traducción estadísticos es un proceso rápido, pero la tecnología depende enormemente de los corpus multilingües existentes. Se necesitan un mínimo de 2 millones de palabras para un dominio específico y más incluso para el idioma en general. Teóricamente es posible alcanzar el umbral de calidad, pero la mayoría de las compañías no tienen cantidades tan grandes de corpus multilingües para crear los modelos de traducción necesarios. Además, la traducción automática estadística consume mucha CPU y requiere una configuración de hardware amplia para ejecutar los modelos de traducción que permiten obtener niveles de rendimiento promedio.

TA basada en reglas frente a TA estadística

La TA basada en reglas proporciona una buena calidad fuera del dominio o ámbito concreto y es previsible por naturaleza. La personalización basada en diccionarios garantiza una calidad mejorada y la conformidad con la terminología corporativa. Pero a los resultados de la traducción les puede faltar la fluidez que esperan los lectores. En términos de inversión, el ciclo de personalización necesario para llegar al umbral de calidad puede ser largo y costoso. El rendimiento es alto incluso con hardware estándar.

La TA estadística proporciona una buena calidad cuando se dispone de corpus grandes y cualificados. La traducción es fluida, lo que significa que se lee bien y, por lo tanto, cumple con las expectativas del usuario. Sin embargo, la traducción no es ni previsible ni coherente. El entrenamiento a partir de corpus buenos es automático y más barato. Pero el entrenamiento sobre corpus del lenguaje general, es decir, sobre textos que no son del dominio especificado, es deficiente. Además, la TA estadística requiere un hardware determinado para crear y administrar modelos de traducción grandes.

TA basada en reglasTA estadística
+ Calidad coherente y previsible - Calidad de traducción impredecible
+ Calidad de la traducción fuera del dominio - Mala calidad fuera del dominio
+ Conoce las reglas gramaticales - No sabe gramática
   
+ Alto rendimiento y robustez - Elevados requisitos de espacio en disco y CPU
+ Coherencia entre versiones - Inconsistencia entre versiones
   
- Falta de fluidez + Buena fluidez
- Excepciones a las reglas difíciles de manejar + Buena para tratar las excepciones a las reglas
   
- Altos costes de desarrollo y personalización + Desarrollo rápido y rentable siempre que exista el corpus requerido

Dados los requisitos generales, existe una clara necesidad de un tercer enfoque a través del cual los usuarios alcancen una mejor calidad de traducción y un alto rendimiento (similar a la MT basada en reglas), con menos inversión (similar a la MT estadística).

Algunos campos son obligatorios

Respetamos la confidencialidad de su información y sólo la utilizaremos en el contexto de nuestros intercambios.