Traducción automática basada en reglas frente a traducción automática estadística

La traducción automática (MT) es la traducción automática. Es el proceso mediante el cual se utiliza un software informático para traducir un texto de un idioma natural (como el inglés) a otro (como el español).

Para procesar cualquier traducción, humana o automática, el significado de un texto en el idioma original (fuente) debe ser restaurado completamente en el idioma de destino, es decir, la traducción. Aunque en la superficie esto parece sencillo, es mucho más complejo. La traducción no es una simple sustitución palabra por palabra. Un traductor debe interpretar y analizar todos los elementos del texto y saber cómo cada palabra puede influir en otra. Esto requiere una amplia experiencia en gramática, sintaxis (estructura de oraciones), semántica (significados), etc., en los idiomas de origen y destino, así como familiaridad con cada región local.

La traducción humana y la traducción automática tienen cada una su cuota de desafíos. Por ejemplo, dos traductores individuales no pueden producir traducciones idénticas del mismo texto en el mismo par de idiomas, y puede tomar varias rondas de revisiones para satisfacer la satisfacción del cliente. Pero el mayor desafío reside en cómo la traducción automática puede producir traducciones de calidad publicables.

Tecnología de traducción automática basada en reglas

La traducción automática basada en reglas se basa en innumerables reglas lingüísticas incorporadas y millones de diccionarios bilingües para cada par de idiomas.

El software analiza el texto y crea una representación transicional a partir de la cual se genera el texto en el idioma de destino. Este proceso requiere lexicones extensos con información morfológica, sintáctica y semántica, y grandes conjuntos de reglas. El software utiliza estos complejos conjuntos de reglas y luego transfiere la estructura gramatical del idioma de origen al idioma de destino.

Las traducciones se basan en diccionarios gigantescos y sofisticadas reglas lingüísticas. Los usuarios pueden mejorar la calidad de la traducción estándar añadiendo su terminología al proceso de traducción. Crean diccionarios definidos por el usuario que reemplazan la configuración predeterminada del sistema.

En la mayoría de los casos, hay dos pasos: una inversión inicial que aumenta significativamente la calidad a un costo limitado, y una inversión continua para aumentar la calidad gradualmente. Aunque la MT basada en reglas lleva a las empresas al umbral de calidad y más allá, el proceso de mejora de la calidad puede ser largo y costoso.

Tecnología de traducción automática estadística

La traducción automática estadística utiliza modelos de traducción estadística cuyos parámetros se derivan del análisis de cuerpos monolingües y bilingües. La creación de modelos de traducción estadística es un proceso rápido, pero la tecnología depende en gran medida de los corporativos multilingües existentes. Se requiere un mínimo de 2 millones de palabras para un dominio específico y aún más para el lenguaje general. Teóricamente es posible alcanzar el umbral de calidad, pero la mayoría de las empresas no tienen una cantidad tan grande de corporaciones multilingües existentes para construir los modelos de traducción necesarios. Además, la traducción automática estadística requiere una gran cantidad de CPU y una amplia configuración de hardware para ejecutar modelos de traducción para los niveles de rendimiento medios.

MT basado en reglas frente a MT estadístico

La MT basada en reglas ofrece una buena calidad fuera de dominio y es por naturaleza predecible. La personalización basada en diccionarios garantiza una calidad mejorada y el cumplimiento de la terminología corporativa. Pero los resultados de la traducción pueden carecer de la fluidez que los lectores esperan. En términos de inversión, el ciclo de personalización necesario para alcanzar el umbral de calidad puede ser largo y costoso. El rendimiento es alto incluso en hardware estándar.

La MT estadística proporciona una buena calidad cuando se dispone de grandes corporaciones cualificadas. La traducción es fluida, lo que significa que se lee bien y por lo tanto cumple con las expectativas del usuario. Sin embargo, la traducción no es previsible ni coherente. El entrenamiento de los buenos corporativos es automatizado y más barato. Pero la formación en los cuerpos de lenguaje general, es decir, en textos distintos del dominio especificado, es deficiente. Además, la MT estadística requiere un hardware significativo para crear y gestionar grandes modelos de traducción.

MT basado en reglas MT estadístico
+ Calidad constante y predecible - Calidad de traducción impredecible
+ Calidad de traducción fuera de dominio - Mala calidad fuera de dominio
+ Conoce las reglas gramaticales - No sabe gramática
+ Alto rendimiento y robustez - Requisitos de CPU y espacio en disco elevados
+ Coherencia entre versiones - Inconsistencia entre versiones
- Falta de fluidez + Buena fluidez
- Difícil manejar excepciones a las reglas + Bueno para detectar excepciones a las reglas
- Altos costes de desarrollo y personalización + Costes de desarrollo rápidos y rentables

Dados los requisitos generales, existe una clara necesidad de un tercer enfoque a través del cual los usuarios alcanzarían una mejor calidad de traducción y un alto rendimiento (similar a la MT basada en reglas), con menos inversión (similar a la MT estadística).