Tradução automática (MT) é tradução automatizada. É o processo pelo qual o software de computador é usado para traduzir um texto de um idioma natural (por exemplo, o inglês) em outro (por exemplo, o espanhol). Para processar toda a tradução, humana ou automatizada, o significado de um texto no idioma original (origem) deve ser completamente restaurado no idioma de destino, ou seja, na tradução. Enquanto, na superfície, isso pareça ser direto, é bem mais complexo. A tradução não é uma mera substituição palavra por palavra. Um tradutor deve interpretar e analisar todos os elementos no texto e saber como cada palavra pode influenciar outra. Isso exige experiência extensiva em gramática, sintaxe (estrutura da frase), semântica (significados) etc., nos idiomas de origem e de destino, bem como familiaridade com cada região local. A tradução automática e a humana têm cada uma delas os seus desafios. Por exemplo, dois tradutores individuais não podem produzir traduções idênticas do mesmo texto no mesmo par de idiomas, e pode exigir vários ciclos de revisões até obter a satisfação do cliente. Mas, o grande desafio está em como a tradução automática pode produzir traduções de qualidade publicável. Tecnologia de tradução automática baseada em regras A tradução automática baseada em regras conta com incontáveis regras linguísticas incorporadas e com milhões de dicionários bilíngues para cada par de idiomas. O software analisa o texto e cria uma representação transitória de qual texto no idioma de destino será gerado. Esse processo exige léxicos extensivos com informações morfológicas, sintáticas e semânticas, além de grandes conjuntos de regras. O software usa esses conjuntos de regras complexos e transfere então a estrutura gramatical do idioma de origem para o idioma de destino. As traduções são criadas com base em gigantescos dicionários e regras linguísticas sofisticadas. Os usuários podem melhorar a qualidade da tradução pronta para uso adicionando sua terminologia ao processo de tradução. Eles criam os dicionários definidos pelo usuário que substituem as configurações padrão do sistema. Na maioria dos casos, há duas etapas: Um investimento inicial que aumente significativamente a qualidade a um custo limitado e um investimento contínuo para aumentar a qualidade de forma incremental. Quando a MT baseada em regras oferece às empresas o limite de qualidade e além, o processo de melhoria da qualidade pode ser longo e dispendioso. Tecnologia de tradução automática estatística A tradução automática estatística utiliza modelos estatísticos de tradução cujos parâmetros se originam da análise de corpus monolíngue e bilíngue. Criar modelos de tradução estatística é um processo rápido, mas a tecnologia se baseia fortemente em corpus multilíngue existente. São necessárias no mínimo 2 milhões de palavras para um domínio específico e ainda mais para o idioma geral. Teoricamente, é possível atingir o limite de qualidade, mas a maioria das empresas não tem uma quantidades tão grande de corpus multilíngue existentes para criar os modelos de tradução necessários. Além disso, a tradução automática estatística consome bastante CPU e exige uma configuração de hardware extensiva para executar modelos de tradução para níveis médios de desempenho. MT baseada em regras vs. MT estatística A MT baseada em regras fornece a boa qualidade fora do domínio e é por natureza previsível. A personalização baseada em dicionário garante qualidade e conformidade melhoradas com terminologia corporativa. Mas os resultados da tradução podem falhar na expectativa dos leitores em relação à fluência. Em termos de investimento, o ciclo de personalização necessário para alcançar o limite de qualidade pode ser longo e dispendioso. O desempenho é alto mesmo em hardware padrão. A MT estatística fornece boa qualidade quando corporações grandes e qualificadas estão disponíveis. A tradução é fluente, significando que ela lê bem e portanto atende às expectativas do usuário. Entretanto, a tradução não é nem previsível nem coerente. O treinamento a partir de corpus bons é automatizado e mais barato. Mas o treinamento em corpus de idioma geral, texto do significado diferente do domínio especificado, é pobre. Além disso, a MT estatística requer hardware significativo para criar e gerenciar modelos grandes de tradução. MT baseada em regrasMT estatística + Qualidade consistente e previsível - Qualidade de tradução imprevisível + Qualidade de tradução fora do domínio - Baixa qualidade fora do domínio + Conhece as regras gramaticais - Não sabe gramática + Alto desempenho e robustez - Elevados requisitos de CPU e espaço em disco + Consistência entre versões - Inconsistência entre versões - Falta de fluência + Boa fluência - Difícil lidar com exceções às regras + Bom para capturar exceções às regras - Elevados custos de desenvolvimento e personalização + Custos de desenvolvimento rápido e econômico desde que exista o corpus necessário Graças aos requisitos gerais, existe uma clara necessidade de uma terceira abordagem através da qual os usuários atingiriam uma melhor qualidade de tradução e alto desempenho (semelhante à MT baseada em regras), com menos investimento (semelhante à MT estatística).