Regelbasierte maschinelle Übersetzung im Vergleich zur statistischen maschinellen Übersetzung

Maschinelle Übersetzung (MT) ist automatisierte Übersetzung. Dabei handelt es sich um den Prozess, bei dem Computersoftware verwendet wird, um einen Text aus einer natürlichen Sprache (wie Englisch) in eine andere (wie Spanisch) zu übersetzen.

Um eine Übersetzung in menschlicher oder automatisierter Form verarbeiten zu können, muss die Bedeutung des Textes in der Ursprungssprache (Ausgangssprache) vollständig in der Zielsprache, d. h. der Übersetzung, wiederhergestellt werden. Obwohl dies oberflächlich betrachtet unkompliziert erscheint, ist es doch um einiges komplexer. Übersetzung ist keine bloße Wort-für-Wort-Ersetzung. Ein Übersetzer muss alle Textbestandteile interpretieren und analysieren und wissen, wie sich jedes Wort auf ein anderes auswirken kann. Dies erfordert umfangreiche Kenntnisse in Grammatik, Syntax (Satzstruktur), Semantik (Bedeutungen) usw. in den Ausgangs- und Zielsprachen sowie Vertrautheit mit jeder Region.

Die menschliche und die maschinelle Übersetzung haben jeweils ihre eigenen Herausforderungen. Beispielsweise kann kein einzelner Übersetzer eine identische Übersetzung desselben Texts in demselben Sprachpaar erstellen, und es können mehrere Überarbeitungsrunden erforderlich sein, bis der Kunde zufrieden ist. Die größere Herausforderung liegt jedoch darin, durch maschinelle Übersetzung qualitativ hochwertige Übersetzungen zur Veröffentlichung zu produzieren.

Regelbasierte maschinelle Übersetzungstechnologie

Regelbasierte maschinelle Übersetzung basiert auf unzähligen integrierten linguistischen Regeln und Millionen von zweisprachigen Wörterbüchern für jedes Sprachpaar.

Die Software analysiert den Text und erstellt eine Übergangsdarstellung, aus der der Text in der Zielsprache generiert wird. Dieser Prozess erfordert umfangreiche Lexika mit morphologischen, syntaktischen und semantischen Informationen und eine Reihe von Regelwerken. Die Software verwendet diese komplexen Regelsätze und überträgt dann die grammatikalische Struktur der Ausgangssprache in die Zielsprache.

Übersetzungen bauen auf gigantischen Wörterbüchern und ausgefeilten linguistischen Regeln auf. Die Nutzer können die Qualität von Standardübersetzungen verbessern, indem sie ihre Terminologie in den Übersetzungsprozess einbinden. Sie erstellen benutzerdefinierte Wörterbücher, die die Standardeinstellungen des Systems außer Kraft setzen.

In den meisten Fällen gibt es zwei Schritte: eine Erstinvestition, die die Qualität bei begrenzten Kosten deutlich erhöht, und eine laufende Investition, um die Qualität schrittweise zu erhöhen. Während regelbasierte MT Unternehmen an die Grenzen der Qualität bringt, kann der Qualitätsverbesserungsprozess langwierig und teuer sein.

Technologie der statistischen maschinellen Übersetzung

Die statistische maschinelle Übersetzung verwendet statistische Übersetzungsmodelle, deren Parameter sich aus der Analyse von ein- und zweisprachigen Korpora ergeben. Die Erstellung statistischer Übersetzungsmodelle ist ein schneller Prozess, aber die Technologie basiert weitgehend auf vorhandenen mehrsprachigen Korpora. Mindestens 2 Millionen Wörter für eine bestimmte Domäne und noch mehr für die allgemeine Sprache sind erforderlich. Theoretisch ist es möglich, die Qualitätsschwelle zu erreichen, aber die meisten Unternehmen verfügen nicht über so große Mengen an bestehenden mehrsprachigen Korpora, um die notwendigen Übersetzungsmodelle zu erstellen. Darüber hinaus ist die statistische maschinelle Übersetzung prozessorintensiv und erfordert eine umfangreiche Hardwarekonfiguration, um Übersetzungsmodelle für durchschnittliche Leistungsniveaus auszuführen.

Regelbasierte MT im Vergleich zur statistischen MT

Regelbasierte MT bietet eine gute Qualität außerhalb eines Fachbereichs und ist von Natur aus vorhersehbar. Durch die wörterbuchbasierte Anpassung wird die Qualität und die Einhaltung der Unternehmensterminologie gewährleistet. Aber die Übersetzungsergebnisse sind vielleicht nicht so flüssig, wie die Leser es erwarten. In Bezug auf Investitionen kann der Anpassungszyklus, der erforderlich ist, um die Qualitätsgrenze zu erreichen, lang und kostspielig sein. Die Leistung ist auch bei Standardhardware hoch.

Statistische MT bietet eine gute Qualität, wenn große und qualifizierte Kapitalgesellschaften zur Verfügung stehen. Die Übersetzung ist flüssig, d. h. sie liest sich gut und entspricht daher den Erwartungen der Benutzer. Die Übersetzung ist jedoch weder vorhersehbar noch konsistent. Training von Good Corpora ist automatisiert und billiger. Das Training in allgemein verständlichen Korpora, also in anderen Texten als dem angegebenen Bereich, ist jedoch unzureichend. Darüber hinaus erfordert die statistische MT umfangreiche Hardware, um große Übersetzungsmodelle zu erstellen und zu verwalten.

Regelbasierte MT Statistische MT
+ Konsistente und vorhersehbare Qualität - Unvorhersehbare Übersetzungsqualität
+ Qualität der Übersetzung außerhalb des Fachbereichs - Schlechte Qualität außerhalb des Fachbereichs
+ Kennt grammatische Regeln - Kennt keine Grammatik
+ Hohe Leistung und Stabilität - Hohe Anforderungen an CPU und Festplattenspeicher
+ Konsistenz zwischen den Versionen - Inkonsistenz zwischen den Versionen
- Mangelnde sprachliche Flüssigkeit + Gute sprachliche Flüssigkeit
- Schwierigkeit, Ausnahmen von den Regeln zu integrieren + Berücksichtigt Ausnahmen von den Regeln
- Hohe Entwicklungs- und Anpassungskosten + Schnelle und kostengünstige Entwicklung

Angesichts der allgemeinen Anforderungen besteht ein klarer Bedarf an einem dritten Ansatz, durch den die Benutzer eine bessere Übersetzungsqualität und hohe Leistung erreichen würden (ähnlich wie bei regelbasierten MT), mit weniger Investitionen (ähnlich wie bei statistischen MT).