기계 번역이란 무엇입니까?

규칙 기반 기계 번역 대 통계 기계 번역

기계 번역(MT)은 자동 번역입니다. 이 프로세스는 컴퓨터 소프트웨어가 텍스트를 한 자연어(예: 영어)에서 다른 자연어(예: 스페인어)로 번역하는 데 사용되는 프로세스입니다.

모든 번역, 인간 또는 자동화된 번역을 처리하려면 원본(소스) 언어의 텍스트 의미가 대상 언어, 즉 번역으로 완전히 복원되어야 합니다. 표면적으로는 이것이 간단해 보이지만 훨씬 더 복잡하다. 번역은 단지 단어 대 단어 대체가 아니다. 번역자는 텍스트의 모든 요소를 해석하고 분석해야 하며 각 단어가 다른 단어에 어떤 영향을 미칠 수 있는지 알아야 합니다. 이를 위해서는 각 지역 지역과의 친숙도뿐만 아니라, 소스 및 타겟 언어의 문법, 구문(문장 구조), 의미(의미) 등에 대한 광범위한 전문 지식이 필요하다.

인간과 기계 번역은 각각 각자의 과제를 가지고 있습니다. 예를 들어, 두 개의 개별 번역자가 동일한 언어 쌍에서 동일한 텍스트의 동일한 번역을 생성할 수 없으며 고객 만족을 충족시키기 위해 여러 차례의 개정이 필요할 수 있습니다. 그러나 더 큰 문제는 기계 번역이 어떻게 출판 가능한 품질의 번역을 생산할 수 있는지에 있습니다.

규칙 기반 기계 번역 기술

규칙 기반 기계 번역은 각 언어 쌍에 대해 수많은 내장된 언어 규칙과 수백만 개의 이중 언어 사전에 의존한다.

이 소프트웨어는 텍스트를 구문 분석하고 대상 언어의 텍스트가 생성되는 변환 표현을 생성합니다. 이 과정은 형태학적, 구문학적, 의미론적 정보를 가진 광범위한 어휘와 큰 규칙 집합을 필요로 한다. 소프트웨어는 이러한 복잡한 규칙 집합을 사용한 다음 소스 언어의 문법적 구조를 대상 언어로 전송합니다.

번역은 거대한 사전과 정교한 언어 규칙을 기반으로 한다. 사용자는 번역 프로세스에 용어를 추가하여 즉시 번역 품질을 향상시킬 수 있습니다. 시스템의 기본 설정을 재정의하는 사용자 정의 사전을 만듭니다.

대부분의 경우, 제한된 비용으로 품질을 크게 높이는 초기 투자와 품질을 점진적으로 높이는 지속적인 투자의 두 단계가 있습니다. 규칙 기반 MT는 기업을 품질 임계치 이상으로 끌어들이지만 품질 개선 프로세스는 길고 비용이 많이 들 수 있다.

통계적 기계 번역 기술

통계적 기계 번역은 매개변수가 단일 언어 및 이중 언어 몸통의 분석에서 비롯된 통계적 번역 모델을 사용한다. 통계적 번역 모델을 구축하는 것은 빠른 과정이지만 기술은 기존의 다국어 체질에 크게 의존한다. 특정 영역에 대해 최소 200만 단어, 일반 언어에 대해서는 더 많은 단어가 필요하다. 이론적으로는 품질 임계값에 도달하는 것이 가능하지만 대부분의 회사는 필요한 번역 모델을 구축하기 위해 기존의 다국어 코퍼라가 그렇게 많지 않다. 또한 통계적 기계 번역은 CPU 집약적이며 평균 성능 수준에 맞게 번역 모델을 실행하려면 광범위한 하드웨어 구성이 필요합니다.

규칙 기반 MT 대 통계 MT

규칙 기반 MT는 양호한 도메인 외 품질을 제공하며 본질적으로 예측 가능하다. 딕셔너리 기반 커스터마이징은 향상된 품질과 기업 용어 준수를 보장합니다. 그러나 번역 결과는 독자들이 기대하는 유창성이 부족할 수 있습니다. 투자 측면에서 품질 임계값에 도달하는 데 필요한 사용자 정의 주기는 길고 비용이 많이 들 수 있다. 표준 하드웨어에서도 성능이 높습니다.

통계 MT는 크고 자격을 갖춘 기업이 이용 가능할 때 좋은 품질을 제공합니다. 번역이 유창해서 잘 읽히므로 사용자의 기대치를 충족시킵니다. 그러나 번역은 예측 불가능하거나 일관성이 없습니다. 좋은 기업의 교육은 자동화되고 저렴합니다. 그러나 특정 도메인이 아닌 다른 텍스트를 의미하는 일반 언어 코퍼라에 대한 교육은 열악하다. 또한 통계 MT를 사용하려면 대용량 번역 모델을 구축하고 관리하는 데 상당한 하드웨어가 필요합니다.

규칙 기반 MT	통계 MT
+ 일관되고 예측 가능한 품질	- 예측할 수 없는 번역 품질
+ 도메인 외부 번역 품질	도메인 외부 품질 저하
+ 문법 규칙을 알고 있습니다.	- 문법을 알지 못함

+ 고성능 및 견고성	- 높은 CPU 및 디스크 공간 요구 사항
+ 버전 간 일관성	- 버전 간 불일치

유창성 부족	+ 유창성
- 규칙 예외 처리 어려움	+ 규칙에 대한 예외를 catch하는 데 적합

- 높은 개발 및 사용자 지정 비용	+ 신속하고 경제적인 개발 비용

전반적인 요구 사항을 고려할 때 사용자가 더 나은 번역 품질과 높은 성능(규칙 기반 MT와 유사)에 도달하고 투자(통계적 MT와 유사)가 적은 세 번째 접근 방식이 필요하다.