論文 – SYSTRAN by ChapsVision

マルチレベンシュテイントランスを用いたNMTの例に向けて

Maxime Bouthors, Josep Crego, François Yvon.

2023年自然言語処理の経験的手法に関する会議(EMNLP 2023 ) 、 2023年12月、シンガポール。

BiSync：同期された単一言語テキスト用のバイリンガルエディタ

グローバル化した世界では、1つまたは複数の外国語でコミュニケーションを取ることが求められる状況が増えています。書面によるコミュニケーションの場合、外国語の優れたコマンドを持つユーザーは、コンピュータ支援翻訳(CAT)技術からの支援を見つけることができます。これらの技術は、多くの場合、ユーザーが辞書、用語、バイリンガルのコンコーダンサーなどの外部リソースにアクセスすることを可能にし、それによって書き込みプロセスを中断し、著しく妨げます。さらに、CATシステムでは、原文が固定されていることを前提としており、ターゲット側の変更も制限しています。書き込みプロセスをスムーズにするために、ユーザーが自由に作成できるバイリンガルの書き込みアシスタントBiSyncを紹介します… 続き

Josep Crego、Jitao Xu、François Yvon。

第61回計算言語学協会(ACL 2023 ) 、 2023年7月、カナダ、トロント。

手話のテキストから階層表現への例ベースの機械翻訳

本文から手話(SL)への自動翻訳の実験について述べた。大規模なコーパスを持たないため、階層式の形でSLの談話を中間表現するAZeeを使用して、例ベースのアプローチを検討しました。

Élise Bertin-Lemée、Annelies Braffort、Camille Challant、Claire Danet、Michael Filhol

18e情報とその応用 – 16e Rencontres Jeunes Chercheurs en RI — 30e Conférence sur le Traitement Automatique des Langues Naturelles — 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (TALN 2023), 2023年6月，パリ，フランス。

翻訳メモリの非自己回帰的な機械翻訳への統合

Jitao Xu、Josep Crego、François Yvon。

2023年5月、クロアチアのドゥブロヴニクで開催された第7回計算言語学協会欧州支部会議(EACL 2023 ) 、計算言語学協会。

バイリンガル同期：編集操作による翻訳関係の復元

機械翻訳(MT)は通常、ソーステキストのターゲット言語に相当する言語を最初から生成するワンショットプロセスと見なされます。ここでは、最初のターゲットシーケンスを想定した、より一般的な設定を検討します。これは、ソースの有効な変換に変換する必要があり、それによってソースとターゲットの間の並列性を復元します。このバイリンガル同期タスクでは、いくつかのアーキテクチャ（自己回帰と非自己回帰の両方）とトレーニング体制を検討し、シミュレートされたインタラクティブMT、翻訳メモリ(TM)による翻訳、TMクリーニングなどの複数の実用的な設定を試します。この結果から、1つの汎用エディットベースのシステムで、一度調整を行えば、これらのタスク用に特別にトレーニングされた専用システムと比較したり、より優れたパフォーマンスを発揮できることが示唆されています。

Jitao Xu、Josep Crego、François Yvon

2022年自然言語処理の経験的手法に関する会議(EMNLP 2022)、2022年12月、アラブ首長国連邦アブダビ

翻訳メモリを使用した非自己回帰的な機械翻訳

非自己回帰的機械翻訳(NAT)は最近大きな進歩を遂げています。しかし、Levenshtein Transformer (LevT)などのエディットベースのNAT モデルの中には、翻訳メモリ (TM)を使用した翻訳に適しているものもありますが、これまでの作業のほとんどは標準的な翻訳タスクに焦点を当てています。ここで検討するシナリオは、次のとおりです。まず、バニラLevTモデルを分析し、この設定でうまくいかない理由を説明します。次に、TM-LevTという新しいバリアントを提案し、このモデルを効果的にトレーニングする方法を示します。データ表現を修正し、追加の削除操作を導入することで、デコード負荷を軽減しながら、自己回帰アプローチと同等のパフォーマンスを得ることができます。私たちも… 続き

Jitao Xu、Josep Crego、François Yvon

2022年自然言語処理の経験的手法に関する会議(EMNLP 2022 ) 、 2022年12月、アラブ首長国連邦のアブダビ。

フランス語のライブ音声トランスクリプトの強力な翻訳

直接アプローチによってパフォーマンスのギャップが狭まっているにもかかわらず、自動音声認識(ASR)と機械翻訳(MT)を含むカスケード・ソリューションは、依然として音声翻訳(ST)で主に使用されています。単一のモデルを使用して入力音声信号を変換する直接的なアプローチは、データ不足の重大なボトルネックに苦しんでいます。さらに、複数の業界アプリケーションが翻訳と共に音声記録を表示するため、カスケードによるアプローチがより現実的かつ実用的になります。カスケード同時STのコンテキストでは、ASRシステムによって出力されたトランスクリプトを入力として取り込むために、ニューラルMTネットワークを適応させるためのいくつかのソリューションを提案します。適応は、スピーチのトランスクリプトとMTデータセットを充実させることによって達成され、それらはそれぞれをより密接に似ています… 続き

Elise Bertin-Lemée、Guillaume Klein、Josep Crego、Jean Senellart

Proceedings of the 15th Biennial Conference of the Association for Machine Translation in the Americas (Volume 2: Users and Providers Track and Government Track)、2022年9月、Orlando USA

多言語およびマルチドメイン機械翻訳の潜在グループのドロップアウト

マルチドメインおよび多言語機械翻訳は、多くの場合、パラメータ共有戦略に依存します。この戦略では、ネットワークの大部分が現在実行中のタスクの共通性をキャプチャすることを目的としていますが、小さな部分は言語またはドメインの特殊性をモデル化するために予約されています。アダプタベースのアプローチでは、タスク間の類似性に関係なく、これらの戦略はネットワークアーキテクチャ内でハードコードされます。本研究では、これらの類似性をより良く利用するための新しい方法を潜在変数モデルを用いて提案する。また、このモデルをエンドツーエンドでトレーニングするための新しい技術を開発し、学習したパターンが意味を持ち、翻訳パフォーマンスを向上させることを示す実験結果を報告します… 続き

Minh-Quang Pham、François Yvon、Josep Crego

米国計算言語学会の研究成果：NAACL 2022、2022年7月、米国シアトル

階層表現からの例ベースの多線形手話言語生成。

Boris Dauriac、Annelies Braffort、Elise Bertin-Lemée。

2022年6月、フランス、マルセイユ。

ダイナミックサンプリング戦略を用いたニューラル機械翻訳におけるマルチドメイン適応

効果的なニューラル機械翻訳モデルの構築には、目的のドメインに合わせてパフォーマンスを最適化するために、多様な異種データのセットに対応することが含まれることがよくあります。このようなマルチソース/マルチドメイン適応問題は、通常、手元のタスクに対するトレーニングインスタンスの関連性の静的評価に基づいて、インスタンスの選択または再重み付け戦略を通じてアプローチされます。本論文では、データ試料の有用性を自動的に再評価し、トレーニング中のデータ選択ポリシーを進化させることができる動的データ選択戦略を研究した。複数の実験の結果に基づいて、そのような方法が自動的かつ効果的に処理するための一般的なフレームワークを構成することを示す… 続き

MinhQuang Pham、Antoine Senellart、Dan Berrebbi、Josep Crego、Jean Senellart

2022年6月の第23回欧州機械翻訳学会年次総会の議事録（ベルギー、ゲント）

論文・出版物

企業情報

マルチレベンシュテイントランスを用いたNMTの例に向けて

BiSync：同期された単一言語テキスト用のバイリンガルエディタ

手話のテキストから階層表現への例ベースの機械翻訳

翻訳メモリの非自己回帰的な機械翻訳への統合

バイリンガル同期：編集操作による翻訳関係の復元

翻訳メモリを使用した非自己回帰的な機械翻訳

フランス語のライブ音声トランスクリプトの強力な翻訳

多言語およびマルチドメイン機械翻訳の潜在グループのドロップアウト

階層表現からの例ベースの多線形手話言語生成。

ダイナミックサンプリング戦略を用いたニューラル機械翻訳におけるマルチドメイン適応

論文・出版物

企業情報

マルチレベンシュテイントランスを用いたNMTの例に向けて

BiSync：同期された単一言語テキスト用のバイリンガル エディタ

手話のテキストから階層表現への例ベースの機械翻訳

翻訳メモリの非自己回帰的な機械翻訳への統合

バイリンガル同期：編集操作による翻訳関係の復元

翻訳メモリを使用した非自己回帰的な機械翻訳

フランス語のライブ音声トランスクリプトの強力な翻訳

多言語およびマルチドメイン機械翻訳の潜在グループのドロップアウト

階層表現からの例ベースの多線形手話言語生成。

ダイナミックサンプリング戦略を用いたニューラル機械翻訳におけるマルチドメイン適応

BiSync：同期された単一言語テキスト用のバイリンガルエディタ