論文・出版物

企業情報

シストランは、50年以上にわたる翻訳技術分野での経験を持ち、業界における数々のイノベーションを牽引してきました。業界初のWebベース翻訳ポータルや、ビジネス向けニューラル翻訳エンジンの開発などを通じて、翻訳技術の新時代を切り開いています。

シストランは、ビジネス向けに、多言語コミュニケーション、ビッグデータ分析など、多様な領域での最先端かつセキュアな自動翻訳ソリューションを提供しています。オープンで拡張性の高いアーキテクチャを採用し、既存の他社アプリケーションやITインフラにスムーズに連携可能。

Rosetta-LSF: フランス語の手話とフランス語の手話を組み合わせたコーパス

Elise Bertin-Lemée、Annelies Braffort、Camille Challant、Claire Danet、Boris Dauriac、Michael Filhol、Emmanuella Martinod、Jérémie Segouatが含まれます。

第13回言語資源評価会議(LREC 2022 ) 、 2022年6月、フランスのマルセイユ。

デュアルデコードによる字幕と字幕の共同生成

オーディオビジュアルコンテンツの量が増えるにつれて、増加する国際的な視聴者の期待に合わせて自動キャプションと字幕ソリューションを開発する必要性が、スループットを向上させ、関連するポストプロダクションのコストを削減する唯一の実行可能な方法として現れます。自動キャプションと字幕は、適切なレベルの一貫性と同期を実現するために、ビデオ信号と緊密に絡み合う必要があります。この研究では、これら2つのタスク間の強力な結合を実現するためのデュアル復号化方式を評価し、モデルサイズとトレーニングの複雑さの点で実質的に追加コストなしで、妥当性と一貫性がどのように高められるかを示します。

Proceedings of the 19th International Conference on Spoken Language Translation (IWSLT 2022 ) , 2022年5月，ダブリン，アイルランド

SYSTRAN @ WMT 2021：用語集タスク

この文書では、WMT 2021用語共有タスクに対するSYSTRANの送信について説明します。私たちは、標準的なTransformerニューラル機械翻訳ネットワークを使用して英語からフランス語への翻訳の方向性に参加しています。このネットワークは、用語の制約を動的に含める機能を強化し、非常に一般的な産業慣行です。2つの最先端の用語挿入方法が、(i)形態統語的注釈で補完されたプレースホルダの使用と、(ii)ソースストリームに注入されたターゲット制約の使用に基づいて評価される。結果は、一般的なデータのみでトレーニングされたシステムで用語集が使用される評価済みシナリオにおいて、提示されたアプローチの適合性を示しています

MinhQuang Pham、Antoine Senellart、Dan Berrebbi、Josep Crego、Jean Senellart

Proceedings of the第六th Conference on Machine Translation (WMT), Online, 2021年11月10日～11日

マルチドメインの機械翻訳の再検討

機械翻訳システムを構築する際には、多くの場合、トレーニングで異種の並列データのセットを最大限に活用し、テストで予期しないドメインからの入力を確実に処理する必要があります。このマルチドメインシナリオは、最近の研究の多くを引き付けています。それは、トランスファー学習の一般的な傘の下にあります。本研究では、マルチドメイン機械翻訳を再検討し、そのようなシステムを開発する動機とそれに伴うパフォーマンスに関する期待を策定することを目的としています。多領域システムの大規模なサンプルを用いた実験は、これらの期待のほとんどが満たされていないことを示し、多領域の現在の挙動をより良く分析するためにさらなる作業が必要であることを示唆している… 続き

MinhQuang Pham、Josep Maria Crego、François Yvon氏

計算言語学会の取引9: 2021年2月1日17-35

ドメイン用語のニューラル機械翻訳への統合

この論文では、用語の統合に関する既存の作業を、特定の分野に翻訳を動的に適応させる一般的な産業慣行であるニューラル機械翻訳に拡張します。本手法は、形態統語的なアノテーションを補完したプレースホルダの使用に基づき、ニューラルネットワークの能力を効率的に活用し、象徴的な知識に対処して、代替技術で示される表面一般化を上回る能力を発揮します。最新のシステムに対するアプローチを比較し、全体的なパフォーマンスだけでなく、用語の実際の適用に焦点を当てた、明確な評価フレームワークを通じてベンチマークします。この結果は、一般的なデータのみでトレーニングされたシステムで用語集を使用する場合のユースケースにおける本手法の適性を示しています。

Jean Senellart、Josep Maria Crego、Elise Michon氏

第28回計算言語学国際会議の議事録（2020年12月）

マルチドメインのニューラル機械翻訳のための残留アダプタの研究

ドメインアダプテーションは、機械翻訳システムにとって古くて厄介な問題です。最も一般的なアプローチで、監視された適応を成功させるのは、ドメイン内の並列データを使用してベースラインシステムを微調整することです。ただし、標準の微調整では、すべてのネットワークパラメータが変更されるため、この方法は計算費用がかかり、過剰調整が発生しやすくなります。最近の軽量なアプローチでは、補助（小）アダプタレイヤーを使用してベースラインモデルを拡張し、モードの残りの部分を変更しません。これにより、ベースラインモデルを変更せずに、複数のドメインに適応できるメリットが得られます。本稿では、アダプタモデルの詳細な分析をマルチドメイン機械翻訳タスクの文脈で行う。複数を対比… 続き

MinhQuang Pham、Josep Maria Crego、François Yvon、Jean Senellart

第5回機械翻訳会議の議事録、2020年11月

プライミングニューラル機械翻訳

プライミングは、応答の処理に影響を与える1つの刺激（キュー）の事前の提示に基づいたよく知られた研究された心理学的現象です。本論文では、ニューラル機械翻訳(NMT)の文脈におけるプライミングのプロセスを模倣するフレームワークを提案する。NMTネットワーク上のプライミングキューとして同様の翻訳を使用した場合の効果を評価します。我々は、NMTネットワークにプライミングキューを注入する方法を提案し、推論中にマイクロアダプテーションを行う他のメカニズムと比較する。全体として、マルチドメイン設定で行われた実験では、NMTデコーダにプライミングキューを追加すると、翻訳の改善に大きく役立つことを確認しています… 続き

MinhQuang Pham、Jitao Xu、Josep Maria Crego、François Yvon、Jean Senellart

第5回機械翻訳会議の議事録、2020年11月

OpenNMTによる効率的で高品質なニューラル機械翻訳

本稿では、WNGT 2020の効率性共有タスクに対するOpenNMTの提出について述べる。教師と生徒のセットアップで訓練された様々なサイズのTransformerモデルのトレーニングと加速を探ります。また、依存関係の少ない高速なCPUとGPUのデコードを可能にする、カスタムで最適化されたC++推論エンジンも紹介します。さらなる最適化と並列化技術を組み合わせることで、小型で効率的かつ高品質なニューラル機械翻訳モデルを作成します。

Guillaume Klein、Dakun Zhang、Clément Chouteau、Josep Crego、Jean Senellart

Proceedings of the 4th Workshop on Neural Generation and Translation, pages 211-217, Association for Computational Linguistics, 2020年7月

同様の翻訳でニューラル機械翻訳を強化

このプレゼンテーションでは、人間の翻訳者がファジーマッチを使用するのと同様の方法で、同様の翻訳を利用するためのニューラル機械翻訳のデータ拡張方法を示します。私たちは、あいまい一致のソース側とターゲット側の両方の情報をニューラルモデルに単に供給する方法を示し、分散文表現を使用して検索された意味的に関連する翻訳を含むように類似性を拡張します。ファジーマッチングに基づく翻訳は«コピー»情報をモデルに提供し、類似点を埋め込むことに基づく翻訳は翻訳«コンテキスト»を拡張する傾向があることを示しています。結果は、両方の同様の文からの効果がさらに精度を高めるために合計されていることを示しています， ... 続き

Jitao Xu、Josep Crego、Jean Senellart

Proceedings of the第六th Conference on Machine Translation (WMT), Online, 2021年11月10日～11日

マルチドメイン機械翻訳のための汎用および特殊なワード埋め込み

教師あり機械翻訳は、列車と試験データを同じ分布からサンプリングする場合に適しています。そうでない場合、適応技術は、ドメイン外のテキストから学んだ知識がドメイン内の文に一般化することを保証するのに役立ちます。ここでは、関連する設定であるマルチドメイン適応について検討します。この設定では、ドメインの数が多くなる可能性があり、各ドメインに個別に適応すると、トレーニングリソースが無駄になります。この提案は、(Daum'{e} III, 2007)の機能拡張技術であるニューラル機械翻訳に置き換えられました。ドメインに依存しない語彙表現からドメインに依存しない表現を切り離し、ドメイン間でネットワークの大部分を共有します。私たちの実験では、2つのアーキテクチャと2つの言語ペアを使用しています。彼らは私たちのアプローチを示していますが… 続き

ミン・クアン・ファム、ジョセップ・クレゴ、ジャン・セネラート、フランソワ・イヴォン

著書：「International Workshop on Spoken Language Translation」、「Proceedings of the 16th International Workshop on Spoken Language Translation (IWSLT)」、2019年11月、香港、中国

論文・出版物

企業情報

Rosetta-LSF: フランス語の手話とフランス語の手話を組み合わせたコーパス

デュアルデコードによる字幕と字幕の共同生成

SYSTRAN @ WMT 2021：用語集タスク

マルチドメインの機械翻訳の再検討

ドメイン用語のニューラル機械翻訳への統合

マルチドメインのニューラル機械翻訳のための残留アダプタの研究

プライミング ニューラル機械翻訳

OpenNMTによる効率的で高品質なニューラル機械翻訳

同様の翻訳でニューラル機械翻訳を強化

マルチドメイン機械翻訳のための汎用および特殊なワード埋め込み

プライミングニューラル機械翻訳