論文・出版物

アイコン検索

企業情報

シストランは、50年以上にわたる翻訳技術分野での経験を持ち、業界における数々のイノベーションを牽引してきました。業界初のWebベース翻訳ポータルや、ビジネス向けニューラル翻訳エンジンの開発などを通じて、翻訳技術の新時代を切り開いています。

シストランは、ビジネス向けに、多言語コミュニケーション、ビッグデータ分析など、多様な領域での最先端かつセキュアな自動翻訳ソリューションを提供しています。オープンで拡張性の高いアーキテクチャを採用し、既存の他社アプリケーションやITインフラにスムーズに連携可能。

データからテキストへの生成のための拡張トランスモデル

データからテキストへの生成のための拡張トランスモデル

ニューラルモデルは最近、データベースのレコードに基づいて記述テキストを生成するデータからテキストへの生成作業に大きな進歩を示しました。本研究では、Transformerを用いた新しいデータからテキストへの変換モデルを提示し、エンドツーエンドの方法でコンテンツの選択と要約生成を学習する。ベースライン変換モデルに2つの拡張を紹介します。まず、入力の潜在的表現を変更します。これは、出力サマリーのコンテンツの正確さを大幅に向上させるのに役立ちます。第2に、コンテンツ選択モデリングを考慮した追加の学習目標を含めます。さらに、得られた生成モデルの性能をさらに向上させることに成功した2つのデータ拡張方法を提案する。評価実験は、私たちの…を示しています 続き

Jean Senellart、Josep Crego、Li Gong氏

著書: Proceedings of the 3rd Workshop on Neural Generation and Translation, pages 148-156, Association for Computational Linguistics, 2019年11月,香港,中国

SYSTRAN @ WAT 2019: ロシア・日本ニュース解説課題

SYSTRAN @ WAT 2019: ロシア・日本ニュース解説課題

本稿では、2019年の日露日露ニュース解説課題に対するSystran{'}の投稿について述べる。利用可能なリソースが非常に少なく、言語ペアの距離が長いため、翻訳タスクが困難です。提供されたリソースで学習したニューラルトランスフォーマーのアーキテクチャを使用し、データ不足の問題を軽減することを目的とした合成データ生成実験を実施しました。結果は、自動評価に従ってシステムを最初にランク付けすることを可能にするデータ拡張実験の適合性を示しています。

Jitao Xu、TuAnh Nguyen、MinhQuang Pham、Josep Crego、Jean Senellart

Proceedings of the 6th Workshop on Asian Translation, pages 189-194, Association for Computational Linguistics, 2019年11月,香港,中国

SYSTRAN @ WNGT 2019: DGT タスク

SYSTRAN @ WNGT 2019: DGT タスク

本稿では、第3回WNGT 2019のDocument-level Generation and Translation (DGT)共有タスクへのSYSTRANの参加について述べる。入力埋め込みを変更したTransformerネットワークを使用し、コンテンツの選択を考慮した追加の目的関数を最適化して、初めて参加します。ネットワークは、バスケットボールのゲームの構造化データを取り込み、ゲームの概要を自然言語で出力する。

Jean Senellart、Josep Crego、Li Gong氏

Proceedings of the 3rd Workshop on Neural Generation and Translation, pages 262-267, Association for Computational Linguistics, 2019年11月,香港,中国

パラレル コーパス フィルタリングに関するWMT2018共有タスクへのSYSTRANの参加

パラレル コーパス フィルタリングに関するWMT2018共有タスクへのSYSTRANの参加

本論文は、第3回機械翻訳に関する会議(WMT 2018)における並列コーパスフィルタリングに関する共有タスクへのSYSTRANの参加について述べる。多言語コンテキストにおける文ペアの関連性を予測することを目的としたニューラル文類似度分類器を用いて初めて参加した。本論文では、このアプローチの主な特徴を述べ、共有タスクに対して公開されたデータセットについて得られた結果について議論する。

Josep Crego、Jean Senellart、Minh Quang Pham氏

第3回機械翻訳に関する会議(WMT18)、2018年10月31日~11月1日、ベルギー、ブリュッセル

ニューラル MTのパラレル Corporaにおける翻訳の相違の修正

ニューラル MTのパラレル Corporaにおける翻訳の相違の修正

機械翻訳に対するコーパスベースのアプローチは、クリーンな並列コーパスの可用性に依存しています。そのようなリソースは乏しく、それらの準備に関与する自動プロセスのために、それらはしばしば騒々しいです。%には、予想ほど平行でない文のペアが含まれている場合があります。平行文における翻訳発散を検出するための教師なし方法について述べた。私たちは、言語間の文の類似度スコアを計算するニューラルネットワークに依存しています。このスコアは、異なる翻訳を効果的にフィルタリングするために使用されます。さらに、ネットワークによって予測された類似度スコアを使用して、部分的な相違を特定して修正し、追加の並列セグメントを生成します。英語 – フランス語および英語 – ドイツ語の機械翻訳に対して、これらの方法を評価します… 続き

ミン・クアン・ファム、ジョセップ・クレゴ、ジャン・セネラート、フランソワ・イヴォン

2018年自然言語処理の経験的手法に関する会議、2018年10月31日~11月4日、ベルギー、ブリュッセル

ニューラル機械翻訳における知識蒸留の分析

ニューラル機械翻訳における知識蒸留の分析

最近、知識蒸留がニューラル機械翻訳に適用されました。これにより、基本的にネットワークの縮小が可能になり、その結果、システムは元のモデルの品質のほとんどを維持します。多くの著者が知識蒸留の利点について報告しているにもかかわらず、特にニューラルMTの文脈では、それが機能する実際の理由について議論する作品はほとんどありません。本論文では、蒸留が英語 – ドイツ語翻訳作業の精度にどのように影響するのかを理解することを目的として、いくつかの実験を行った。蒸留/合成されたバイテキストを構築する際に、参照バイテキストと比較すると、翻訳の複雑さが実際に軽減されることを示します。さらに、合成された翻訳からノイズの多いデータを削除し、フィルタリングされた合成をマージします。 続き

Dakun Zhang、Josep Crego、Jean Senellart

第15回International Workshop on Spoken Language Translation, 10月29-30 2018年10月、ベルギー、ブルージュ

WNMT 2018のOpenNMT システムの説明: シングルコア CPUで800 ワード/秒

WNMT 2018のOpenNMT システムの説明: シングルコア CPUで800 ワード/秒

WNMT 2018評価のためのOpenNMTニューラル機械翻訳エントリのシステム記述を提示する。本研究では、高性能なCPUシステムを対象として、高度に最適化されたNMT推論モデルを開発した。最終的なシステムは、4つの手法を組み合わせて使用します。これらはすべて、(a)シーケンス蒸留、(b)アーキテクチャの変更、(c)事前計算、特にボキャブラリー、(d)CPUターゲット量子化という組み合わせで大幅な高速化につながります。この作業により、共有タスクのパフォーマンスが最速になり、OpenNMTに統合され、コミュニティで利用できる新機能の開発につながりました。

Jean Senellart、Dakun Zhang、Bo Wang、Guillaume Klein、J.P. Ramatchandirin、Josep Crego、Alexander M. Rush

2018年7月20日、オーストラリア メルボルン、Association for Computational Linguistics、「Proceedings of the 2nd Workshop on Neural Machine Translation and Generation」に掲載。 122-128ページ

アラビア語方言の識別のためのニューラルネットワークアーキテクチャ

アラビア語方言の識別のためのニューラルネットワークアーキテクチャ

SYSTRANは、アラビア語方言ID サブタスクのDSL共有タスクに今年初めて参戦します。学習に利用できる学習データが限られているにもかかわらず、競争力のある結果を得ることができることを示すいくつかのニューラルネットワークモデルをトレーニングすることで参加します。我々は我々の実験を報告し、我々の3つのランのネットワークアーキテクチャとパラメータの詳細を述べる:我々の最高の性能システムは、語彙、音声、音響の入力機能のための別々の埋め込みを学ぶマルチ入力CNNで構成されています(F1:0.5289);我々はまた、スピーチスペクトログラムから直接、空間とシーケンシャルの両方の機能をキャプチャをを目的CNN-biLSTMネットワークを構築しました(F1:0.3888999455555555555555555555555555555555555555555555555555555 続き

Elise Michon、Minh Quang Pham、Josep Crego、Jean Senellart

2018年8月20日128-136ページ、米国ニューメキシコ州に掲載された「Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects」

ニューラル機械翻訳の強化[PDF]

ニューラル機械翻訳の強化[PDF]

トレーニングの効率は、ニューラル機械翻訳(NMT)の主な問題の1つです。ディープネットワークには、最先端のパフォーマンスを実現するために、非常に大きなデータと多くのトレーニングの反復が必要です。その結果、計算コストが非常に高くなり、研究と工業化が遅くなります。本論文では、ニューラルネットワークに変更を加えることなく、データのブーストとブートストラップに基づく複数のトレーニング手法を用いて、この問題を軽減することを提案する。それは人間の学習プロセスを模倣しています。通常、簡単なものよりも「難しい」概念を学ぶときに多くの時間を費やします。20%のトレーニング時間を節約しながら、最大1.63BLEUの精度の向上を示す英語とフランス語の翻訳タスクについて実験を行いました。

Dakun Zhang、Jungi Kim、Josep Crego、Jean Senellart

2017年アジア自然言語処理連合「第8回自然言語処理に関する国際合同会議の議事録」(第2巻短編)に掲載

OpenNMT: ニューラル機械翻訳用オープンソースツールキット [PDF]

OpenNMT: ニューラル機械翻訳用オープンソースツールキット [PDF]

ニューラル機械翻訳(NMT)用のオープンソースツールキットについて説明します。このツールキットは、競争力のあるパフォーマンスと合理的なトレーニング要件を維持しながら、モデル・アーキテクチャ、機能表現、ソース・モダリティに関するNMTの研究をサポートすることを目的として、効率性、モジュール性、拡張性に優先順位を付けています。このツールキットは、モデリングと翻訳のサポート、および基礎となるテクニックに関する詳細な教育文書で構成されています。

Guillaume Klein、Yoon Kim、Yuntian Deng、Jean Senellart、Alexander Rush

Proceedings of ACL 2017, System Demonstrationsに掲載, 67-72, Association for Computational Linguistics, 2017, バンクーバー, カナダ