SYSTEMS AND METHODS FOR TRAINING TRANSLATION MODELS USING SOURCE-AUGMENTED TRAINING EXAMPLES

Systems and methods for training a translation model based on a first text sequence in a first language, a second text sequence in a second language different from the first language, and a label based on a source of the second text sequence. In some examples, the label may comprise an Internet doma...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: RATNAKAR, Viresh, SHAH, Apurva, KRIKUN, Maxim, JOHNSON, Melvin, HUANG, Jing
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Systems and methods for training a translation model based on a first text sequence in a first language, a second text sequence in a second language different from the first language, and a label based on a source of the second text sequence. In some examples, the label may comprise an Internet domain, an Internet subdomain, a uniform resource locator, a website name, or an IP address. In some examples, the label may further indicate a source of the first text sequence. In some examples, each given training example may be automatically generated by sampling the first text sequence from a first page of a given Internet domain, sampling the second text sequence from a second page of the given Internet domain, and generating the label based on all or a portion of source data of the second page. Systèmes et procédés d'entraînement d'un modèle de traduction sur la base d'une première séquence de texte dans une première langue, d'une seconde séquence de texte dans une seconde langue différente de la première langue, et d'une étiquette sur la base d'une source de la seconde séquence de texte. Dans certains exemples, l'étiquette peut comprendre un domaine Internet, un sous-domaine Internet, un localisateur uniforme de ressources, un nom de site Web ou une adresse IP. Dans certains exemples, l'étiquette peut en outre indiquer une source de la première séquence de texte. Dans certains exemples, chaque exemple d'entraînement donné peut être automatiquement généré par échantillonnage de la première séquence de texte à partir d'une première page d'un domaine Internet donné, par échantillonnage de la seconde séquence de texte à partir d'une seconde page du domaine Internet donné, et par génération de l'étiquette sur la base de la totalité ou d'une partie de données de source de la seconde page.