WORD BREAKER FROM CROSS-LINGUAL PHRASE TABLE
Automatically creating word breakers which segment words into morphemes is described, for example, to improve information retrieval, machine translation or speech systems. In embodiments a cross-lingual phrase table, comprising source language (such as Turkish) phrases and potential translations in...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Automatically creating word breakers which segment words into morphemes is described, for example, to improve information retrieval, machine translation or speech systems. In embodiments a cross-lingual phrase table, comprising source language (such as Turkish) phrases and potential translations in a target language (such as English) with associated probabilities, is available. In various examples, blocks of source language phrases from the phrase table are created which have similar target language translations. In various examples, inference using the target language translations in a block enables stem and affix combinations to be found for source language words without the need for input from human-judges or prior knowledge of source language linguistic rules or a source language lexicon.
L'invention concerne la création automatique de séparateurs de mots qui segmentent les mots en morphèmes pour, par exemple, améliorer l'extraction d'informations, la traduction automatique ou des systèmes de parole. Dans des modes de réalisation, une table de phrases interlangues comprenant des phrases en langue source (tel que le turc) et des traductions potentielles en langue cible (tel que l'anglais) avec des probabilités associées est disponible. Dans des exemples variés, des blocs de phrases en langue source provenant de la table de phrases sont créés avec des traductions similaires en langue cible. Dans d'autres exemples variés, une inférence utilisant des traductions en langue cible dans un bloc permet de trouver une prémisse et des combinaisons fixes pour des mots en langue source sans recours à une entrée provenant d'un expert humain ou à la connaissance préalable de règles linguistiques de langue source ou d'un lexique en langue source. |
---|