SYSTEMATIC MASS NORMALIZATION OF INTERNATIONAL TITLES

A system for generating a database of labeled foreign canonical titles includes an interface and a processor. The interface is to receive a title in a second language. The processor is to 1) store a set of n-grams in a first language in a first database; 2) sanitize the title into a sanitize title i...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GIVERTS, Viadimir, FAN, Xiao, AU, Michael, NAMJOSHI, Parag, Avinash, GATELEY, Kristy, BOOB, Pavan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A system for generating a database of labeled foreign canonical titles includes an interface and a processor. The interface is to receive a title in a second language. The processor is to 1) store a set of n-grams in a first language in a first database; 2) sanitize the title into a sanitize title in the second language; 3) translate the sanitized title into a translated title in the first language; 4) break the translated title into n-grams; 5) determine labels for the n-grams using the first database; and 6) determine label to associate with the title. Selon l'invention, un système de génération d'une base de données de titres canoniques étrangers étiquetés comprend une interface et un processeur. L'interface sert à recevoir un titre dans une seconde langue. Le processeur sert: à stocker dans une première base de données un ensemble de n-grammes dans une première langue; 2) à épurer le titre en un titre épuré dans la seconde langue; 3) à traduire le titre épuré en un titre traduit dans la première langue; 4) à réduire le titre traduit en n-grammes; 5) à déterminer des étiquettes pour les n-grammes au moyen de la première base de données; et 6) à déterminer une étiquette à associer au titre.