ACTIVE LABELING FOR COMPUTER-HUMAN INTERACTIVE LEARNING

A collection of data that is extremely large can be difficult to search and/or analyze. Relevance may be dramatically improved by automatically classifying queries and web pages in useful categories, and using these classification scores as relevance features. A thorough approach may require buildin...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: LAKSHMIRATAN, APARNA, SIMARD, PATRICE Y, CHARLES, DENIS X, BOTTOU, LEON, CHICKERING, DAVID MAX
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A collection of data that is extremely large can be difficult to search and/or analyze. Relevance may be dramatically improved by automatically classifying queries and web pages in useful categories, and using these classification scores as relevance features. A thorough approach may require building a large number of classifiers, corresponding to the various types of information, activities, and products. Creation of classifiers and schematizers is provided on large data sets. Exercising the classifiers and schematizers on hundreds of millions of items may expose value that is inherent to the data by adding usable meta-data. Some aspects include active labeling exploration, automatic regularization and cold start, scaling with the number of items and the number of classifiers, active featuring, and segmentation and schematization. Il peut être difficile d'effectuer une recherche et/ou une analyse dans un ensemble de données qui est extrêmement vaste. La présente invention permet d'en améliorer considérablement la pertinence grâce au classement automatique des interrogations et des pages Web dans des catégories utiles et à l'utilisation de ces scores de classement comme des attributs de pertinence. Une approche rigoureuse peut nécessiter la création d'un grand nombre de classificateurs correspondant aux divers types d'information, d'activités et de produits. La création de classificateurs et de schématiseurs est prévue sur de vastes ensembles de données. L'application de ces classificateurs et schématiseurs à des centaines de millions d'articles peut exposer une valeur qui est inhérente aux données grâce à l'ajout de métadonnées exploitable. Certains aspects comprennent l'exploration par étiquetage actif, la régularisation automatique et le démarrage à froid, la mise à l'échelle avec le nombre d'articles et le nombre de classificateurs, l'utilisation active d'attributs, et la segmentation et la schématisation.