MULTI-TIERED CASCADING CRAWLING SYSTEM

Provided is a multi-tiered cascading crawling system for finding on a network information related to one or more predetermined topics or subtopics of interest. In general, embodiments of the present invention provide a system that operates in multiple "tiers," where at least some of the ou...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MOORE, MATTHEW, WHITLEY, SEAN, ZHANG, ZHE, PIASECZNY, WOJTEK, DUFFY, PAUL, DETUNO, JOE
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Provided is a multi-tiered cascading crawling system for finding on a network information related to one or more predetermined topics or subtopics of interest. In general, embodiments of the present invention provide a system that operates in multiple "tiers," where at least some of the output of one tier is used to comprise the input of the next tier. Each tier generally analyzes collections of documents on the network using successively more restrictive criteria about the subject matter of each collection and/or about which collections may be related to the one or more topics or subtopics. In general, only the final tier performs an exhaustive crawl of all of the documents of the collections that are identified by the system as being relevant to the topic or subtopic of interest. L'invention concerne un système de balayage en cascade multiniveau, qui est destiné à trouver, sur un réseau, des informations relatives à un ou plusieurs sujets ou sous-sujets d'intérêt prédéterminés. En général, des modes de réalisation ont trait à un système qui fonctionne dans des niveaux multiples, au moins une partie de la sortie d'un niveau constituant l'entrée du niveau suivant. Chaque niveau analyse globalement des collections de documents sur le réseau, à l'aide de critères de plus en plus restrictifs concernant la matière traitée dans chaque collection et/ou définissant quelles sont les collections qui peuvent être associées à un ou plusieurs sujets ou sous-sujets. En général, seul le niveau final effectue un balayage exhaustif de tous les documents des collections qui sont identifiées par le système comme étant pertinentes pour le sujet ou le sous-sujet d'intérêt.