IDENTIFYING UNVISITED PORTIONS OF VISITED INFORMATION
An illustrative embodiment for identifying unvisited portions of visited information to visit, receives information to crawl, wherein the information is representative of one of web based information and non-web based information, computes a locality sensitive hash (LSH) value for the received infor...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | An illustrative embodiment for identifying unvisited portions of visited information to visit, receives information to crawl, wherein the information is representative of one of web based information and non-web based information, computes a locality sensitive hash (LSH) value for the received information and identifies a most similar information visited thus far. The illustrative embodiment determines whether the LSH of the received information is equivalent to most similar information visited thus far and responsive to a determination that the LSH of the received information is not equivalent to most similar information visited thus far, identifies a visited portion of the received information using information for most similar information visited thus far and crawls only unvisited portions of the received information.
Un mode de réalisation représentatif de repérage de portions non consultées de renseignements consultés comprend la réception dinformation à rassembler, où linformation est représentative dun dun renseignement fondé sur le web et dun renseignement non fondé sur le web, le calcul dune valeur de hachage sensible localement (LSH) pour le renseignement reçu et le repérage dun renseignement le plus similaire consulté à ce moment. Le mode de réalisation représentatif détermine si le LSH du renseignement reçu est équivalent au renseignement le plus similaire consulté à ce moment et réagit à une détermination que le LSH du renseignement reçu nest pas équivalent au renseignement le plus similaire consulté à ce moment, détermine une portion consultée du renseignement reçu au moyen du renseignement du renseignement le plus similaire consulté à ce moment et rassemble uniquement les portions non consultées des renseignements reçus. |
---|