SYSTEM AND METHOD TO DETECT AND GENERATE RELEVANT CONTENT FROM UNIFORM RESOURCE LOCATOR (URL)
Disclosed is a system and method to detect and generate relevant content from a received Uniform Resource Locator (URL). The system comprises an image analysis module (202), text analysis module (204), layout analysis module (206), and extraction module (208). The image analysis module (202) analyze...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Disclosed is a system and method to detect and generate relevant content from a received Uniform Resource Locator (URL). The system comprises an image analysis module (202), text analysis module (204), layout analysis module (206), and extraction module (208). The image analysis module (202) analyzes a plurality of images by capturing images from the received URL. The image analysis module (202) captures a URL screenshot from the received URL processed by an OCR engine. The text analysis module (204) analyzes the text by reading information about an HTML, file from the received URL. The text analysis module (204) utilizes a headless browser to download the HTML, file from the received URL and removes a plurality of HTML tags from the HTML file. The layout analysis module (206) analyzes a web layout by dividing the document object mode! (DOM) element blocks by scoring the height and weight of the web layout; T he layout analysis module (206) uses a JavaScript module to mark and sort each DOM element blocks by height and width. The extraction module (208) utilizes a system parser (210) to retrieve a title, and a date to classify an array of text. The extraction module (208) uses HTML metadata received by the text analysis module (204) and generates the relevant content in a textual format.
L'invention concerne un système et un procédé pour détecter et générer un contenu pertinent à partir d'un localisateur uniforme de ressources (URL) reçu. Le système comprend un module d'analyse d'image (202), un module d'analyse de texte (204), un module d'analyse d'affichage (206) et un module d'extraction (208). Le module d'analyse d'image (202) analyse une pluralité d'images par capture d'images à partir de l'URL reçu. Le module d'analyse d'image (202) capture une capture d'écran d'un URL à partir de l'adresse URL reçue traitée par un moteur OCR. Le module d'analyse de texte (204) analyse le texte en lisant des informations concernant un fichier HTML à partir de l'URL reçu. Le module d'analyse de texte (204) utilise un navigateur sans tête pour télécharger le fichier HTML à partir de l'URL reçu et élimine une pluralité de balises HTML du fichier HTML. Le module d'analyse d'affichage (206) analyse un affichage Web par division des blocs d'élément de mode objet de document (DOM) par notation de la hauteur et du poids de l'affichage Web ; le module d'analyse d'affichage (206) utilise un module JavaScript pour marquer et trier chaque bloc d'éléments DOM par hauteur et large |
---|