DOMAIN-SPECIFIC UNSTRUCTURED TEXT RETRIEVAL

Retrieving from the Internet unstructured text related to a specified domain is described. Training data is accessed; the training data comprises unstructured text related to the specified domain. A first classifier is trained using features of the training data. It is used to classify unstructured...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ABDELAZIZ, Sayed Hassan Sayed, ABDEL-REHEEM, Eslam Kamal Abdel-Aal, MARTON, Yuval Yehezkel, GERGUIS, Michel Naim Naguib, CHALABI, Achraf Abdel Moneim Tawfik
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Retrieving from the Internet unstructured text related to a specified domain is described. Training data is accessed; the training data comprises unstructured text related to the specified domain. A first classifier is trained using features of the training data. It is used to classify unstructured text having plurality of features, to obtain unstructured text examples related to the domain. The unstructured text examples are used to retrieve from the Internet similar examples which do not have at least some of the plurality of features. Optionally, a second classifier is trained using the similar examples. Additional unstructured text is retrieved from the Internet and the second classifier is used to label the additional unstructured text for domain relevance. L'invention concerne une extraction, de l'Internet, d'un texte non structuré relatif à un domaine spécifié. Des données d'apprentissage font l'objet d'un accès; les données d'apprentissage comprenant un texte non structuré relatif au domaine spécifié. Un premier classificateur fait l'objet d'un apprentissage au moyen de caractéristiques des données d'apprentissage. Ce dernier intervient pour classifier un texte non structuré comportant une pluralité de caractéristiques, de façon à obtenir des exemples de texte non structuré relatifs au domaine. Les exemples de texte non structuré sont utilisés pour extraire, de l'Internet, des exemples similaires qui ne possèdent pas au moins certaines caractéristiques de la pluralité de caractéristiques. Un second classificateur fait éventuellement l'objet d'un apprentissage au moyen des exemples similaires. Un texte non structuré supplémentaire est extrait de l'Internet et le second classificateur intervient pour marquer le texte non structuré supplémentaire en ce qui concerne la pertinence de domaine.