SYSTEM AND METHOD FOR CREATING AND MAINTAINING A DATABASE OF DISAMBIGUATED ENTITY MENTIONS AND RELATIONS FROM A CORPUS OF ELECTRONIC DOCUMENTS

Method and apparatus for creating an electronic database of disambiguated entity mentions and relations from a corpus of electronic documents. The invention automatically extracts from the corpus of electronic documents mentions about entities (e.g., references to people, organizations or places), p...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HAWKS, MARSHALL, WELLS, WOYTOWITZ, MICHAEL, A
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Method and apparatus for creating an electronic database of disambiguated entity mentions and relations from a corpus of electronic documents. The invention automatically extracts from the corpus of electronic documents mentions about entities (e.g., references to people, organizations or places), parses the entity mentions into "mention objects," and executes a series of grouping, comparison and hierarchical fuzzy object clustering algorithms to cluster together in an electronic database all of the mention objects referring to the same entity and all of the mention objects (e.g. "people") associated with each other by a relationship (e.g., "co-authors" or "family members"). The resulting electronic database of disambiguated entity mentions and relations, which may comprise, for example, an XML document, a relational database or hierarchical database, is structured to permit useful recordation, access, review and display of all of the mentions and relations associated with a particular entity or collection of entities. L'invention concerne un procédé et un appareil de création d'une base de données électronique de mentions d'entité désambiguïsées et de relations à partir d'un corpus de documents électroniques. L'invention extrait automatiquement du corpus de documents électroniques des mentions concernant des entités (par exemple des références à des personnes, à des organisations ou à des lieux), décompose les mentions d'entité en « objets de mention », et exécute une série d'algorithmes de groupement, de comparaison et de regroupement d'objets flous, hiérarchiques, afin de regrouper ensemble dans une base de données électronique tous les objets de mention se rapportant à la même entité et tous les objets de mention (par exemple des « personnes ») associés l'un à l'autre par une relation (par exemple « co-auteurs » ou « membres d'une même famille »). La base de données électronique résultante de mentions d'entité désambiguïsées et de relations, qui peut comprendre, par exemple, un document XML, une base de données relationnelle ou une base de données hiérarchique, est structurée pour permettre un enregistrement, un accès, un examen et un affichage utiles de toutes les mentions et relations associées à une entité ou à une collection d'entités particulière.