SYSTEMS, METHODS, AND SOFTWARE FOR ENTITY RELATIONSHIP RESOLUTION

To facilitate access to public records, the present inventors devised, among other things, an entity resolution system. The exemplary system includes master records database of 300 million entities, which is partitioned into multiple distinct portions. The exemplary system extracts entity informatio...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CONRAD, JACK G, DOZIER, CHRISTOPHER C, VEERAMACHANENI, HARSHA
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:To facilitate access to public records, the present inventors devised, among other things, an entity resolution system. The exemplary system includes master records database of 300 million entities, which is partitioned into multiple distinct portions. The exemplary system extracts entity information from input public records and constructs one or more blocking queries against specific portions of the master records database to identify one or more sets of candidate records. Feature vectors are defined for the candidate records and machine learning techniques, such as Support Vector Machine, are used to determine which of the candidate records from the master records database match the input public records. Candidate records that match are logically associated with public records, enabling ready access via direct or indirect queries. L'invention concerne entre autres un système de résolution d'entités destiné à faciliter l'accès à des documents publics. Le système décrit à titre d'exemple comprend une base de données d'enregistrements d'origine contenant 300 millions d'entités, partitionnée en sections multiples distinctes. Le système décrit à titre d'exemple extrait des informations d'entités à partir de documents publics introduits et construit une ou plusieurs requêtes de délimitation de blocs visant des sections spécifiques de la base de données d'enregistrements d'origine afin d'identifier un ou plusieurs ensembles d'enregistrements candidats. Des vecteurs de caractéristiques sont définis pour les enregistrements candidats et des techniques d'apprentissage automatique, comme la Support Vector Machine, sont utilisées pour déterminer lesquels des enregistrements candidats de la base de données d'enregistrements d'origine correspondent aux documents publics introduits. Les enregistrements candidats qui correspondent sont associés de manière logique à des documents publics, permettant un accès aisé à travers des requêtes directes ou indirectes.