SYSTEMS AND METHODS FOR DATA PARSING
Systems and methods for data parsing are disclosed. In one aspect, a method of parsing raw data associated with one or more transactions involves receiving a text string including raw data for a transaction, matching the text string to a plurality of locations within a location corpus to extract loc...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Systems and methods for data parsing are disclosed. In one aspect, a method of parsing raw data associated with one or more transactions involves receiving a text string including raw data for a transaction, matching the text string to a plurality of locations within a location corpus to extract location information from the text string, and identifying a candidate entity from the text string based on a similarity score with respect to a plurality of entities within an entity corpus. The method further involves in response to the similarity score of the identified candidate entity being less than a threshold score, generating entity information using the tokens indicative of entity information, and generating normalized transaction data including the extracted location information and one of the identified candidate entity or the generated entity information.
Des systèmes et des procédés d'analyse de données sont divulgués. Selon un aspect de l'invention, un procédé d'analyse de données brutes associées à une ou plusieurs transactions consiste à recevoir une chaîne de texte comprenant des données brutes pour une transaction, à mettre en correspondance la chaîne de texte avec une pluralité d'emplacements à l'intérieur d'un corpus de localisation pour extraire des informations d'emplacement à partir de la chaîne de texte, et à identifier une entité candidate à partir de la chaîne de texte sur la base d'un score de similarité par rapport à une pluralité d'entités à l'intérieur d'un corpus d'entités. Le procédé consiste en outre, en réponse au fait que le score de similarité de l'entité candidate identifiée est inférieur à un score seuil, à générer des informations d'entité à l'aide de jetons indicatifs d'informations d'entité, et à générer des données de transaction normalisées comprenant les informations d'emplacement extraites et l'entité candidate identifiée ou les informations d'entité générées. |
---|