COMPUTING DEVICE AND METHOD FOR CONVERTING UNSTRUCTURED DATA TO STRUCTURED DATA

A computing device and method are provided for converting unstructured data to structured data having a predetermined format. The computing device includes a memory storing unstructured data, an input device, a display, and a processor. The processor retrieves the unstructured data, loads parsing ru...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CHENG, JERRY, RONG, RICKY, HEAVENRICH, SAM, XIONG, CHUHAN
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A computing device and method are provided for converting unstructured data to structured data having a predetermined format. The computing device includes a memory storing unstructured data, an input device, a display, and a processor. The processor retrieves the unstructured data, loads parsing rules defining associations between properties of the unstructured data and the predetermined format, and applies the parsing rules to the unstructured data, dividing the unstructured data into sections. The sections contain portions of the unstructured data in fields defined by the predetermined format, and are presented on the display. A template is generated based on the sections, including, for each section, a record identifying the properties of the unstructured data contained in that section, and identifying corresponding fields of the predetermined format and values for those fields. The template is stored, and the sections are stored as structured data. La présente invention porte sur un dispositif informatique et un procédé pour convertir des données non structurées en données structurées ayant un format prédéterminé. Le dispositif informatique comprend une mémoire stockant des données non structurées, un dispositif d'entrée, un dispositif d'affichage et un processeur. Le processeur récupère les données non structurées, charge des règles d'analyse définissant des associations entre des propriétés des données non structurées et le format prédéterminé, et applique les règles d'analyse aux données non structurées, divisant les données non structurées en sections. Les sections contiennent des parties des données non structurées dans des champs définis par le format prédéterminé, et sont présentées sur le dispositif d'affichage. Un modèle est généré sur la base des sections, comprenant, pour chaque section, un enregistrement identifiant les propriétés des données non structurées contenues dans cette section, et identifiant des champs correspondants du format prédéterminé et des valeurs pour ces champs. Le modèle est stocké, et les sections sont stockées sous la forme de données structurées.