DATA QUALITY ANALYSIS
A method includes receiving information indicative of an output dataset generated by a data processing system; identifying, based on data lineage information relating to the output dataset, one or more upstream datasets on which the output dataset depends; analyzing one or more of the identified one...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method includes receiving information indicative of an output dataset generated by a data processing system; identifying, based on data lineage information relating to the output dataset, one or more upstream datasets on which the output dataset depends; analyzing one or more of the identified one or more upstream datasets on which the output dataset depends. The analyzing includes, for each particular upstream dataset of the one or more upstream datasets, applying one or more of: (i) a first rule indicative of an allowable deviation between a profile of the particular upstream dataset and a reference profile for the particular upstream dataset, and (ii) a second rule indicative of one or more allowable values or prohibited values for each of one or more data elements in the particular upstream dataset, and based on the results of applying the one or more rules, selecting one or more of the upstream datasets. The method includes outputting information associated with the selected one or more upstream datasets.
L'invention concerne un procédé qui consiste à recevoir des informations indicatives d'un ensemble de données de sortie généré par un système de traitement de données ; à identifier, sur la base d'informations de lignage de données concernant l'ensemble de données de sortie, un ou plusieurs ensembles de données amont desquels l'ensemble de données de sortie dépend ; à analyser un ou plusieurs du ou des ensembles de données amont identifiés desquels l'ensemble de données de sortie dépend. L'analyse consiste, pour chaque ensemble de données amont particulier du ou des ensembles de données amont, à appliquer une ou plusieurs des règles suivantes : (i) une première règle indicative d'un écart admissible entre un profil de l'ensemble de données amont particulier et un profil de référence pour l'ensemble de données amont particulier, et (ii) une seconde règle indicative d'une ou plusieurs valeurs admissibles ou d'une ou plusieurs valeurs interdites pour chacun d'un ou plusieurs éléments de données dans l'ensemble de données amont particulier, et sur la base des résultats de l'application de la ou des règles, à sélectionner un ou plusieurs des ensembles de données amont. Le procédé consiste à délivrer des informations associées au ou aux ensembles de données amont sélectionnés. |
---|