DATA QUALITY ANALYSIS
A method includes receiving information indicative of an output dataset generated by a data processing system; identifying, based on data lineage information relating to the output dataset, one or more upstream datasets on which the output dataset depends; analyzing one or more of the identified one...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method includes receiving information indicative of an output dataset generated by a data processing system; identifying, based on data lineage information relating to the output dataset, one or more upstream datasets on which the output dataset depends; analyzing one or more of the identified one or more upstream datasets on which the output dataset depends. The analyzing includes, for each particular upstream dataset of the one or more upstream datasets, applying one or more of: (i) a first rule indicative of an allowable deviation between a profile of the particular upstream dataset and a reference profile for the particular upstream dataset, and (ii) a second rule indicative of one or more allowable values or prohibited values for each of one or more data elements in the particular upstream dataset, and based on the results of applying the one or more rules, selecting one or more of the upstream datasets. The method includes outputting information associated with the selected one or more upstream datasets.
Des systèmes, des produits et des méthodes sont décrits pour déterminer une règle de qualité des données pour un champ en particulier d'un ensemble de données. La méthode comprend l'analyse de fiches de données dans au moins une instance en particulier de l'ensemble de données, y compris l'analyse des éléments de données du champ en particulier des fiches de données analysées pour déterminer un profil de référence pour le champ en particulier pour les fiches de données analysées dans toute instance en particulier de l'ensemble de données. En fonction du profil de référence, une règle de qualité des données pour le champ en particulier de l'ensemble de données est déterminée. La règle de qualité des données est indicative de ce qui suit : (i) une déviation acceptable entre le profil de référence et un profil du champ en particulier dans une instance de l'ensemble de données; (ii) une valeur acceptable d'un élément de données pour le champ en particulier d'une fiche de données d'une instance de l'ensemble de données; ou (iii) une valeur interdite d'un élément de données pour le champ en particulier d'une fiche de données d'une instance de l'ensemble de données. |
---|