LEARNING TO TRANSFORM SENSITIVE DATA WITH VARIABLE DISTRIBUTION PRESERVATION

Preserving distributions of data values of a data asset in a data anonymization operation is provided. Anonymizing data values is performed by transforming sensitive data in a set of columns over rows of the data asset while preserving distribution of the data values in the set of transformed column...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	DESAI, Rajesh M, AGGARWAL, Aniya, NATARAJAN, Arjun, KUNDU, Ashish, QIAO, Mu, PAYNE, Joshua F, RAPHAEL, Roger C
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Preserving distributions of data values of a data asset in a data anonymization operation is provided. Anonymizing data values is performed by transforming sensitive data in a set of columns over rows of the data asset while preserving distribution of the data values in the set of transformed columns to a defined degree using a set of autoencoders and loss function. The autoencoders are base trained from preexisting data in a data assets catalog and actively trained during data dissemination. Parametric coefficients of the loss function are configured and the threshold is generated using policies from an enforcement decision for the data asset and data consumer. The loss function value of a selected row is compared to the threshold. Transformed data values of the selected row are transcribed to an output row when the loss function value is greater than the threshold and disseminated to the data consumer. L'invention concerne la préservation de distributions de valeurs de données d'un actif de données dans une opération d'anonymisation de données. L'anonymisation de valeurs de données est effectuée par transformation de données sensibles dans un ensemble de colonnes sur des rangées de l'actif de données tout en préservant la distribution des valeurs de données dans l'ensemble de colonnes transformées à un degré défini à l'aide d'un ensemble d'autocodeurs et d'une fonction de perte. Les autocodeurs sont soumis à une formation de base à partir de données préexistantes dans un catalogue d'actifs de données et sont soumis à une formation active pendant la diffusion de données. Des coefficients paramétriques de la fonction de perte sont configurés et le seuil est généré à l'aide de politiques provenant d'une décision d'application pour l'actif de données et le consommateur de données. La valeur de fonction de perte d'une rangée sélectionnée est comparée au seuil. Les valeurs de données transformées de la rangée sélectionnée sont transcrites sur une rangée de sortie lorsque la valeur de fonction de perte est supérieure au seuil et diffusées au consommateur de données.