DATA CLASSIFICATION USING DATA FLOW ANALYSIS

Described herein is a system and method for utilizing data flow analysis to perform data classification with respect to a source dataset and a generated derived dataset. A flow confidence for a field is calculated using an adaptive algorithm in accordance with the action performed and the derived da...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: HERBERT, Steven, ASIPOV, Boris, GUHA, Saikat, HAO, Guoyu
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Described herein is a system and method for utilizing data flow analysis to perform data classification with respect to a source dataset and a generated derived dataset. A flow confidence for a field is calculated using an adaptive algorithm in accordance with the action performed and the derived dataset. An associated derived confidence for a particular tag is calculated in accordance with an associated confidence and the flow confidence. When the associated derived confidence is greater than or equal to a first threshold, the particular tag is copied to the derived dataset. In some embodiments, when the associated derived confidence is less than or equal to a second threshold, the particular tag is not copied to the derived dataset. Otherwise an action to be taken is identified. A response to the action is received and the adaptive algorithm is modified in accordance with the received response. L'invention concerne un système et un procédé d'utilisation d'une analyse de flux de données pour effectuer une classification de données par rapport à un ensemble de données source et à un ensemble de données dérivé généré. Un taux de confiance de flux est calculé pour un champ donné à l'aide d'un algorithme adaptatif, selon l'action effectuée et l'ensemble de données dérivé. Un taux de confiancedérivé associé est calculé pour une balise particulière, selon un taux de confiance associé et le taux de confiance de flux. Lorsque le taux de confiance dérivé associé est supérieur ou égal à un premier seuil, la balise particulière est copiée dans l'ensemble de données dérivé. Dans certains modes de réalisation, le taux de confiance associé dérivé est inférieur ou égal à un second seuil et la balise particulière n'est pas copiée vers l'ensemble de données dérivé. Sinon, une action à prendre est identifiée. Une réponse à l'action est reçue et l'algorithme adaptatif est modifié selon la réponse reçue.