METHOD AND SYSTEM OF SIMILARITY-BASED DEDUPLICATION
A method of similarity-based deduplication is disclosed, comprising the steps of: receiving an input data block; computing discrete wavelet transform, DWT, coefficients based on the input data block; extracting feature-related DWT data from the computed DWT coefficients; applying quantization to the...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A method of similarity-based deduplication is disclosed, comprising the steps of: receiving an input data block; computing discrete wavelet transform, DWT, coefficients based on the input data block; extracting feature-related DWT data from the computed DWT coefficients; applying quantization to the extracted feature-related DWT data to obtain keys as results of the quantization; constructing a locality- sensitive fingerprint of the input data block based on the keys; computing a similarity degree between the locality-sensitive fingerprint of the input data block and a locality- sensitive fingerprint of each data block in the plurality of the data blocks in a cache memory; selecting an optimal reference data block as the data block which has the biggest similarity degree with the input data block among all data blocks in the cache memory; determining whether a differential compression is required to be applied based on the similarity degree between the input data block and the optimal reference data block; and if the differential compression is required, applying the differential compression to the input data block and the optimal reference data block. A similarity- based deduplication system is further provided.
Cette invention concerne un procédé de déduplication à base de similarités, comprenant les étapes de : la réception d'un bloc de données d'entrée ; le calcul de coefficients de transformée en ondelettes discrète (DWT) sur la base du bloc de données d'entrée ; l'extraction des données de DWT associées à des caractéristiques à partir des coefficients de DWT calculés ; l'application d'une quantification aux données de DWT associées à des caractéristiques extraites pour obtenir des clés en tant que résultats de la quantification ; la construction d'une empreinte digitale sensible à la localité du bloc de données d'entrée sur la base des clés ; le calcul d'un degré de similarité entre l'empreinte digitale sensible à la localité du bloc de données d'entrée et une empreinte digitale sensible à la localité de chaque bloc de données dans la pluralité de blocs de données dans une mémoire cache ; la sélection d'un bloc de données de référence optimal en tant que bloc de données qui a le degré de similarité le plus important avec le bloc de données d'entrée parmi tous les blocs de données dans la mémoire cache ; la détermination du fait que oui ou non une compression différentielle doit être appliquée sur la base du degré de similarité entre le bloc de donnée |
---|