METHOD AND SYSTEM OF SIMILARITY-BASED DEDUPLICATION

A method of similarity-based deduplication is disclosed, comprising the steps of: receiving an input data block; computing discrete wavelet transform, DWT, coefficients based on the input data block; extracting feature-related DWT data from the computed DWT coefficients; applying quantization to the...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	BABIN, Dmitry Nicolaevich, GUAN, Kun, PARKHOMENKO, Denis Vladimirovich, PARFENOV, Denis Vasilievich, MOISEEV, Stanislav Vladimirovich
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	BASIC ELECTRONIC CIRCUITRY CALCULATING CODE CONVERSION IN GENERAL CODING COMPUTING COUNTING DECODING ELECTRIC DIGITAL DATA PROCESSING ELECTRICITY PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	A method of similarity-based deduplication is disclosed, comprising the steps of: receiving an input data block; computing discrete wavelet transform, DWT, coefficients based on the input data block; extracting feature-related DWT data from the computed DWT coefficients; applying quantization to the extracted feature-related DWT data to obtain keys as results of the quantization; constructing a locality- sensitive fingerprint of the input data block based on the keys; computing a similarity degree between the locality-sensitive fingerprint of the input data block and a locality- sensitive fingerprint of each data block in the plurality of the data blocks in a cache memory; selecting an optimal reference data block as the data block which has the biggest similarity degree with the input data block among all data blocks in the cache memory; determining whether a differential compression is required to be applied based on the similarity degree between the input data block and the optimal reference data block; and if the differential compression is required, applying the differential compression to the input data block and the optimal reference data block. A similarity- based deduplication system is further provided. Cette invention concerne un procédé de déduplication à base de similarités, comprenant les étapes de : la réception d'un bloc de données d'entrée ; le calcul de coefficients de transformée en ondelettes discrète (DWT) sur la base du bloc de données d'entrée ; l'extraction des données de DWT associées à des caractéristiques à partir des coefficients de DWT calculés ; l'application d'une quantification aux données de DWT associées à des caractéristiques extraites pour obtenir des clés en tant que résultats de la quantification ; la construction d'une empreinte digitale sensible à la localité du bloc de données d'entrée sur la base des clés ; le calcul d'un degré de similarité entre l'empreinte digitale sensible à la localité du bloc de données d'entrée et une empreinte digitale sensible à la localité de chaque bloc de données dans la pluralité de blocs de données dans une mémoire cache ; la sélection d'un bloc de données de référence optimal en tant que bloc de données qui a le degré de similarité le plus important avec le bloc de données d'entrée parmi tous les blocs de données dans la mémoire cache ; la détermination du fait que oui ou non une compression différentielle doit être appliquée sur la base du degré de similarité entre le bloc de donnée