METHOD FOR STORING A DATA PAGE IN A DATA STORAGE DEVICE USING SIMILARITY BASED DATA REDUCTION

Provided a method of storing a received data page (202) in a data storage device (102). The method includes (i) obtaining a set of samples including a group of samples including two or more samples of the received data page when the received data page is received, (ii) calculating a new hash value f...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: ROMANOVSKII, Aleksei Valentinovich, CHERNOV, Sergey Alexandrovich, ARKHIPOV, Denis Yurievich, KHARIN, Vitaliy Sergeevich
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Provided a method of storing a received data page (202) in a data storage device (102). The method includes (i) obtaining a set of samples including a group of samples including two or more samples of the received data page when the received data page is received, (ii) calculating a new hash value for each of the two or more samples, (iii) identifying one or more of the page identifiers (302AA-NN, 404AA-NN) associating one or more pre-calculated hash value that are in a key-value store (300), (iv) sorting identified page identifiers by number of times they are identified, (v) determining a degree of similarity, measured by a number of matching data substrings, between received data page and one or more pages corresponding to one or more of sorted identifiers, substring being a sequence of bytes in page, and (vi) handling the received data page in dependence of the degree of similarity. L'invention concerne un procédé de stockage d'une page de données reçue (202) dans un dispositif de stockage de données (102). Le procédé consiste (i) à obtenir un ensemble d'échantillons comprenant un groupe d'échantillons comprenant au moins deux échantillons de la page de données reçue lorsque la page de données reçue est reçue, (ii) à calculer une nouvelle valeur de hachage pour chacun des deux échantillons ou plus, (iii) à identifier un ou plusieurs des identifiants de page (302 AA-NN, 404 AA-NN) associant une ou plusieurs valeurs de hachage pré-calculées qui sont dans une mémoire de valeurs de clés (300), (iv) à trier les identifiants de page identifiés par le nombre de fois qu'ils sont identifiés, (v) à déterminer un degré de similarité, mesuré par un certain nombre de sous-chaînes de données correspondantes, entre une page de données reçue et une ou plusieurs pages correspondant à un ou plusieurs des identifiants triés, la sous-chaîne étant une séquence d'octets dans la page, et (vi) à manipuler la page de données reçue en fonction du degré de similarité.