DEDUPLICATION USING CACHE EVICTION FOR STRONG AND WEAK HASHES
A computer-implemented method of data management in a data storage system, includes dividing each data item into plurality of blocks, calculating strong hash and weak hash, and generating ID table and weak hash table. In response to receiving an incoming data item, the method further includes dividi...
Gespeichert in:
Hauptverfasser: | , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A computer-implemented method of data management in a data storage system, includes dividing each data item into plurality of blocks, calculating strong hash and weak hash, and generating ID table and weak hash table. In response to receiving an incoming data item, the method further includes dividing the incoming data item into plurality of blocks, calculating strong hash and weak hash, selecting one or more representative weak hashes, searching for the representative weak hashes in the weak hash table, and recording a match between one or more of the representative weak hashes and a weak hash in the weak hash table. The weak hash table comprises a cached portion, and a cache eviction algorithm is configured to determine whether to keep or evict each weak hash in the cached portion based on a number of matches recorded for the weak hash. Thus, number of accesses to the disk is reduced.
Un procédé de gestion de données implémenté par ordinateur dans un système de stockage de données consiste à diviser chaque élément de données en une pluralité de blocs, à calculer un hachage fort et un hachage faible, et à générer une table d'ID et une table de hachage faible. En réponse à la réception d'un élément de données entrant, le procédé consiste en outre à diviser l'élément de données entrant en une pluralité de blocs, à calculer un hachage fort et un hachage faible, à sélectionner une ou plusieurs hachages faibles représentatifs, à rechercher les hachages faibles représentatifs dans la table de hachage faible, et à enregistrer une correspondance entre un ou plusieurs des hachages faibles représentatifs et un hachage faible dans la table de hachage faible. La table de hachage faible comprend une partie mise en cache, et un algorithme d'expulsion de mémoire cache est configuré pour déterminer s'il faut maintenir ou expulser chaque hachage faible dans la partie mise en cache sur la base d'un nombre de correspondances enregistrées lié au hachage faible. Ainsi, le nombre d'accès au disque est réduit. |
---|