DATA STORAGE SYSTEM, PROCESS, AND COMPUTER PROGRAM FOR DE-DUPLICATION OF DISTRIBUTED DATA IN A SCALABLE CLUSTER SYSTEM

The present disclosure relates to data de-duplication in distributed storage of data objects in a cluster system, in which plural data objects are distributed across a group of node apparatuses and stored in units of data blocks. Specifically, I/O access to the plural data objects is managed based o...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CROSLAND, Simon, MATSUI, Yuko, ASTON, Christopher, GIBBS, James, HAYASAKA, Mitsuo, DANIEL, Picken, SMITH, Jonathan
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present disclosure relates to data de-duplication in distributed storage of data objects in a cluster system, in which plural data objects are distributed across a group of node apparatuses and stored in units of data blocks. Specifically, I/O access to the plural data objects is managed based on metadata structures being respectively provided for each data object, each metadata structure including a root metadata node and one or more direct metadata nodes, and optionally including one or more indirect metadata nodes; and a metadata object is stored for managing de-duplicated data blocks based on a metadata structure of the metadata object including a root metadata node and one or more direct metadata nodes, and optionally including one or more metadata indirect nodes; wherein at least one direct metadata node of the metadata structure of the metadata object includes a block reference pointing to a de-duplicated data block being associated with two or more data objects. Preferably, each of the metadata structures of the two or more data objects being associated with the de-duplicated data block includes a respective direct metadata node including an object reference to the metadata structure of the metadata object. La présente invention concerne une déduplication de données d'une mémoire partagée d'objets de données dans un système de grappe, dans lequel plusieurs objets de données sont partagés sur un groupe d'appareils de nœud et mémorisés dans des unités de blocs de données. En particulier, un accès d'E/S aux plusieurs objets de données est géré sur la base de structures de métadonnées respectivement fournies pour chaque objet de données, chaque structure de métadonnées comprenant un nœud de métadonnées racine et un ou plusieurs nœuds de métadonnées directs, et comprenant éventuellement un ou plusieurs nœuds de métadonnées indirects ; et un objet de métadonnées est mémorisé de façon à gérer des blocs de données dédupliquées sur la base d'une structure de métadonnées de l'objet de métadonnées comprenant un nœud de métadonnées racine et un ou plusieurs nœuds de métadonnées directs, et comprenant éventuellement un ou plusieurs nœuds de métadonnées indirects ; au moins un nœud de métadonnées direct de la structure de métadonnées de l'objet de métadonnées comprenant une référence de bloc pointant vers un bloc de données dédupliquées associé à deux objets de données, ou plus. De préférence, chacune des structures de métadonnées des deux objets de données,