METHOD OF PARTITIONING STORAGE IN A DISTRIBUTED DATA STORAGE SYSTEM AND CORRESPONDING DEVICE

A method and device for efficient partitioning of storage of big data in a distributed storage system, capable of handling input streams of data. Related data items that are received from the input data stream, are assigned to a partition if they are not already part of any partition; if any of the...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: LE MERRER, ERWAN, TREDAN, GILLES, LIANG, YIZHONG
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method and device for efficient partitioning of storage of big data in a distributed storage system, capable of handling input streams of data. Related data items that are received from the input data stream, are assigned to a partition if they are not already part of any partition; if any of the related data items is already in a partition, the other one of the related data items is assigned to the partition if there is enough place in the partition. If both related data items do not already exist in any partition, they are assigned to the partition in the distributed data storage system that has the lowest number of data items. Thus, on-line partitioning takes place as data items arrive, allowing the partitioning to be well-balanced and limiting the creation of edges between partitions. La présente invention a trait à un procédé et à un dispositif pour le partitionnement efficace d'une mémoire de mégadonnées dans un système de mémorisation réparti, pouvant traiter des flux d'entrée de données. Les éléments de données connexes qui sont reçus en provenance du flux d'entrée de données sont affectés à une partition s'ils ne font pas déjà partie d'une partition. Si l'un des éléments de données connexes se trouve déjà dans une partition, l'autre élément de données connexe est affecté à cette même partition à condition qu'il y ait assez de place. Si les deux éléments de données connexes ne se situent pas déjà dans une partition, ils sont affectés à la partition, dans le système de mémorisation de données réparti, qui contient le plus petit nombre d'éléments de données. Par conséquent, un partitionnement en ligne s'effectue au fur et à mesure que les éléments de données arrivent, ce qui permet d'obtenir un partitionnement équilibré et de limiter la création de bords entre les partitions.