DYNAMIC SHARD ALLOCATION ADJUSTMENT

The present disclosure relates to dynamically adjusting shard allocation during parallel processing operations. One example method includes determining a target completion time for a batch data processing job of an input data set performed by a plurality of tasks, each of the plurality of tasks proc...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: PJESIVAC-GRBOVIC, JELENA, KIRPICHOV, EUGENE R, GOLDMAN, KENNETH J, HURWITZ, JEREMY S
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present disclosure relates to dynamically adjusting shard allocation during parallel processing operations. One example method includes determining a target completion time for a batch data processing job of an input data set performed by a plurality of tasks, each of the plurality of tasks processing a different input shard including a different portion of the input data set; identifying a first task having an estimated completion time greater than the target completion time of the batch data processing job; and splitting the first input shard into a first split input shard and a second split input shard different from the first split input shard, the first split input shard including a first portion of the first input shard, and the second split input shard including a second portion of the first input shard different from the first portion. La présente invention concerne l'ajustement dynamique d'attribution de fragments lors d'opérations de traitement parallèles. Un procédé donné à titre d'exemple consiste à déterminer un temps d'achèvement cible pour une tâche de traitement de données par lots d'un ensemble de données d'entrée mis en œuvre par une pluralité de tâches, chaque tâche parmi la pluralité de tâches traitant un fragment d'entrée différent comprenant une partie différente de l'ensemble de données d'entrée; à identifier une première tâche présentant un temps d'achèvement estimé supérieur au temps d'achèvement cible de la tâche de traitement de données par lots; et à diviser le premier fragment d'entrée en un premier fragment d'entrée divisé et en un second fragment d'entrée divisé différent du premier fragment d'entrée divisé, le premier fragment d'entrée divisé comprenant une première partie du premier fragment d'entrée, et le second fragment d'entrée divisé comprenant une seconde partie du premier fragment d'entrée différente de la première partie.