PARALLELIZING SQL ON DISTRIBUTED FILE SYSTEMS

Example embodiments relate to parallelizing structured query language (SQL) on distributed file systems. In example embodiments, a subquery of a distributed file system is received from a query engine, where the subquery is one of multiple subqueries that are scheduled to execute on a cluster of ser...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CHEN, QIMING, CASTELLANOS, MARIA, G, HSU, MEICHUN
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Example embodiments relate to parallelizing structured query language (SQL) on distributed file systems. In example embodiments, a subquery of a distributed file system is received from a query engine, where the subquery is one of multiple subqueries that are scheduled to execute on a cluster of server nodes. At this stage, a user defined function that comprises local, role-based functionality is executed, where the partitioned magic table triggers parallel execution of the user defined function. The execution of the UDF determines a sequence number based on a quantity of the cluster of server nodes and retrieve nonconsecutive chunks from a file of the distributed file system, where each of the nonconsecutive chunks is offset by the sequence number. Certains modes de réalisation fournis à titre d'exemple concernent une mise en parallèle de langage d'interrogation structuré (SQL) sur des systèmes de fichiers distribués. Selon certains autres modes de réalisation fournis à titre d'exemple, une sous-interrogation d'un système de fichiers distribués est reçue d'un moteur d'interrogation, la sous-interrogation étant l'une parmi une pluralité de sous-interrogations qui sont programmées pour une exécution sur une grappe de nœuds de serveur. À ce stade, une fonction définie par un utilisateur qui comprend une fonctionnalité locale à base de rôle est exécutée, la table magique partitionnée déclenchant l'exécution parallèle de la fonction (UDF) définie par l'utilisateur. L'exécution de l'UDF détermine un nombre de séquences sur la base d'une quantité de la grappe de nœuds de serveurs et extrait des segments non consécutifs d'un fichier du système de fichiers distribués, chacun des segments non consécutifs étant décalé du nombre de séquences.