PROCEDURE FOR MANAGING FAILURE IN NODE NETWORK BASED ON GLOBAL STRATEGY

To provide means for managing failures in a node network.SOLUTION: Storage media 44 and 54-56 transmit local backups for non-failed nodes 41 and 51-53 to a parallel file system 100, in order to execute a global network backup, or at least with respect to a part of the network. As a part of executing...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GUILLAUME LEPOUTERE, EMMANUEL BRELLE, PIOTR RESNIKKII, FLORENT GERMAIN
Format: Patent
Sprache:eng ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:To provide means for managing failures in a node network.SOLUTION: Storage media 44 and 54-56 transmit local backups for non-failed nodes 41 and 51-53 to a parallel file system 100, in order to execute a global network backup, or at least with respect to a part of the network. As a part of executing the global backup, a storage medium 46 transmits not only a local backup of a state of an associated non-failed node 43, but also a duplication of a local backup of a state of a failed node 42, to the parallel file system 100. Consequently, the parallel file system 100 can store the global backup regarding the states of the nodes 41-43 and 51-53 in a mutually coherent manner and in correspondence with the same calculation state, and from there, the same calculation is used to restart a new task afterwards.SELECTED DRAWING: Figure 5 【課題】ノードネットワーク内の障害管理手段の提供。【解決手段】ストレージ媒体44及び54〜56は、グローバルネットワークバックアップを実行するために、又は少なくともネットワークのその部分に対して、障害のないノード41及び51〜53へのローカルバックアップを並列ファイルシステム100に送信する。このグローバルバックアップを実行することの一部として、ストレージ媒体46は、その障害の発生していない関連ノード43の状態のローカルバックアップだけでなく、障害が発生したノード42の状態のローカルバックアップの複製も並列ファイルシステム100に送信する。したがって、並列ファイルシステム100は、ノード41〜43及び51〜53の状態についてのグローバルバックアップを、互いにコヒーレントに、及び同じ計算の状態に対応して記憶することができ、そこから、この同じ計算を使用して新しいタスクを後で再開する。【選択図】図5