REMOTE CHECKPOINT MEMORY SYSTEM AND PROTOCOL FOR FAULT-TOLERANT COMPUTER SYSTEM

A mechanism for maintaining a consistent, periodically updated state in main memory without constraining normal computer operation is provided, thereby enabling a computer system to recover from faults without loss of data or processing continuity. In this invention, a first computer includes a proc...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: STIFFLER, JACK, J
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A mechanism for maintaining a consistent, periodically updated state in main memory without constraining normal computer operation is provided, thereby enabling a computer system to recover from faults without loss of data or processing continuity. In this invention, a first computer includes a processor and input/ouput elements connected to a main memory subsystem including a primary element. A second computer has a remote checkpoint memory element, which may include one or more buffer memories and a shadowy memory, which is connected to the main memory subsystem of the first computer. During normal processing, an image of data written to the primary memory element is captured by the remote checkpoint memory element. When a new checkpoint is desired (thereby establishing a consistent state in main memory to which all executing applications can safely return following a fault), the data previously captured is used to establish a new checkpointed state in the second computer. In case of failure of the first computer, the second computer can be restarted to operate from the last checkpoint established for the first computer. This structure and protocol can guarantee a consistent state in main memory, thus enabling fault-tolerant operation. L'invention concerne un mécanisme permettant de conserver un état constant de mise à jour périodique dans une mémoire principale sans perturber le fonctionnement normal de l'ordinateur, ce qui permet à un système informatique de se rétablir de défaillances sans pertes de données ou de continuité de traitement. D'après l'invention, une premier ordinateur comprend un processeur et des éléments d'entrée/sortie reliés à un sous-système de mémoire principale comprenant un élément primaire. Un deuxième ordinateur possède un élément de mémoire éloigné à points de reprise, pouvant comporter une ou plusieurs mémoires tampon et une mémoire en double, qui est relié au sous-système de mémoire principale du premier ordinateur. Pendant le traitement normal, une image de données enregistrées dans le premier élément de mémoire est captée par l'élément de mémoire à distance à points de reprise. Quand un nouveau point de reprise est souhaité (ce qui établit un état constant dans la mémoire principale auquel toutes les applications d'exécution peuvent revenir en toute sécurité après une défaillance), les données captées précédemment sont utilisées afin d'établir un nouvel état à points de reprise dans le deuxième ordinateur. En cas de défail