MANAGEMENT OF A FAULT CONDITION IN A COMPUTING SYSTEM
Systems, apparatuses, and/or methods may manage a fault condition in a computer system. An apparatus may dynamically publish a message over a publisher-subscriber system and dynamically subscribe to a message over the publisher-subscriber system, wherein at least one message may be used to address a...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Systems, apparatuses, and/or methods may manage a fault condition in a computer system. An apparatus may dynamically publish a message over a publisher-subscriber system and dynamically subscribe to a message over the publisher-subscriber system, wherein at least one message may be used to address a fault condition in the computing system. The apparatus may predict a fault condition in a high performance computing (HPC) system, communicate fault information to a user, monitor health of the HPC system, respond to the fault condition in the HPC system, recover from the fault condition in the HPC system, maintain a rule for a fault management component, and/or communicate the fault information over the publisher- subscriber system in real-time. Messages may also be aggregated to minimize fault information traffic. The publisher-subscriber system may facilitate dynamic and/or real-time coordinated, integrated (e.g., system- wide), and/or scalable fault management.
L'invention concerne des systèmes, des appareils et/ou des procédés qui peuvent gérer un état défaillant dans un système informatique. Un appareil peut publier de manière dynamique un message sur un système d'éditeur-abonné et s'abonner de manière dynamique à un message sur le système d'éditeur-abonné, au moins un message pouvant être utilisé pour traiter un état défaillant dans le système informatique. L'appareil peut prédire un état défaillant dans un système informatique de haute performance (HPC), communiquer des informations de défaillance à un utilisateur, surveiller la santé du système HPC, répondre à l'état défaillant dans le système HPC, récupérer de l'état défaillant dans le système HPC, maintenir une règle pour un élément de gestion de défaillance, et/ou communiquer les informations de défaillance sur le système d'éditeur-abonné en temps réel. Les messages peuvent également être agrégés pour réduire au minimum le trafic d'informations de défaillance. Le système d'éditeur-abonné peut faciliter la gestion de défaillance dynamique et/ou coordonnée en temps réel, intégrée (par exemple, par système), et/ou extensible. |
---|