CLUSTER-BASED TRAINING METHOD AND APPARATUS ELECTRONIC DEVICE AND STORAGE MEDIUM
본 발명은 클러스터에 기반한 훈련 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 데이터 처리 기술 분야에 관한 것으로, 특히 인공지능 및 딥러닝 등 분야에 관한 것이다. 구체적인 구현 수단은, 훈련 노드에 하드웨어 고장이 존재하는 것에 응답하여, 복수의 대기 노드에서 타겟 대기 노드를 선택하고, 훈련 노드에서 모델 훈련 태스크의 타겟 훈련 스냅샷을 획득하며, 타겟 훈련 스냅샷은 모델 훈련 태스크의 훈련 상태 데이터를 포함하고; 훈련 노드 중의 모델 훈련 프로그램의 컨테이너 이미지 및 훈련 상태 데이터를 기반으로, 타겟 대기 노...
Gespeichert in:
Hauptverfasser: | , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 본 발명은 클러스터에 기반한 훈련 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 데이터 처리 기술 분야에 관한 것으로, 특히 인공지능 및 딥러닝 등 분야에 관한 것이다. 구체적인 구현 수단은, 훈련 노드에 하드웨어 고장이 존재하는 것에 응답하여, 복수의 대기 노드에서 타겟 대기 노드를 선택하고, 훈련 노드에서 모델 훈련 태스크의 타겟 훈련 스냅샷을 획득하며, 타겟 훈련 스냅샷은 모델 훈련 태스크의 훈련 상태 데이터를 포함하고; 훈련 노드 중의 모델 훈련 프로그램의 컨테이너 이미지 및 훈련 상태 데이터를 기반으로, 타겟 대기 노드에 대해 초기화를 수행함으로써, 타겟 대기 노드가 훈련 노드를 대체하여 모델 훈련 태스크를 계속 수행하도록 한다.
The invention provides a cluster-based training method and device, electronic equipment and a storage medium, and relates to the technical field of data processing, in particular to the fields of artificial intelligence, deep learning and the like. According to the specific implementation scheme, in response to a hardware fault existing in a training node, a target standby node is selected from multiple standby nodes, and a target training snapshot of a model training task in the training node is obtained; the target training snapshot comprises training state data of the model training task; and based on the container mirror image and the training state data of the model training program in the training node, the target standby node is initialized, so that the target standby node replaces the training node to continue to execute the model training task. |
---|