COMPUTER SYSTEM FOR DISTRIBUTED MACHINE LEARNING
The present invention provides a computer system (100) for distributed training of a machine learning model. The computer system (100) comprises a BSP system (101) including a central BSP control module (102) and at least one local BSP module (103). It further comprises at least one machine learning...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The present invention provides a computer system (100) for distributed training of a machine learning model. The computer system (100) comprises a BSP system (101) including a central BSP control module (102) and at least one local BSP module (103). It further comprises at least one machine learning module (105) associated with exactly one local BSP module (103), and a shared memory module (104) associated with exactly one pair of a local BSP modul (103) and a machine learning module (105). The central BSP control module (102) is configured to instruct the at least one local BSP module (103) to store, in its associated shared memory module (104), a local model. The at least one machine learning module (105) is configured to read, from its associated shared memory module (104), the local model, compute a gradient based on the local model, and aggregate the gradient immediately after its computation into an aggregated gradient in its associated shared memory module (104). The central BSP control module (102) is further configured to instruct the at least one local BSP module (103) to periodically read out its associated shared memory module (104).
La présente invention concerne un système informatique (100) pour l'apprentissage distribué d'un modèle d'apprentissage machine. Le système informatique (100) comprend un système BSP (101) comprenant un module de commande BSP central (102) et au moins un module BSP local (103). Il comprend en outre au moins un module d'apprentissage machine (105) associé à exactement un module BSP local (103), et un module de mémoire partagée (104) associé à exactement une paire formée par un module BSP local (103) et un module d'apprentissage machine (105). Le module de commande BSP central (102) est configuré pour ordonner au(x) module(s) BSP local/locaux (103) de stocker, dans son/leur module de mémoire partagée associé (104), un modèle local. Le ou les modules d'apprentissage machine (105) sont configurés pour lire, à partir de son/leur module de mémoire partagée associé (104), le modèle local, calculer un gradient sur la base du modèle local, et agréger le gradient immédiatement après son/leur calcul en un gradient agrégé dans le module de mémoire partagée associé (104). Le module de commande BSP central (102) est en outre configuré pour ordonner au(x) module(s) BSP local/locaux (103) de lire périodiquement son/leur module de mémoire partagée associé (104). |
---|