SPEKULATIVES TRAINING UNTER VERWENDUNG DER AKTUALISIERUNG PARTIELLER GRADIENTEN

Der Austausch von Gewichtungsgradienten zwischen den Verarbeitungsknoten kann zu einem erheblichen Engpass im Trainingsprozess führen. Anstatt während des Gewichtungsgradientenaustauschprozesses inaktiv zu bleiben, kann ein Verarbeitungsknoten seinen eigenen Satz von Gewichtungen für den nächsten Du...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Kaplan, Patricio, Huang, Randy Renfu
Format:	Patent
Sprache:	ger
Schlagworte:	CALCULATING COMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS COMPUTING COUNTING PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Der Austausch von Gewichtungsgradienten zwischen den Verarbeitungsknoten kann zu einem erheblichen Engpass im Trainingsprozess führen. Anstatt während des Gewichtungsgradientenaustauschprozesses inaktiv zu bleiben, kann ein Verarbeitungsknoten seinen eigenen Satz von Gewichtungen für den nächsten Durchlauf des Trainingsprozesses unter Verwendung der lokalen Gewichtungsgradienten des Verarbeitungsknotens aktualisieren. Der nächste Durchlauf des Trainings kann unter Verwendung dieser spekulativen Gewichtungen gestartet werden, bis der Gewichtungsgradientenaustauschprozess abgeschlossen ist und eine globale Gewichtungsaktualisierung verfügbar ist. Wenn die spekulativen Gewichtungen nahe genug an den Gewichtungswerten aus der globalen Gewichtungsaktualisierung liegen, kann der Trainingsprozess am Verarbeitungsknoten das Training unter Verwendung der aus den spekulativen Gewichtungen berechneten Ergebnisse fortführen, um die Gesamttrainingszeit zu verringern. The exchange of weight gradients among the processing nodes can introduce a substantial bottleneck to the training process. Instead of remaining idle during the weight gradients exchange process, a processing node can update its own set of weights for the next iteration of the training process using the processing node's local weight gradients. The next iteration of training can be started by using these speculative weights until the weight gradients exchange process completes and a global weights update is available. If the speculative weights is close enough to the weight values from the global weights update, the training process at the processing node can continue training using the results computed from the speculative weights to reduce the overall training time.