ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE

The disclosure herein describes platform-level migration for deep learning training (DLT) jobs from a checkpointed stated between a source node and a destination node. The checkpointing is performed through capturing GPU state (e.g., device state) and CPU state (e.g., host state). The GPU state incl...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: XUN, Lu, SIVATHANU, Muthian, SHUKLA, Dharma Kiritkumar, NEHME, Rimma Vladimirovna
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator XUN, Lu
SIVATHANU, Muthian
SHUKLA, Dharma Kiritkumar
NEHME, Rimma Vladimirovna
description The disclosure herein describes platform-level migration for deep learning training (DLT) jobs from a checkpointed stated between a source node and a destination node. The checkpointing is performed through capturing GPU state (e.g., device state) and CPU state (e.g., host state). The GPU state includes GPU data (e.g., model parameters, optimizer state, etc.) that is located in the GPU and GPU context (e.g., the default stream in GPU, various handles created by libraries). Restoring the DLT job on the destination node involves resumption of processing of a destination GPU at the same checkpointed state. L'invention décrit une migration de niveau de plateforme pour des tâches d'apprentissage d'apprentissage profond (DLT) à partir d'un point de contrôle indiqué entre un nœud source et un nœud cible. Le pointage de contrôle est réalisé par capture d'un état de GPU (par exemple, un état de dispositif) et d'un état de CPU (par exemple, un état d'hôte). L'état de GPU comprend des données de GPU (par exemple, des paramètres de modèle, un état d'optimiseur, etc.) qui sont situées dans le GPU et dans le contexte de GPU (par exemple, le flux par défaut dans la GPU, divers descripteurs créés par des bibliothèques). La restauration de la tâche DLT sur le nœud de destination implique la reprise du traitement d'une GPU de destination au même état de point de contrôle.
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_WO2022203808A1</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>WO2022203808A1</sourcerecordid><originalsourceid>FETCH-epo_espacenet_WO2022203808A13</originalsourceid><addsrcrecordid>eNqNy7EKwjAQgOEuDqK-w4FzIaZL1yNe6mFM5Hq1YykSBxEt1PfHxVVw-pfvXxZ3FGXPjjEAR6UQuKHoCPokx5BwDyduBJVTBJ8EzgEjadk6DAS_Xo5esFXpnHZC0JJc2NG6WNzGx5w3366KrSd1hzJPryHP03jNz_we-mSNtdZUtalxV_2nPqSfN4w</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE</title><source>esp@cenet</source><creator>XUN, Lu ; SIVATHANU, Muthian ; SHUKLA, Dharma Kiritkumar ; NEHME, Rimma Vladimirovna</creator><creatorcontrib>XUN, Lu ; SIVATHANU, Muthian ; SHUKLA, Dharma Kiritkumar ; NEHME, Rimma Vladimirovna</creatorcontrib><description>The disclosure herein describes platform-level migration for deep learning training (DLT) jobs from a checkpointed stated between a source node and a destination node. The checkpointing is performed through capturing GPU state (e.g., device state) and CPU state (e.g., host state). The GPU state includes GPU data (e.g., model parameters, optimizer state, etc.) that is located in the GPU and GPU context (e.g., the default stream in GPU, various handles created by libraries). Restoring the DLT job on the destination node involves resumption of processing of a destination GPU at the same checkpointed state. L'invention décrit une migration de niveau de plateforme pour des tâches d'apprentissage d'apprentissage profond (DLT) à partir d'un point de contrôle indiqué entre un nœud source et un nœud cible. Le pointage de contrôle est réalisé par capture d'un état de GPU (par exemple, un état de dispositif) et d'un état de CPU (par exemple, un état d'hôte). L'état de GPU comprend des données de GPU (par exemple, des paramètres de modèle, un état d'optimiseur, etc.) qui sont situées dans le GPU et dans le contexte de GPU (par exemple, le flux par défaut dans la GPU, divers descripteurs créés par des bibliothèques). La restauration de la tâche DLT sur le nœud de destination implique la reprise du traitement d'une GPU de destination au même état de point de contrôle.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2022</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20220929&amp;DB=EPODOC&amp;CC=WO&amp;NR=2022203808A1$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,778,883,25547,76298</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20220929&amp;DB=EPODOC&amp;CC=WO&amp;NR=2022203808A1$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>XUN, Lu</creatorcontrib><creatorcontrib>SIVATHANU, Muthian</creatorcontrib><creatorcontrib>SHUKLA, Dharma Kiritkumar</creatorcontrib><creatorcontrib>NEHME, Rimma Vladimirovna</creatorcontrib><title>ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE</title><description>The disclosure herein describes platform-level migration for deep learning training (DLT) jobs from a checkpointed stated between a source node and a destination node. The checkpointing is performed through capturing GPU state (e.g., device state) and CPU state (e.g., host state). The GPU state includes GPU data (e.g., model parameters, optimizer state, etc.) that is located in the GPU and GPU context (e.g., the default stream in GPU, various handles created by libraries). Restoring the DLT job on the destination node involves resumption of processing of a destination GPU at the same checkpointed state. L'invention décrit une migration de niveau de plateforme pour des tâches d'apprentissage d'apprentissage profond (DLT) à partir d'un point de contrôle indiqué entre un nœud source et un nœud cible. Le pointage de contrôle est réalisé par capture d'un état de GPU (par exemple, un état de dispositif) et d'un état de CPU (par exemple, un état d'hôte). L'état de GPU comprend des données de GPU (par exemple, des paramètres de modèle, un état d'optimiseur, etc.) qui sont situées dans le GPU et dans le contexte de GPU (par exemple, le flux par défaut dans la GPU, divers descripteurs créés par des bibliothèques). La restauration de la tâche DLT sur le nœud de destination implique la reprise du traitement d'une GPU de destination au même état de point de contrôle.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2022</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNqNy7EKwjAQgOEuDqK-w4FzIaZL1yNe6mFM5Hq1YykSBxEt1PfHxVVw-pfvXxZ3FGXPjjEAR6UQuKHoCPokx5BwDyduBJVTBJ8EzgEjadk6DAS_Xo5esFXpnHZC0JJc2NG6WNzGx5w3366KrSd1hzJPryHP03jNz_we-mSNtdZUtalxV_2nPqSfN4w</recordid><startdate>20220929</startdate><enddate>20220929</enddate><creator>XUN, Lu</creator><creator>SIVATHANU, Muthian</creator><creator>SHUKLA, Dharma Kiritkumar</creator><creator>NEHME, Rimma Vladimirovna</creator><scope>EVB</scope></search><sort><creationdate>20220929</creationdate><title>ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE</title><author>XUN, Lu ; SIVATHANU, Muthian ; SHUKLA, Dharma Kiritkumar ; NEHME, Rimma Vladimirovna</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_WO2022203808A13</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2022</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>XUN, Lu</creatorcontrib><creatorcontrib>SIVATHANU, Muthian</creatorcontrib><creatorcontrib>SHUKLA, Dharma Kiritkumar</creatorcontrib><creatorcontrib>NEHME, Rimma Vladimirovna</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>XUN, Lu</au><au>SIVATHANU, Muthian</au><au>SHUKLA, Dharma Kiritkumar</au><au>NEHME, Rimma Vladimirovna</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE</title><date>2022-09-29</date><risdate>2022</risdate><abstract>The disclosure herein describes platform-level migration for deep learning training (DLT) jobs from a checkpointed stated between a source node and a destination node. The checkpointing is performed through capturing GPU state (e.g., device state) and CPU state (e.g., host state). The GPU state includes GPU data (e.g., model parameters, optimizer state, etc.) that is located in the GPU and GPU context (e.g., the default stream in GPU, various handles created by libraries). Restoring the DLT job on the destination node involves resumption of processing of a destination GPU at the same checkpointed state. L'invention décrit une migration de niveau de plateforme pour des tâches d'apprentissage d'apprentissage profond (DLT) à partir d'un point de contrôle indiqué entre un nœud source et un nœud cible. Le pointage de contrôle est réalisé par capture d'un état de GPU (par exemple, un état de dispositif) et d'un état de CPU (par exemple, un état d'hôte). L'état de GPU comprend des données de GPU (par exemple, des paramètres de modèle, un état d'optimiseur, etc.) qui sont situées dans le GPU et dans le contexte de GPU (par exemple, le flux par défaut dans la GPU, divers descripteurs créés par des bibliothèques). La restauration de la tâche DLT sur le nœud de destination implique la reprise du traitement d'une GPU de destination au même état de point de contrôle.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre
recordid cdi_epo_espacenet_WO2022203808A1
source esp@cenet
subjects CALCULATING
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
title ARTIFICIAL INTELLIGENCE WORKLOAD MIGRATION FOR PLANET-SCALE ARTIFICIAL INTELLIGENCE INFRASTRUCTURE SERVICE
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-16T23%3A47%3A43IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=XUN,%20Lu&rft.date=2022-09-29&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EWO2022203808A1%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true