INTERLEAVING MEMORY REQUESTS TO ACCELERATE MEMORY ACCESSES

Methods, systems, and apparatus, including computer-readable media, are described for interleaving memory requests to accelerate memory accesses at a hardware circuit configured to implement a neural network model. A system generates multiple requests that are processed against a memory of the syste...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: RAJAMANI, Gurushankar, KUO, Alice
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods, systems, and apparatus, including computer-readable media, are described for interleaving memory requests to accelerate memory accesses at a hardware circuit configured to implement a neural network model. A system generates multiple requests that are processed against a memory of the system. Each request is used to retrieve data from the memory. For each request, the system generates multiple sub-requests based on a respective size of the data to be retrieved using the request. The system generates a sequence of interleaved sub-requests that includes respective sub-requests of a first request interleaved among respective sub-requests of a second request. Based on the sequence of interleaved sub-requests, a module of the system receives respective portions of data accessed from different address locations of the memory. The system processes each of the respective portions of data to generate a neural network inference using the neural network model implemented at the hardware circuit. Sont décrits des procédés, des systèmes et un appareil, y compris des supports lisibles par ordinateur, permettant l'entrelacement de requêtes de mémoire pour accélérer des accès mémoire au niveau d'un circuit matériel configuré pour mettre en œuvre un modèle de réseau neuronal. Un système génère de multiples requêtes qui sont traitées par rapport à une mémoire du système. Chaque requête est utilisée pour récupérer des données de la mémoire. Pour chaque requête, le système génère de multiples sous-requêtes sur la base d'une taille respective des données à récupérer à l'aide de la requête. Le système génère une séquence de sous-requêtes entrelacées qui comprennent des sous-requêtes respectives d'une première requête entrelacées parmi des sous-requêtes respectives d'une seconde requête. Sur la base de la séquence de sous-requêtes entrelacées, un module du système reçoit des parties respectives de données qui ont fait l'objet d'un accès à partir de différents emplacements d'adresse de la mémoire. Le système traite chacune des parties respectives de données pour générer une inférence de réseau neuronal à l'aide du modèle de réseau neuronal mis en œuvre au niveau du circuit matériel.