ACCURACY-PRESERVING DEEP MODEL COMPRESSION

Techniques described herein provide for compression of machine learning models without significant loss in model accuracy and without requiring model re-training. Compressed machine learning models may then be deployed by resource-constrained devices to improve operational efficiency and throughput....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: GARG, Yash, AKYAMAC, Ahmet
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Techniques described herein provide for compression of machine learning models without significant loss in model accuracy and without requiring model re-training. Compressed machine learning models may then be deployed by resource-constrained devices to improve operational efficiency and throughput. An example method includes providing input data for one or more deep learning tasks to a machine learning model having a plurality of neuronal units. The neuronal units are associated with respective parameters. The method further includes determination of respective confidence scores for the plurality of neuronal units responsive to the input data. A confidence score represents a contribution, significant, or impact of a neuronal unit with respect to the overall model output. The method further includes generating a compressed machine learning model based at least in part on removing a subset of neuronal units according to their respective confidence scores and redistributing their parameters to another subset of neuronal units. Les techniques décrites ici permettent la compression de modèles d'apprentissage automatique sans perte significative de précision de modèle et sans nécessiter de réentraînement de modèle. Des modèles d'apprentissage automatique compressés peuvent ensuite être déployés par des dispositifs à ressources limitées pour améliorer l'efficacité opérationnelle et le débit. Un procédé donné à titre d'exemple consiste à fournir des données d'entrée pour une ou plusieurs tâches d'apprentissage profond à un modèle d'apprentissage automatique ayant une pluralité d'unités neuronales. Les unités neuronales sont associées à des paramètres respectifs. Le procédé consiste en outre à déterminer des scores de confiance respectifs pour la pluralité d'unités neuronales en réponse aux données d'entrée. Un score de confiance représente une contribution, importante, ou un impact d'une unité neuronale par rapport à la sortie de modèle globale. Le procédé consiste en outre à générer un modèle d'apprentissage automatique compressé sur la base, au moins en partie, de l'élimination d'un sous-ensemble d'unités neuronales en fonction de leurs scores de confiance respectifs et de la redistribution de leurs paramètres à un autre sous-ensemble d'unités neuronales.