MIXED-PRECISION QUANTIZATION IN MACHINE LEARNING USING MODEL SENSITIVITY AND CONSTRAINED OPTIMIZATION

Certain aspects of the present disclosure provide techniques for performing mixed precision quantization of a machine learning model. In one example, a method includes determining a sensitivity value for each of one or more quantizers, wherein each quantizer is associated with one or more non-overla...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: FOURNARAKIS, Marios, NAGEL, Markus, PETERS, Jorn Wilhelmus Timotheus, VAN BAALEN, Marinus Willem
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Certain aspects of the present disclosure provide techniques for performing mixed precision quantization of a machine learning model. In one example, a method includes determining a sensitivity value for each of one or more quantizers, wherein each quantizer is associated with one or more non-overlapping elements of a machine learning model architecture; and determining a bitwidth allocation for each of the one or more quantizers by solving an optimization problem defined by at least: an optimization objective of minimizing total sensitivity for the machine learning model architecture based on the bitwidth allocation; and one or more constraints. Certains aspects de la présente divulgation concernent des techniques pour effectuer une quantification de précision mixte d'un modèle d'apprentissage automatique. Dans un exemple, un procédé consiste à déterminer une valeur de sensibilité pour un quantificateur ou pour chacun de plusieurs quantificateurs, chaque quantificateur étant associé à un ou plusieurs éléments ne se chevauchant pas d'une architecture de modèle d'apprentissage automatique ; et à déterminer une attribution de largeur de bits pour le quantificateur ou pour chacun des quantificateurs en résolvant un problème d'optimisation défini par au moins : un objectif d'optimisation consistant à réduire à un minimum la sensibilité totale pour l'architecture de modèle d'apprentissage automatique sur la base de l'attribution de largeur de bits ; et une ou plusieurs contraintes.