BLOCKWISE CONTROLLED DECODING OF NATURAL LANGUAGE (NL) BASED OUTPUT GENERATED USING A LARGE LANGUAGE MODEL (LLM) TO REDUCE LATENCY IN RENDERING THEREOF

Implementations relate to reducing latency in generating and/or rendering a given stream of natural language (NL) based output generated using a large language model (LLM). Processor(s) of a system can: receive NL based input associated with a client device, generate the stream of NL based output ut...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MUDGAL, Sidharth, CHEN, Jilin, STROHMAN, Trevor, BEUTEL, Alex, HUANG, Yanping, GANAPATHY, Harish, LI, YaGuang, BEIRAMI, Ahmad, WANG, Tao
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Implementations relate to reducing latency in generating and/or rendering a given stream of natural language (NL) based output generated using a large language model (LLM). Processor(s) of a system can: receive NL based input associated with a client device, generate the stream of NL based output utilizing the LLM that is responsive to the NL based input and that is for a given dialog context of an ongoing dialog, and cause the stream of NL based output to be rendered at the client device. Notably, the processor(s) can employ attribute classifier(s) and a multi-objective scorer to implement a blockwise controlled decoding technique in generating the stream of NL based output utilizing the LLM. By implementing the blockwise controlled decoding technique in generating the stream of NL based output utilizing the LLM, the processor(s) can reduce latency in generating and/or of the stream of NL based output generated utilizing the LLM. Des modes de réalisation se rapportent à la réduction de la latence dans la génération et/ou le rendu d'un flux donné de sortie basée sur un langage naturel (NL) générée à l'aide d'un grand modèle de langage (LLM). Le ou les processeurs d'un système peuvent : recevoir une entrée basée sur NL associée à un dispositif client, générer le flux de sortie basée sur NL à l'aide du LLM qui est sensible à une entrée basée sur NL et qui est destinée à un contexte de dialogue donné d'un dialogue en cours, et amener le flux de sortie basée sur NL à être rendu au niveau du dispositif client. En particulier, le ou les processeurs peuvent utiliser un ou plusieurs classificateurs d'attribut et un dispositif d'évaluation multi-objectif pour mettre en œuvre une technique de décodage commandée par blocs dans la génération du flux de sortie basée sur NL à l'aide du LLM. En mettant en œuvre la technique de décodage commandée par blocs dans la génération du flux de sortie basée sur NL à l'aide du LLM, le ou les processeurs peuvent réduire la latence dans la génération et/ou le flux de sortie basée sur NL générée à l'aide du LLM.