REAL-TIME SYSTEM FOR SPOKEN NATURAL STYLISTIC CONVERSATIONS WITH LARGE LANGUAGE MODELS

The techniques disclosed herein enable systems for spoken natural stylistic conversations with large language models. In contrast to many existing modalities for interacting with large language models that are limited to text, the techniques presented herein enable users to carry a fully spoken conv...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BONAR, Adrian Wyatt, MUNOZ, Mollie, BERDY, Nicole E, CALLEGARI, Shawn, VOLUM, Ryan, FOX, Jennifer, LUCATO, Devis
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The techniques disclosed herein enable systems for spoken natural stylistic conversations with large language models. In contrast to many existing modalities for interacting with large language models that are limited to text, the techniques presented herein enable users to carry a fully spoken conversation with a large language model. This is accomplished by converting a user speech audio input to text and utilizing a prompt engine to analyze a sentiment expressed by the user. A large language model, having been trained on example conversations, by generating a text response as well as a style cue to express emotion in response to the sentiment expressed by speech audio input. A text-to-speech engine can subsequently interpret the text response and style cue to generate an audio output which emulates the sensation of human conversation. Les techniques de la divulgation permettent des systèmes de conversations stylistiques naturelles parlées avec de grands modèles de langage. Contrairement à de nombreuses modalités existantes pour interagir avec de grands modèles de langage qui sont limités à un texte, les techniques présentées ici permettent à des utilisateurs de développer une conversation entièrement parlée avec un grand modèle de langage. Ceci est accompli en convertissant une entrée audio vocale d'utilisateur en texte et en utilisant un moteur d'invite pour analyser un sentiment exprimé par l'utilisateur. Un modèle de langage important, ayant été entraîné par exemple sur des conversations, en générant une réponse textuelle ainsi qu'un repère de style pour exprimer une émotion en réponse au sentiment exprimé par une entrée audio de paroles. Un moteur texte vers paroles peut ensuite interpréter la réponse textuelle et le repère de style pour générer une sortie audio qui émule la sensation de conversation humaine.