EYE GLAZE FOR SPOKEN LANGUAGE UNDERSTANDING IN MULTI-MODAL CONVERSATIONAL INTERACTIONS

컴퓨터화된 대화 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 이해하고/하거나 해결하는 정확도를 향상시키는 기술이 설명되어 있다. 본 명세서에 설명된 기술은 제스처를 가진 시선 입력 및/또는 음성 입력을 활용하여, 컴퓨터화된 대화 시스템에서 음성 언어 이해를 향상시킨다. 시선 입력과 음성 입력을 활용하는 것은, 시스템이 시각적 컨텍스트에서 시각적 요소들에 관한 언급을 해결하거나 사용자의 의도를 해석할 수 있는 정확도를 향상시킴으로써, 대화 시스템에서 음성 언어 이해를 향상시킨다. 적어도 하나의 예에서, 본 명세서의...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: PROKOFIEVA ANNA, HAKKANI TUR DILEK Z, SLANEY MALCOLM, CELIKYILMAZ FETHIYE ASLI, HECK LARRY
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:컴퓨터화된 대화 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 이해하고/하거나 해결하는 정확도를 향상시키는 기술이 설명되어 있다. 본 명세서에 설명된 기술은 제스처를 가진 시선 입력 및/또는 음성 입력을 활용하여, 컴퓨터화된 대화 시스템에서 음성 언어 이해를 향상시킨다. 시선 입력과 음성 입력을 활용하는 것은, 시스템이 시각적 컨텍스트에서 시각적 요소들에 관한 언급을 해결하거나 사용자의 의도를 해석할 수 있는 정확도를 향상시킴으로써, 대화 시스템에서 음성 언어 이해를 향상시킨다. 적어도 하나의 예에서, 본 명세서의 기술은 시선 입력을 생성하기 위하여 시선을 추적하고, 음성 입력을 인식하고, 사용자 입력으로부터 시선 특징들 및 어휘 특징들을 추출하는 것을 설명한다. 시선 입력들 및 어휘 특징들에 적어도 부분적으로 기초하여, 시각적 컨텍스트에서 시각적 요소들에 관한 사용자 발언이 해결될 수 있다. Improving accuracy in understanding and/or resolving references to visual elements in a visual context associated with a computerized conversational system is described. Techniques described herein leverage gaze input with gestures and/or speech input to improve spoken language understanding in computerized conversational systems. Leveraging gaze input and speech input improves spoken language understanding in conversational systems by improving the accuracy by which the system can resolve references-or interpret a user's intent-with respect to visual elements in a visual context. In at least one example, the techniques herein describe tracking gaze to generate gaze input, recognizing speech input, and extracting gaze features and lexical features from the user input. Based at least in part on the gaze features and lexical features, user utterances directed to visual elements in a visual context can be resolved.