Environmental conditions and acoustic transduction in hands-free speech recognition

Hands-free interaction represents a key-point for increase of flexibility of present applications and for the development of new speech recognition applications, where the user cannot be encumbered by either hand-held or head-mounted microphones. When the microphone is far from the speaker, the tran...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Speech communication 1998-08, Vol.25 (1), p.75-95
Hauptverfasser:	Omologo, M., Svaizer, P., Matassoni, M.
Format:	Artikel
Sprache:	eng
Schlagworte:	Acoustics Applied sciences Environmental noise Exact sciences and technology Hands-free speech recognition Information, signal and communications theory MAP adaptation Microphone arrays Robustness Signal processing Speech processing Telecommunications and information theory
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	Hands-free interaction represents a key-point for increase of flexibility of present applications and for the development of new speech recognition applications, where the user cannot be encumbered by either hand-held or head-mounted microphones. When the microphone is far from the speaker, the transduced signal is affected by degradation of different nature, that is often unpredictable. Special microphones and multi-microphone acquisition systems represent a way of reducing some environmental noise effects. Robust processing and adaptation techniques can be further used in order to compensate for different kinds of variability that may be present in the recognizer input. The purpose of this paper is to re-visit some of the assumptions about the different sources of this variability and to discuss both on special transducer systems and on compensation/adaptation techniques that can be adopted. In particular, the paper will refer to the use of multi-microphone systems to overcome some undesired effects caused by room acoustics (e.g. reverberation) and by coherent/incoherent noise (e.g. competitive talkers, computer fans). The paper concludes with the description of some experiments that were conducted both on real and simulated speech data. Freihändige Sprecheinrichtungen sind besonders wichtig, um die Flexibilität der heutigen Anwendungen zu erhöhen und um neue Spracherkennungsanwendungen zu entwicklen, wobei der Benutzer nicht durch Handmikrophone oder Kehlkopfmikrophone belastet wird. Wenn das Mikrophon weit von dem Sprecher ist, wird das empfangene Signal durch verschiedene, häufig unvorhersehbare, Verzerrungen beeinflußt. Spezielle Mikrophone und Mehrmikrophondatenerfassungssysteme können Raumgeräuscheffekte verringern. Robuste Verarbeitungs- und Anpassungsverfahren können weiter verwendet werden, um die Veränderlichkeiten auszugleichen, die möglicherweise am Eingang des Spracherkennungsystems auftreten. Zeil dieser Arbeit ist einige der Annahmen über die unterschiedlichen Quellen dieser Veränderlichkeit zu berücksichtigen und spezielle Signalumformersysteme und mögliche Ausgleich- und Anpassungstechniken zu betrachten. Mehrmikrophonesysteme werden insbesondere betracht, um die unerwünschte Effekte zu übersinden, die durch Raumakustik (z.B. Nachhall) und durch kohärente und unkohärente Störgeräusche (z.B. konkurrierende Sprecher, Computerventilatoren) verursacht werden. Die Arbeit endet mit der Beschreibung einiger Experimente, die auf realen und auf s
ISSN:	0167-6393 1872-7182
DOI:	10.1016/S0167-6393(98)00030-2