Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars

Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely an...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Speech communication 1992-06, Vol.11 (2), p.215-228
Hauptverfasser: Lockwood, P., Boudy, J.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 228
container_issue 2
container_start_page 215
container_title Speech communication
container_volume 11
creator Lockwood, P.
Boudy, J.
description Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely and safely on his task while composing and conversing in a “full” hands-free mode. This paper addresses the problem of speaker-dependent discrete utterance recognition in noise. Special reference is made to the mismatch effects due to the fact that training and testing are made in different environments. A novel technique for noise compensation is proposed: nonlinear spectral subtraction (NSS). Robust variance estimates and robust pdf evaluations (projection) are also introduced and combined with NSS into the HMM framework. We show that the lower limit of applicability of the projection (low SNR values) can be loosened after combination with NSS. Experimental results are reported. The performance of an HMM-based recogniser rises from 56% (no compensation) to 98% after speech enhancement. More than 3300 utterances have been used to evaluate the systems (three databases, two European languages). This result is achieved by the use of robust training/recognition schemes and by preprocessing the noisy speech by NSS. Leistungsfähige Spracherkenner zu entwickeln ist eine wichtige Forschungsaufgabe. Dies gilt insbesondere auch im Bereich des Mobilfunks, wenn der Benutzer sein mobiles Telefon durch akustische Eingabe bedienen können soll. Derartige Verfahren können beispielsweise dann attraktiv sein, wenn sich ein Autofahrer in die Lage versetzt sieht, Telefonverbindungen zu wählen und Telefongespräche zu führen, ohne seine Hände vom Steuer nehmen zu müssen, und sich somit vollständig und sicher aufs Fahren konzentrieren kann. Der vorliegende Beitrag befaβt sich mit dem Problem sprecherabhängiger Erkennung isolierter Äuβerungen in geräuschvoller Umgebung. Hierbei wird insbesondere das Problem diskutiert, das dadurch entsteht, daβ die Umgebungsbedingungen beim Training und beim Einsatz des Algorithmus erheblich voneinander abweichen. Präsentiert wird das Verfahren der nichtlinearen spektralen Subtraktion (NSS), eine neuartiges Methode zur Geräuschreduktion. Darüber hinaus werden robuste Schätzverfahren für Varianzen und robuste Evaluierungsverfahren für Wahrscheinlichkeitsdichtefunktionen (Projektionen) eingesetzt und zusammem mit dem NSS-Verfahren in ein Spracherkennungssy
doi_str_mv 10.1016/0167-6393(92)90016-Z
format Article
fullrecord <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_miscellaneous_85561775</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><els_id>016763939290016Z</els_id><sourcerecordid>85561775</sourcerecordid><originalsourceid>FETCH-LOGICAL-c426t-4a019dd3d6a667ad84fb5e2991c11f83f7b0e286211df1f22b4c7b70d5f0fb43</originalsourceid><addsrcrecordid>eNqNkcFuFSEUhonRxGv1DVywMKZNOgoMA8PGxDStNam6aFfdEAYOXupcuAK36gv43GW8TZfq4uTkhO__Dzk_Qi8peUMJFW9byU70qj9U7EiRNnbXj9CKjpJ1ko7sMVo9IE_Rs1JuCCF8HNkK_T79uYUcNhBrwT9CXWODY4pziGAyLluwNZsZl93Uuq0p48PPl5dHx_g8OAcRfzL5W7rFm-RgLthEh-sa8Danm6YMKR5j3zQ5TbtSFzuwa5zBpq8xLM84RGxNLs_RE2_mAi_u-wG6Oju9OjnvLr58-Hjy_qKznInacUOocq53wgghjRu5nwZgSlFLqR97LycCbBSMUuepZ2ziVk6SuMETP_H-AL3e27YPft9BqXoTioV5NhHSruhxGASVcvgPsKeKMfFPkA1q6CWTDeR70OZUSgavt-3sJv_SlOglRb1EpJeItGL6T4r6usle3fubYs3ss4k2lAft0AvOJW3Yuz3WUoDbAFkXGyBacKFdu2qXwt_33AGieLJF</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>25953727</pqid></control><display><type>article</type><title>Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars</title><source>Elsevier ScienceDirect Journals</source><creator>Lockwood, P. ; Boudy, J.</creator><creatorcontrib>Lockwood, P. ; Boudy, J.</creatorcontrib><description>Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely and safely on his task while composing and conversing in a “full” hands-free mode. This paper addresses the problem of speaker-dependent discrete utterance recognition in noise. Special reference is made to the mismatch effects due to the fact that training and testing are made in different environments. A novel technique for noise compensation is proposed: nonlinear spectral subtraction (NSS). Robust variance estimates and robust pdf evaluations (projection) are also introduced and combined with NSS into the HMM framework. We show that the lower limit of applicability of the projection (low SNR values) can be loosened after combination with NSS. Experimental results are reported. The performance of an HMM-based recogniser rises from 56% (no compensation) to 98% after speech enhancement. More than 3300 utterances have been used to evaluate the systems (three databases, two European languages). This result is achieved by the use of robust training/recognition schemes and by preprocessing the noisy speech by NSS. Leistungsfähige Spracherkenner zu entwickeln ist eine wichtige Forschungsaufgabe. Dies gilt insbesondere auch im Bereich des Mobilfunks, wenn der Benutzer sein mobiles Telefon durch akustische Eingabe bedienen können soll. Derartige Verfahren können beispielsweise dann attraktiv sein, wenn sich ein Autofahrer in die Lage versetzt sieht, Telefonverbindungen zu wählen und Telefongespräche zu führen, ohne seine Hände vom Steuer nehmen zu müssen, und sich somit vollständig und sicher aufs Fahren konzentrieren kann. Der vorliegende Beitrag befaβt sich mit dem Problem sprecherabhängiger Erkennung isolierter Äuβerungen in geräuschvoller Umgebung. Hierbei wird insbesondere das Problem diskutiert, das dadurch entsteht, daβ die Umgebungsbedingungen beim Training und beim Einsatz des Algorithmus erheblich voneinander abweichen. Präsentiert wird das Verfahren der nichtlinearen spektralen Subtraktion (NSS), eine neuartiges Methode zur Geräuschreduktion. Darüber hinaus werden robuste Schätzverfahren für Varianzen und robuste Evaluierungsverfahren für Wahrscheinlichkeitsdichtefunktionen (Projektionen) eingesetzt und zusammem mit dem NSS-Verfahren in ein Spracherkennungssystem auf HMM-Basis eingebaut. Wie gezeigt wird, kann der minimale Störabstand, bei dem der beschriebene HMM-Erkenner noch funktioniert, durch den Einsatz des NSS-Verfahrens erheblich gesenkt werden. Experimentelle Ergebnisse werden vorgestellt. Die Erkennungsrate des HMM-Spracherkenners wächst von 56% (ohne Geräuschkompensation) auf 98% (mit Einsatz aller beschriebenen Verfahren). Zur Evaluierung des Systems wurden mehr als 3300 Äuβerungen verwendet (drei Korpora, zwei europäische Sprachen). Die Verbesserung wurde erzielt durch den Einsatz robuster Verfahren in der Lern- und Betriebsphase des Erkenners sowie durch Qualitätsverbesserung des gestörten Sprachsignals mit dem NSS-Verfahren. Atteindre des performances robustes pour un système de reconnaissance vocale est un problème pifficile à résoudre surtout lorsqu'un tel systéme est utilisé comme fonction de composition vocale dans les radiotéléphones mobiles de voiture. La nécessité de telles fonctions devient primordiale dans la mesure òu l'utilisateur d'un radiotéléphone mobile peut se concentrer sans risques sur la conduite de son véhicule tout en composant le numéro de son correspondant et discuter avec ce dernier en mode “mains-libres”. Le travail présenté dans cet article pose le problème de la reconnaissance mono-locuteur de most isolés dans un environnement bruité. Dans ce contexte toute la difficulté réside dans le fait qu'il existe des différences importantes entre les conditions d'apprentissage (généralement dans le silence) et celles de reconnaissance (généralement dans le bruit, lorsque le véhicule roule). Une nouvelle technique de réduction du bruit est proposée: la Soustraction Spectrale Non linéaire (NSS). Dans un système de reconnaissance utilisant les Modèles de Markov Cachés (HMM), des estimateurs robustes de variances (lissage) et de densités de probabilités d'observation (projection) sont également introduits et combinés avec la Soustraction Spectrale Non linéaire. Nous montrons aussi que les limites courantes d'application de la Projection (RSB inférieurs à 0 dB) peuvent être repoussées grâce à l'utilisation de NSS. Des simulations numériques faites à partir de données réelles sont présentées et commentées. Le système de reconnaissance (HMM) voit ses performances s'élever de 56%, sans traitement, à 98%, après réduction du bruit par NSS. Plus de 3000 mots à reconnaître ont été employés pour l'évaluation des différents systèmes considérés (trois bases de données, deux langues europénnes). De telles performances ont été atteintes en ayant recours à des techniques robustes d'apprentissage et de reconnaissance ainsi qu'à prétraitement des mots bruités à l'aide de NSS.</description><identifier>ISSN: 0167-6393</identifier><identifier>EISSN: 1872-7182</identifier><identifier>DOI: 10.1016/0167-6393(92)90016-Z</identifier><identifier>CODEN: SCOMDH</identifier><language>eng</language><publisher>Amsterdam: Elsevier B.V</publisher><subject>Applied sciences ; continuous density Hidden Markov Model ; Exact sciences and technology ; Information, signal and communications theory ; noise ; projection measure ; Signal processing ; spectral subtraction ; speech enhancement ; Speech processing ; Speech recognition ; Telecommunications and information theory</subject><ispartof>Speech communication, 1992-06, Vol.11 (2), p.215-228</ispartof><rights>1992</rights><rights>1992 INIST-CNRS</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c426t-4a019dd3d6a667ad84fb5e2991c11f83f7b0e286211df1f22b4c7b70d5f0fb43</citedby><cites>FETCH-LOGICAL-c426t-4a019dd3d6a667ad84fb5e2991c11f83f7b0e286211df1f22b4c7b70d5f0fb43</cites></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://www.sciencedirect.com/science/article/pii/016763939290016Z$$EHTML$$P50$$Gelsevier$$H</linktohtml><link.rule.ids>309,310,314,776,780,785,786,3537,23909,23910,25118,27901,27902,65306</link.rule.ids><backlink>$$Uhttp://pascal-francis.inist.fr/vibad/index.php?action=getRecordDetail&amp;idt=5364471$$DView record in Pascal Francis$$Hfree_for_read</backlink></links><search><creatorcontrib>Lockwood, P.</creatorcontrib><creatorcontrib>Boudy, J.</creatorcontrib><title>Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars</title><title>Speech communication</title><description>Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely and safely on his task while composing and conversing in a “full” hands-free mode. This paper addresses the problem of speaker-dependent discrete utterance recognition in noise. Special reference is made to the mismatch effects due to the fact that training and testing are made in different environments. A novel technique for noise compensation is proposed: nonlinear spectral subtraction (NSS). Robust variance estimates and robust pdf evaluations (projection) are also introduced and combined with NSS into the HMM framework. We show that the lower limit of applicability of the projection (low SNR values) can be loosened after combination with NSS. Experimental results are reported. The performance of an HMM-based recogniser rises from 56% (no compensation) to 98% after speech enhancement. More than 3300 utterances have been used to evaluate the systems (three databases, two European languages). This result is achieved by the use of robust training/recognition schemes and by preprocessing the noisy speech by NSS. Leistungsfähige Spracherkenner zu entwickeln ist eine wichtige Forschungsaufgabe. Dies gilt insbesondere auch im Bereich des Mobilfunks, wenn der Benutzer sein mobiles Telefon durch akustische Eingabe bedienen können soll. Derartige Verfahren können beispielsweise dann attraktiv sein, wenn sich ein Autofahrer in die Lage versetzt sieht, Telefonverbindungen zu wählen und Telefongespräche zu führen, ohne seine Hände vom Steuer nehmen zu müssen, und sich somit vollständig und sicher aufs Fahren konzentrieren kann. Der vorliegende Beitrag befaβt sich mit dem Problem sprecherabhängiger Erkennung isolierter Äuβerungen in geräuschvoller Umgebung. Hierbei wird insbesondere das Problem diskutiert, das dadurch entsteht, daβ die Umgebungsbedingungen beim Training und beim Einsatz des Algorithmus erheblich voneinander abweichen. Präsentiert wird das Verfahren der nichtlinearen spektralen Subtraktion (NSS), eine neuartiges Methode zur Geräuschreduktion. Darüber hinaus werden robuste Schätzverfahren für Varianzen und robuste Evaluierungsverfahren für Wahrscheinlichkeitsdichtefunktionen (Projektionen) eingesetzt und zusammem mit dem NSS-Verfahren in ein Spracherkennungssystem auf HMM-Basis eingebaut. Wie gezeigt wird, kann der minimale Störabstand, bei dem der beschriebene HMM-Erkenner noch funktioniert, durch den Einsatz des NSS-Verfahrens erheblich gesenkt werden. Experimentelle Ergebnisse werden vorgestellt. Die Erkennungsrate des HMM-Spracherkenners wächst von 56% (ohne Geräuschkompensation) auf 98% (mit Einsatz aller beschriebenen Verfahren). Zur Evaluierung des Systems wurden mehr als 3300 Äuβerungen verwendet (drei Korpora, zwei europäische Sprachen). Die Verbesserung wurde erzielt durch den Einsatz robuster Verfahren in der Lern- und Betriebsphase des Erkenners sowie durch Qualitätsverbesserung des gestörten Sprachsignals mit dem NSS-Verfahren. Atteindre des performances robustes pour un système de reconnaissance vocale est un problème pifficile à résoudre surtout lorsqu'un tel systéme est utilisé comme fonction de composition vocale dans les radiotéléphones mobiles de voiture. La nécessité de telles fonctions devient primordiale dans la mesure òu l'utilisateur d'un radiotéléphone mobile peut se concentrer sans risques sur la conduite de son véhicule tout en composant le numéro de son correspondant et discuter avec ce dernier en mode “mains-libres”. Le travail présenté dans cet article pose le problème de la reconnaissance mono-locuteur de most isolés dans un environnement bruité. Dans ce contexte toute la difficulté réside dans le fait qu'il existe des différences importantes entre les conditions d'apprentissage (généralement dans le silence) et celles de reconnaissance (généralement dans le bruit, lorsque le véhicule roule). Une nouvelle technique de réduction du bruit est proposée: la Soustraction Spectrale Non linéaire (NSS). Dans un système de reconnaissance utilisant les Modèles de Markov Cachés (HMM), des estimateurs robustes de variances (lissage) et de densités de probabilités d'observation (projection) sont également introduits et combinés avec la Soustraction Spectrale Non linéaire. Nous montrons aussi que les limites courantes d'application de la Projection (RSB inférieurs à 0 dB) peuvent être repoussées grâce à l'utilisation de NSS. Des simulations numériques faites à partir de données réelles sont présentées et commentées. Le système de reconnaissance (HMM) voit ses performances s'élever de 56%, sans traitement, à 98%, après réduction du bruit par NSS. Plus de 3000 mots à reconnaître ont été employés pour l'évaluation des différents systèmes considérés (trois bases de données, deux langues europénnes). De telles performances ont été atteintes en ayant recours à des techniques robustes d'apprentissage et de reconnaissance ainsi qu'à prétraitement des mots bruités à l'aide de NSS.</description><subject>Applied sciences</subject><subject>continuous density Hidden Markov Model</subject><subject>Exact sciences and technology</subject><subject>Information, signal and communications theory</subject><subject>noise</subject><subject>projection measure</subject><subject>Signal processing</subject><subject>spectral subtraction</subject><subject>speech enhancement</subject><subject>Speech processing</subject><subject>Speech recognition</subject><subject>Telecommunications and information theory</subject><issn>0167-6393</issn><issn>1872-7182</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>1992</creationdate><recordtype>article</recordtype><recordid>eNqNkcFuFSEUhonRxGv1DVywMKZNOgoMA8PGxDStNam6aFfdEAYOXupcuAK36gv43GW8TZfq4uTkhO__Dzk_Qi8peUMJFW9byU70qj9U7EiRNnbXj9CKjpJ1ko7sMVo9IE_Rs1JuCCF8HNkK_T79uYUcNhBrwT9CXWODY4pziGAyLluwNZsZl93Uuq0p48PPl5dHx_g8OAcRfzL5W7rFm-RgLthEh-sa8Danm6YMKR5j3zQ5TbtSFzuwa5zBpq8xLM84RGxNLs_RE2_mAi_u-wG6Oju9OjnvLr58-Hjy_qKznInacUOocq53wgghjRu5nwZgSlFLqR97LycCbBSMUuepZ2ziVk6SuMETP_H-AL3e27YPft9BqXoTioV5NhHSruhxGASVcvgPsKeKMfFPkA1q6CWTDeR70OZUSgavt-3sJv_SlOglRb1EpJeItGL6T4r6usle3fubYs3ss4k2lAft0AvOJW3Yuz3WUoDbAFkXGyBacKFdu2qXwt_33AGieLJF</recordid><startdate>19920601</startdate><enddate>19920601</enddate><creator>Lockwood, P.</creator><creator>Boudy, J.</creator><general>Elsevier B.V</general><general>Elsevier</general><scope>IQODW</scope><scope>AAYXX</scope><scope>CITATION</scope><scope>7SC</scope><scope>7SP</scope><scope>8FD</scope><scope>JQ2</scope><scope>L7M</scope><scope>L~C</scope><scope>L~D</scope><scope>8BM</scope><scope>7T9</scope></search><sort><creationdate>19920601</creationdate><title>Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars</title><author>Lockwood, P. ; Boudy, J.</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c426t-4a019dd3d6a667ad84fb5e2991c11f83f7b0e286211df1f22b4c7b70d5f0fb43</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>1992</creationdate><topic>Applied sciences</topic><topic>continuous density Hidden Markov Model</topic><topic>Exact sciences and technology</topic><topic>Information, signal and communications theory</topic><topic>noise</topic><topic>projection measure</topic><topic>Signal processing</topic><topic>spectral subtraction</topic><topic>speech enhancement</topic><topic>Speech processing</topic><topic>Speech recognition</topic><topic>Telecommunications and information theory</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Lockwood, P.</creatorcontrib><creatorcontrib>Boudy, J.</creatorcontrib><collection>Pascal-Francis</collection><collection>CrossRef</collection><collection>Computer and Information Systems Abstracts</collection><collection>Electronics &amp; Communications Abstracts</collection><collection>Technology Research Database</collection><collection>ProQuest Computer Science Collection</collection><collection>Advanced Technologies Database with Aerospace</collection><collection>Computer and Information Systems Abstracts – Academic</collection><collection>Computer and Information Systems Abstracts Professional</collection><collection>ComDisDome</collection><collection>Linguistics and Language Behavior Abstracts (LLBA)</collection><jtitle>Speech communication</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Lockwood, P.</au><au>Boudy, J.</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars</atitle><jtitle>Speech communication</jtitle><date>1992-06-01</date><risdate>1992</risdate><volume>11</volume><issue>2</issue><spage>215</spage><epage>228</epage><pages>215-228</pages><issn>0167-6393</issn><eissn>1872-7182</eissn><coden>SCOMDH</coden><abstract>Achieving reliable performance for a speech recogniser is an important challenge, especially in the context of mobile telephony applications where the user can access telephone functions through voice. The breakthrough of such a technology is appealing, since the driver can concentrate completely and safely on his task while composing and conversing in a “full” hands-free mode. This paper addresses the problem of speaker-dependent discrete utterance recognition in noise. Special reference is made to the mismatch effects due to the fact that training and testing are made in different environments. A novel technique for noise compensation is proposed: nonlinear spectral subtraction (NSS). Robust variance estimates and robust pdf evaluations (projection) are also introduced and combined with NSS into the HMM framework. We show that the lower limit of applicability of the projection (low SNR values) can be loosened after combination with NSS. Experimental results are reported. The performance of an HMM-based recogniser rises from 56% (no compensation) to 98% after speech enhancement. More than 3300 utterances have been used to evaluate the systems (three databases, two European languages). This result is achieved by the use of robust training/recognition schemes and by preprocessing the noisy speech by NSS. Leistungsfähige Spracherkenner zu entwickeln ist eine wichtige Forschungsaufgabe. Dies gilt insbesondere auch im Bereich des Mobilfunks, wenn der Benutzer sein mobiles Telefon durch akustische Eingabe bedienen können soll. Derartige Verfahren können beispielsweise dann attraktiv sein, wenn sich ein Autofahrer in die Lage versetzt sieht, Telefonverbindungen zu wählen und Telefongespräche zu führen, ohne seine Hände vom Steuer nehmen zu müssen, und sich somit vollständig und sicher aufs Fahren konzentrieren kann. Der vorliegende Beitrag befaβt sich mit dem Problem sprecherabhängiger Erkennung isolierter Äuβerungen in geräuschvoller Umgebung. Hierbei wird insbesondere das Problem diskutiert, das dadurch entsteht, daβ die Umgebungsbedingungen beim Training und beim Einsatz des Algorithmus erheblich voneinander abweichen. Präsentiert wird das Verfahren der nichtlinearen spektralen Subtraktion (NSS), eine neuartiges Methode zur Geräuschreduktion. Darüber hinaus werden robuste Schätzverfahren für Varianzen und robuste Evaluierungsverfahren für Wahrscheinlichkeitsdichtefunktionen (Projektionen) eingesetzt und zusammem mit dem NSS-Verfahren in ein Spracherkennungssystem auf HMM-Basis eingebaut. Wie gezeigt wird, kann der minimale Störabstand, bei dem der beschriebene HMM-Erkenner noch funktioniert, durch den Einsatz des NSS-Verfahrens erheblich gesenkt werden. Experimentelle Ergebnisse werden vorgestellt. Die Erkennungsrate des HMM-Spracherkenners wächst von 56% (ohne Geräuschkompensation) auf 98% (mit Einsatz aller beschriebenen Verfahren). Zur Evaluierung des Systems wurden mehr als 3300 Äuβerungen verwendet (drei Korpora, zwei europäische Sprachen). Die Verbesserung wurde erzielt durch den Einsatz robuster Verfahren in der Lern- und Betriebsphase des Erkenners sowie durch Qualitätsverbesserung des gestörten Sprachsignals mit dem NSS-Verfahren. Atteindre des performances robustes pour un système de reconnaissance vocale est un problème pifficile à résoudre surtout lorsqu'un tel systéme est utilisé comme fonction de composition vocale dans les radiotéléphones mobiles de voiture. La nécessité de telles fonctions devient primordiale dans la mesure òu l'utilisateur d'un radiotéléphone mobile peut se concentrer sans risques sur la conduite de son véhicule tout en composant le numéro de son correspondant et discuter avec ce dernier en mode “mains-libres”. Le travail présenté dans cet article pose le problème de la reconnaissance mono-locuteur de most isolés dans un environnement bruité. Dans ce contexte toute la difficulté réside dans le fait qu'il existe des différences importantes entre les conditions d'apprentissage (généralement dans le silence) et celles de reconnaissance (généralement dans le bruit, lorsque le véhicule roule). Une nouvelle technique de réduction du bruit est proposée: la Soustraction Spectrale Non linéaire (NSS). Dans un système de reconnaissance utilisant les Modèles de Markov Cachés (HMM), des estimateurs robustes de variances (lissage) et de densités de probabilités d'observation (projection) sont également introduits et combinés avec la Soustraction Spectrale Non linéaire. Nous montrons aussi que les limites courantes d'application de la Projection (RSB inférieurs à 0 dB) peuvent être repoussées grâce à l'utilisation de NSS. Des simulations numériques faites à partir de données réelles sont présentées et commentées. Le système de reconnaissance (HMM) voit ses performances s'élever de 56%, sans traitement, à 98%, après réduction du bruit par NSS. Plus de 3000 mots à reconnaître ont été employés pour l'évaluation des différents systèmes considérés (trois bases de données, deux langues europénnes). De telles performances ont été atteintes en ayant recours à des techniques robustes d'apprentissage et de reconnaissance ainsi qu'à prétraitement des mots bruités à l'aide de NSS.</abstract><cop>Amsterdam</cop><pub>Elsevier B.V</pub><doi>10.1016/0167-6393(92)90016-Z</doi><tpages>14</tpages></addata></record>
fulltext fulltext
identifier ISSN: 0167-6393
ispartof Speech communication, 1992-06, Vol.11 (2), p.215-228
issn 0167-6393
1872-7182
language eng
recordid cdi_proquest_miscellaneous_85561775
source Elsevier ScienceDirect Journals
subjects Applied sciences
continuous density Hidden Markov Model
Exact sciences and technology
Information, signal and communications theory
noise
projection measure
Signal processing
spectral subtraction
speech enhancement
Speech processing
Speech recognition
Telecommunications and information theory
title Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov models and the projection, for robust speech recognition in cars
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-30T12%3A16%3A45IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Experiments%20with%20a%20nonlinear%20spectral%20subtractor%20(NSS),%20Hidden%20Markov%20models%20and%20the%20projection,%20for%20robust%20speech%20recognition%20in%20cars&rft.jtitle=Speech%20communication&rft.au=Lockwood,%20P.&rft.date=1992-06-01&rft.volume=11&rft.issue=2&rft.spage=215&rft.epage=228&rft.pages=215-228&rft.issn=0167-6393&rft.eissn=1872-7182&rft.coden=SCOMDH&rft_id=info:doi/10.1016/0167-6393(92)90016-Z&rft_dat=%3Cproquest_cross%3E85561775%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=25953727&rft_id=info:pmid/&rft_els_id=016763939290016Z&rfr_iscdi=true