Towards improving ASR robustness for PSN and GSM telephone applications

In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques devel...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Speech communication 1997-10, Vol.23 (1), p.141-159
Hauptverfasser:	Mokbel, C., Mauuary, L., Karray, L., Jouvet, D., Monné, J., Simonin, J., Bartkova, K.
Format:	Artikel
Sprache:	eng
Schlagworte:	Applied sciences Exact sciences and technology Information, signal and communications theory Signal processing Speech processing Telecommunications and information theory
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

container_end_page	159
container_issue	1
container_start_page	141
container_title	Speech communication
container_volume	23
creator	Mokbel, C. Mauuary, L. Karray, L. Jouvet, D. Monné, J. Simonin, J. Bartkova, K.
description	In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness. Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources
doi_str_mv	10.1016/S0167-6393(97)00042-3
format	Article
fullrecord	<record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_miscellaneous_85666804</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><els_id>S0167639397000423</els_id><sourcerecordid>85666804</sourcerecordid><originalsourceid>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</originalsourceid><addsrcrecordid>eNqNkNtKAzEQhoMoWKuPIORCRC9Wc9hD9kpK0SrUA269DtnsrEa2mzXZVnx70wO9VRgyBL6Z-fkQOqXkihKaXhfhyaKU5_wizy4JITGL-B4aUJGxKKOC7aPBDjlER95_riAh2ABNZvZbucpjM--cXZr2HY-KV-xsufB9C97j2jr8Ujxh1VZ4UjziHhroPmwLWHVdY7TqjW39MTqoVePhZNuH6O3udja-j6bPk4fxaBppnos-4ipOSBmK87iqEs450UmaVyDCF1iSpjEts5CMljVTTNE4SWtGE0ahzAVP-BCdb_aGtF8L8L2cG6-haVQLduGlCCtSQeJ_gDxmMSMBTDagdtZ7B7XsnJkr9yMpkSu_cu1XruTJPJNrv5KHubPtAeW1amqnWm38bpjxnAi6ynGzwSBYWRpw0msDrYbKONC9rKz549AvHG6M_Q</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>85342420</pqid></control><display><type>article</type><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><source>ScienceDirect Journals (5 years ago - present)</source><creator>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</creator><creatorcontrib>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</creatorcontrib><description>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness. Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</description><identifier>ISSN: 0167-6393</identifier><identifier>EISSN: 1872-7182</identifier><identifier>DOI: 10.1016/S0167-6393(97)00042-3</identifier><identifier>CODEN: SCOMDH</identifier><language>eng</language><publisher>Amsterdam: Elsevier B.V</publisher><subject>Applied sciences ; Exact sciences and technology ; Information, signal and communications theory ; Signal processing ; Speech processing ; Telecommunications and information theory</subject><ispartof>Speech communication, 1997-10, Vol.23 (1), p.141-159</ispartof><rights>1997 Elsevier Science B.V.</rights><rights>1998 INIST-CNRS</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</citedby><cites>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</cites></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://dx.doi.org/10.1016/S0167-6393(97)00042-3$$EHTML$$P50$$Gelsevier$$H</linktohtml><link.rule.ids>309,310,314,780,784,789,790,3548,23929,23930,25139,27923,27924,45994</link.rule.ids><backlink>$$Uhttp://pascal-francis.inist.fr/vibad/index.php?action=getRecordDetail&idt=2390814$$DView record in Pascal Francis$$Hfree_for_read</backlink></links><search><creatorcontrib>Mokbel, C.</creatorcontrib><creatorcontrib>Mauuary, L.</creatorcontrib><creatorcontrib>Karray, L.</creatorcontrib><creatorcontrib>Jouvet, D.</creatorcontrib><creatorcontrib>Monné, J.</creatorcontrib><creatorcontrib>Simonin, J.</creatorcontrib><creatorcontrib>Bartkova, K.</creatorcontrib><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><title>Speech communication</title><description>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness. Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</description><subject>Applied sciences</subject><subject>Exact sciences and technology</subject><subject>Information, signal and communications theory</subject><subject>Signal processing</subject><subject>Speech processing</subject><subject>Telecommunications and information theory</subject><issn>0167-6393</issn><issn>1872-7182</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>1997</creationdate><recordtype>article</recordtype><recordid>eNqNkNtKAzEQhoMoWKuPIORCRC9Wc9hD9kpK0SrUA269DtnsrEa2mzXZVnx70wO9VRgyBL6Z-fkQOqXkihKaXhfhyaKU5_wizy4JITGL-B4aUJGxKKOC7aPBDjlER95_riAh2ABNZvZbucpjM--cXZr2HY-KV-xsufB9C97j2jr8Ujxh1VZ4UjziHhroPmwLWHVdY7TqjW39MTqoVePhZNuH6O3udja-j6bPk4fxaBppnos-4ipOSBmK87iqEs450UmaVyDCF1iSpjEts5CMljVTTNE4SWtGE0ahzAVP-BCdb_aGtF8L8L2cG6-haVQLduGlCCtSQeJ_gDxmMSMBTDagdtZ7B7XsnJkr9yMpkSu_cu1XruTJPJNrv5KHubPtAeW1amqnWm38bpjxnAi6ynGzwSBYWRpw0msDrYbKONC9rKz549AvHG6M_Q</recordid><startdate>19971001</startdate><enddate>19971001</enddate><creator>Mokbel, C.</creator><creator>Mauuary, L.</creator><creator>Karray, L.</creator><creator>Jouvet, D.</creator><creator>Monné, J.</creator><creator>Simonin, J.</creator><creator>Bartkova, K.</creator><general>Elsevier B.V</general><general>Elsevier</general><scope>IQODW</scope><scope>AAYXX</scope><scope>CITATION</scope><scope>8BM</scope><scope>7T9</scope></search><sort><creationdate>19971001</creationdate><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><author>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>1997</creationdate><topic>Applied sciences</topic><topic>Exact sciences and technology</topic><topic>Information, signal and communications theory</topic><topic>Signal processing</topic><topic>Speech processing</topic><topic>Telecommunications and information theory</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Mokbel, C.</creatorcontrib><creatorcontrib>Mauuary, L.</creatorcontrib><creatorcontrib>Karray, L.</creatorcontrib><creatorcontrib>Jouvet, D.</creatorcontrib><creatorcontrib>Monné, J.</creatorcontrib><creatorcontrib>Simonin, J.</creatorcontrib><creatorcontrib>Bartkova, K.</creatorcontrib><collection>Pascal-Francis</collection><collection>CrossRef</collection><collection>ComDisDome</collection><collection>Linguistics and Language Behavior Abstracts (LLBA)</collection><jtitle>Speech communication</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Mokbel, C.</au><au>Mauuary, L.</au><au>Karray, L.</au><au>Jouvet, D.</au><au>Monné, J.</au><au>Simonin, J.</au><au>Bartkova, K.</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Towards improving ASR robustness for PSN and GSM telephone applications</atitle><jtitle>Speech communication</jtitle><date>1997-10-01</date><risdate>1997</risdate><volume>23</volume><issue>1</issue><spage>141</spage><epage>159</epage><pages>141-159</pages><issn>0167-6393</issn><eissn>1872-7182</eissn><coden>SCOMDH</coden><abstract>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness. Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</abstract><cop>Amsterdam</cop><pub>Elsevier B.V</pub><doi>10.1016/S0167-6393(97)00042-3</doi><tpages>19</tpages></addata></record>
fulltext	fulltext
identifier	ISSN: 0167-6393
ispartof	Speech communication, 1997-10, Vol.23 (1), p.141-159
issn	0167-6393 1872-7182
language	eng
recordid	cdi_proquest_miscellaneous_85666804
source	ScienceDirect Journals (5 years ago - present)
subjects	Applied sciences Exact sciences and technology Information, signal and communications theory Signal processing Speech processing Telecommunications and information theory
title	Towards improving ASR robustness for PSN and GSM telephone applications
url	https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-13T03%3A02%3A44IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Towards%20improving%20ASR%20robustness%20for%20PSN%20and%20GSM%20telephone%20applications&rft.jtitle=Speech%20communication&rft.au=Mokbel,%20C.&rft.date=1997-10-01&rft.volume=23&rft.issue=1&rft.spage=141&rft.epage=159&rft.pages=141-159&rft.issn=0167-6393&rft.eissn=1872-7182&rft.coden=SCOMDH&rft_id=info:doi/10.1016/S0167-6393(97)00042-3&rft_dat=%3Cproquest_cross%3E85666804%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=85342420&rft_id=info:pmid/&rft_els_id=S0167639397000423&rfr_iscdi=true