Towards improving ASR robustness for PSN and GSM telephone applications
In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques devel...
Gespeichert in:
Veröffentlicht in: | Speech communication 1997-10, Vol.23 (1), p.141-159 |
---|---|
Hauptverfasser: | , , , , , , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | 159 |
---|---|
container_issue | 1 |
container_start_page | 141 |
container_title | Speech communication |
container_volume | 23 |
creator | Mokbel, C. Mauuary, L. Karray, L. Jouvet, D. Monné, J. Simonin, J. Bartkova, K. |
description | In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness.
Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources |
doi_str_mv | 10.1016/S0167-6393(97)00042-3 |
format | Article |
fullrecord | <record><control><sourceid>proquest_cross</sourceid><recordid>TN_cdi_proquest_miscellaneous_85666804</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><els_id>S0167639397000423</els_id><sourcerecordid>85666804</sourcerecordid><originalsourceid>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</originalsourceid><addsrcrecordid>eNqNkNtKAzEQhoMoWKuPIORCRC9Wc9hD9kpK0SrUA269DtnsrEa2mzXZVnx70wO9VRgyBL6Z-fkQOqXkihKaXhfhyaKU5_wizy4JITGL-B4aUJGxKKOC7aPBDjlER95_riAh2ABNZvZbucpjM--cXZr2HY-KV-xsufB9C97j2jr8Ujxh1VZ4UjziHhroPmwLWHVdY7TqjW39MTqoVePhZNuH6O3udja-j6bPk4fxaBppnos-4ipOSBmK87iqEs450UmaVyDCF1iSpjEts5CMljVTTNE4SWtGE0ahzAVP-BCdb_aGtF8L8L2cG6-haVQLduGlCCtSQeJ_gDxmMSMBTDagdtZ7B7XsnJkr9yMpkSu_cu1XruTJPJNrv5KHubPtAeW1amqnWm38bpjxnAi6ynGzwSBYWRpw0msDrYbKONC9rKz549AvHG6M_Q</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype><pqid>85342420</pqid></control><display><type>article</type><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><source>ScienceDirect Journals (5 years ago - present)</source><creator>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</creator><creatorcontrib>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</creatorcontrib><description>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness.
Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</description><identifier>ISSN: 0167-6393</identifier><identifier>EISSN: 1872-7182</identifier><identifier>DOI: 10.1016/S0167-6393(97)00042-3</identifier><identifier>CODEN: SCOMDH</identifier><language>eng</language><publisher>Amsterdam: Elsevier B.V</publisher><subject>Applied sciences ; Exact sciences and technology ; Information, signal and communications theory ; Signal processing ; Speech processing ; Telecommunications and information theory</subject><ispartof>Speech communication, 1997-10, Vol.23 (1), p.141-159</ispartof><rights>1997 Elsevier Science B.V.</rights><rights>1998 INIST-CNRS</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed><citedby>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</citedby><cites>FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</cites></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://dx.doi.org/10.1016/S0167-6393(97)00042-3$$EHTML$$P50$$Gelsevier$$H</linktohtml><link.rule.ids>309,310,314,780,784,789,790,3548,23929,23930,25139,27923,27924,45994</link.rule.ids><backlink>$$Uhttp://pascal-francis.inist.fr/vibad/index.php?action=getRecordDetail&idt=2390814$$DView record in Pascal Francis$$Hfree_for_read</backlink></links><search><creatorcontrib>Mokbel, C.</creatorcontrib><creatorcontrib>Mauuary, L.</creatorcontrib><creatorcontrib>Karray, L.</creatorcontrib><creatorcontrib>Jouvet, D.</creatorcontrib><creatorcontrib>Monné, J.</creatorcontrib><creatorcontrib>Simonin, J.</creatorcontrib><creatorcontrib>Bartkova, K.</creatorcontrib><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><title>Speech communication</title><description>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness.
Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</description><subject>Applied sciences</subject><subject>Exact sciences and technology</subject><subject>Information, signal and communications theory</subject><subject>Signal processing</subject><subject>Speech processing</subject><subject>Telecommunications and information theory</subject><issn>0167-6393</issn><issn>1872-7182</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>1997</creationdate><recordtype>article</recordtype><recordid>eNqNkNtKAzEQhoMoWKuPIORCRC9Wc9hD9kpK0SrUA269DtnsrEa2mzXZVnx70wO9VRgyBL6Z-fkQOqXkihKaXhfhyaKU5_wizy4JITGL-B4aUJGxKKOC7aPBDjlER95_riAh2ABNZvZbucpjM--cXZr2HY-KV-xsufB9C97j2jr8Ujxh1VZ4UjziHhroPmwLWHVdY7TqjW39MTqoVePhZNuH6O3udja-j6bPk4fxaBppnos-4ipOSBmK87iqEs450UmaVyDCF1iSpjEts5CMljVTTNE4SWtGE0ahzAVP-BCdb_aGtF8L8L2cG6-haVQLduGlCCtSQeJ_gDxmMSMBTDagdtZ7B7XsnJkr9yMpkSu_cu1XruTJPJNrv5KHubPtAeW1amqnWm38bpjxnAi6ynGzwSBYWRpw0msDrYbKONC9rKz549AvHG6M_Q</recordid><startdate>19971001</startdate><enddate>19971001</enddate><creator>Mokbel, C.</creator><creator>Mauuary, L.</creator><creator>Karray, L.</creator><creator>Jouvet, D.</creator><creator>Monné, J.</creator><creator>Simonin, J.</creator><creator>Bartkova, K.</creator><general>Elsevier B.V</general><general>Elsevier</general><scope>IQODW</scope><scope>AAYXX</scope><scope>CITATION</scope><scope>8BM</scope><scope>7T9</scope></search><sort><creationdate>19971001</creationdate><title>Towards improving ASR robustness for PSN and GSM telephone applications</title><author>Mokbel, C. ; Mauuary, L. ; Karray, L. ; Jouvet, D. ; Monné, J. ; Simonin, J. ; Bartkova, K.</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-c398t-3a450b50b334dd53330c569de84dde256641b78821bf2a2a1456f21521eb98353</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>eng</language><creationdate>1997</creationdate><topic>Applied sciences</topic><topic>Exact sciences and technology</topic><topic>Information, signal and communications theory</topic><topic>Signal processing</topic><topic>Speech processing</topic><topic>Telecommunications and information theory</topic><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>Mokbel, C.</creatorcontrib><creatorcontrib>Mauuary, L.</creatorcontrib><creatorcontrib>Karray, L.</creatorcontrib><creatorcontrib>Jouvet, D.</creatorcontrib><creatorcontrib>Monné, J.</creatorcontrib><creatorcontrib>Simonin, J.</creatorcontrib><creatorcontrib>Bartkova, K.</creatorcontrib><collection>Pascal-Francis</collection><collection>CrossRef</collection><collection>ComDisDome</collection><collection>Linguistics and Language Behavior Abstracts (LLBA)</collection><jtitle>Speech communication</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>Mokbel, C.</au><au>Mauuary, L.</au><au>Karray, L.</au><au>Jouvet, D.</au><au>Monné, J.</au><au>Simonin, J.</au><au>Bartkova, K.</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>Towards improving ASR robustness for PSN and GSM telephone applications</atitle><jtitle>Speech communication</jtitle><date>1997-10-01</date><risdate>1997</risdate><volume>23</volume><issue>1</issue><spage>141</spage><epage>159</epage><pages>141-159</pages><issn>0167-6393</issn><eissn>1872-7182</eissn><coden>SCOMDH</coden><abstract>In real-life applications, errors in the speech recognition system are mainly due to inefficient detection of speech segments, unreliable rejection of Out-Of-Vocabulary (OOV) words, and insufficient account of noise and transmission channel effects. In this paper, we review a set of techniques developed at CNET in order to increase the robustness to mismatches between training and testing conditions. These techniques are divided in two classes: preprocessing techniques and Hidden Markov Models (HMM) parameters adaptation. The results of several experiments carried out on field databases, as well as on databases collected over PSN and GSM networks are presented. The main sources of errors are analyzed. We show that a blind equalization scheme significantly improves the recognition accuracy regarding both field and GSM data. Speech detection allows a system to delimit the boundaries of the words to be recognized. We also use preprocessing techniques to increase the robustness of such detectors to noisy GSM speech. We show that spectral subtraction improves speech detection under noisy GSM conditions. Bayesian adaptation of HMM parameters produces models which are robust to field and GSM conditions. Models robust to GSM conditions can also be generated by linear regression adaptation of HMM parameters. Our experiments show an equivalent performance obtained with both Bayesian and linear regression adaptation of HMM parameters. The results obtained also prove that HMM adaptation and preprocessing techniques can be advantageously combined to improve Automatic Speech Recognition (ASR) robustness.
Dans les applications, les erreurs d'un système de reconnaissance automatique de parole sont principalement dues à un manque d'efficacité de la détection des segments de parole dans le signal, à un manque de fiabilité du rejet des mots hors vocabulaire ou des bruits, et à une considération insuffisante des effets du bruit et des canaux de transmission. Dans ce papier, nous passons en revue un ensemble de techniques développées au CNET pour augmenter la robustesse aux variations des conditions d'utilisation et d'apprentissage d'un système de reconnaissance. Ces techniques se divisent en deux classes: prétraitement et adaptation des paramètres des modèles de Markov cachés (HMM). Les résultats de plusieurs expériences menées sur des bases de données d'exploitation, ainsi que sur des bases de données collectées à travers les réseaux RTC et GSM, sont présentées. Les sources principales d'erreurs sont analysées. On montre que l'égalisation aveugle des effets des lignes améliore significativement les performances de reconnaissance sur les données d'exploitation et les données GSM. Le module de détection de la parole dans le signal permet au système de déterminer les frontières des mots à reconnaı̂tre. Des techniques de prétraitement ont été utilisées pour améliorer la robustesse de la détection dans l'environnement GSM bruyant. On montre que la soustraction spectrale améliore la détection dans l'environnement GSM bruyant. Des modèles robustes pour les conditions GSM peuvent être obtenus en utilisant l'adaptation par régression linéaire des paramètres des HMMs. Nos expériences montrent qu'un niveau de performance équivalent peut être obtenu par les adaptations Bayésienne et par régression des paramètres des HMMs. Les résultats obtenus prouvent que l'adaptation et les techniques de prétraitement peuvent être avantageusement combinées pour améliorer la robustesse de la reconnaissance automatique de la parole.</abstract><cop>Amsterdam</cop><pub>Elsevier B.V</pub><doi>10.1016/S0167-6393(97)00042-3</doi><tpages>19</tpages></addata></record> |
fulltext | fulltext |
identifier | ISSN: 0167-6393 |
ispartof | Speech communication, 1997-10, Vol.23 (1), p.141-159 |
issn | 0167-6393 1872-7182 |
language | eng |
recordid | cdi_proquest_miscellaneous_85666804 |
source | ScienceDirect Journals (5 years ago - present) |
subjects | Applied sciences Exact sciences and technology Information, signal and communications theory Signal processing Speech processing Telecommunications and information theory |
title | Towards improving ASR robustness for PSN and GSM telephone applications |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-13T03%3A02%3A44IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-proquest_cross&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=Towards%20improving%20ASR%20robustness%20for%20PSN%20and%20GSM%20telephone%20applications&rft.jtitle=Speech%20communication&rft.au=Mokbel,%20C.&rft.date=1997-10-01&rft.volume=23&rft.issue=1&rft.spage=141&rft.epage=159&rft.pages=141-159&rft.issn=0167-6393&rft.eissn=1872-7182&rft.coden=SCOMDH&rft_id=info:doi/10.1016/S0167-6393(97)00042-3&rft_dat=%3Cproquest_cross%3E85666804%3C/proquest_cross%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_pqid=85342420&rft_id=info:pmid/&rft_els_id=S0167639397000423&rfr_iscdi=true |