Influence of noisy environment on the speech recognition rate based on the altera FPGA

يقدم هذا البحث مدخلا لدراسة تأثير المستويات المختلفة من الضوضاء البيئية على معدل التمييز لأنظمة تمييز الكلام التي لا تستخدم أي نوع من الفلاتر للتعامل مع هذه القضية. تم إنجاز هذا العمل بواسطة تنفيذ نظام على رقاقة قابله للبرمجة مع معالج التيرا نيوس 2 لتمييز الكلام في الزمن الحقيقي. استخدمت تقنية معامل...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Engineering and Technology Journal 2013-08, Vol.31 (13A), p.2513-2530
Hauptverfasser: Abbas, Iyad Ibrahim, Refeis, Ala Abd al-Husayn
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:يقدم هذا البحث مدخلا لدراسة تأثير المستويات المختلفة من الضوضاء البيئية على معدل التمييز لأنظمة تمييز الكلام التي لا تستخدم أي نوع من الفلاتر للتعامل مع هذه القضية. تم إنجاز هذا العمل بواسطة تنفيذ نظام على رقاقة قابله للبرمجة مع معالج التيرا نيوس 2 لتمييز الكلام في الزمن الحقيقي. استخدمت تقنية معاملات نغمة طيف التردد كوسيلة لاستخراج خواص إشارة الصوت (المتجهات الظاهرة). نمذجة المتجهات الظاهرة لمعلومات الصوت باستخدام نموذج خليط كاوسين، هذا الموديل يمرر إلى نموذج ماركوف المخفي كموديل إحتمالي لمعالجة نموذج خليط كاوسين إحصائيا لإتخاذ القرار لتمييز الكلمات المنطوقة، سواء كانت الكلمات منفردة أو مركبة، من مقطع صوتي واحد أو أكثر. تم تنفيذ العمل على رقاقة البوابات المنطقية المبرمجة نوع سايكلون 2 (EP2C70F896CN6) موضوعة على لوحة التطوير نوع التيرا DE2-70. البرامج الخدمية المستخدمة لبناء المكونات المادية. كل كلمة تخزن في الذاكرة النظام على شكل مصفوفة إنتقالية و مجموعة مصفوفات التغايير القطرية و متجهات الوسط الحسابي. كل كلمة تأخذ حجم مساوي إلى 4.45 كيلزبايت بغض النظر عن طول الكلمة. معدل تمييز الكلمات (رقم صفر إلى رقم عشرة بالإنكليزية) تعطى نسبة 100 % للشخص المتحدث. أجري الإختبار في مستويات مختلفة من الأصوات المحيطة (53-73 ديسيبل) كما تم قياسها في جهاز قياس مستوى الصوت. This paper introduce an approach to study the effects of different levels of environment noise on the recognition rate of speech recognition systems, which are not used any type of filters to deal with this issue. This is achieved by implementing an embedded SoPC (System on a Programmable Chip) technique with Altera Nios II processor for real-time speech recognition system. Mel Frequency Cepstral Coefficients (MFCCs) technique was used for speech signal feature extraction (observation vector). Model the observation vector of voice information by using Gaussian Mixture Model (GMM), this model passed to the Hidden Markov Model (HMM) as probabilistic model to process the GMM statistically to make decision on utterance words recognition, whether a single or composite, one or more syllable words. The framework was implemented on Altera Cyclone II EP2C70F896C6N FPGA chip sitting on ALTERA DE2-70 Development Board. Each word model (template) stored as Transition Matrix, Diagonal Covariance Matrices, and Mean Vectors in the system memory. Each word model utilizes only 4.45Kbytes regardless of the spoken word length. Recognition words rate (digit / 0 to digit / 10) given 100 % for the individual speaker. The test was conducted at different sound levels of the surrounding environment (53dB to 73dB) as measured by S
ISSN:1681-6900
2412-0758
2412-0758
DOI:10.30684/etj.31.13A.9