A Enhanced Speech Command Recognition using Convolutional Neural Networks
يقدم هذا البحث نظام التعرف على الكلام المعتمد على شبكة (CNN) التي تستخدم معاملات ميل التردد الرأسي. يمكن للنظام التمييز بدقة بين أصوات الإنسان والأصوات الآلية عن طريق التقاط الصوت من خلال الميكروفون. في مجال الذكاء، في الأنظمة الذكية التي تستخدم تقنية التعرف على الكلام، يعد التفاعل بين البشر والآلات...
Gespeichert in:
Veröffentlicht in: | Journal of engineering and sustainable development (Online) 2024-11, Vol.28 (6), p.754-761 |
---|---|
Hauptverfasser: | , , , , |
Format: | Artikel |
Sprache: | ara ; eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | يقدم هذا البحث نظام التعرف على الكلام المعتمد على شبكة (CNN) التي تستخدم معاملات ميل التردد الرأسي. يمكن للنظام التمييز بدقة بين أصوات الإنسان والأصوات الآلية عن طريق التقاط الصوت من خلال الميكروفون. في مجال الذكاء، في الأنظمة الذكية التي تستخدم تقنية التعرف على الكلام، يعد التفاعل بين البشر والآلات أمرًا بالغ الأهمية. لقد استكشفنا خيارات المعلمات الفائقة لتحسين بنية النموذج مما يسمح له بالتعرف بدقة على عشرة أوامر منطوقة مختلفة حتى في البيئات الصاخبة. استخدمنا مجموعة بيانات Google Speech لتدريب الشبكة وأظهرت النتائج معدلات دقة؛ 99.0319% للتدريب، 95.1124% للتحقق من الصحة، 95.9272% للاختبار. تشير هذه النتائج إلى أن هذا النظام لديه إمكانات للتطبيقات في سيناريوهات التعرف على الكلام في العالم الحقيقي.
In recent years, the growing interest in automatic speech recognition (ASR) has been driven by its wide-ranging applications across various domains. Integrating speech recognition technologies into smart systems highlights the pivotal role of human-machine interaction. This study introduces a robust ASR system that leverages convolutional neural networks (CNNs) in conjunction with Mel-frequency cepstral coefficients (MFCCs). The model's architecture was improved by extensively examining hyperparameters, effectively recognizing ten different spoken commands. The model conducted training and evaluation using the Google Speech dataset, comprising 65,000 audio clips collected from a wide range of speakers across the globe. This dataset accurately represents the natural variations in speech found in real-world scenarios. The design comprises eight storage layers, encompassing convolutional and fully connected layers. It consists of a total of 183,345 weights and utilizes ReLU activation. It is worth mentioning that the average F1-score obtained during the training, validation, and testing stages is 99.06 %, 94.68%, and 95.27%, respectively. Furthermore, the proposed model exhibits about 1.3% improvement in experimental test accuracy over existing methods, confirming its effectiveness in real-world applications. |
---|---|
ISSN: | 2520-0917 2520-0925 |
DOI: | 10.31272/jeasd.28.6.8 |