HMM based POS tagging system for 8 different languages and several tagsets

نقترح في بحثنا نظام ترميز الكلمات بأقسام الكلام باستخدام طريقة HMM لعدة لغات. طبقنا HMM باستخدام خوارزمية Viterbi على ثمان لغات هي اللغة الإنجليزية و الهندية و التلوكو و البنكالية و المهاراتية و الصينية القياسية و البرتغالية و الإسبانية. البيانات لهذه اللغات أخذناها من ذخائر (مدونات) موجودة بشكل مجا...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Engineering and Technology Journal 2015-02, Vol.33 (2), p.326-337
Hauptverfasser: Alawi, Ahmad Husayn, Hamid, Hiba Sartil, Radi, Rasul Ali
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:نقترح في بحثنا نظام ترميز الكلمات بأقسام الكلام باستخدام طريقة HMM لعدة لغات. طبقنا HMM باستخدام خوارزمية Viterbi على ثمان لغات هي اللغة الإنجليزية و الهندية و التلوكو و البنكالية و المهاراتية و الصينية القياسية و البرتغالية و الإسبانية. البيانات لهذه اللغات أخذناها من ذخائر (مدونات) موجودة بشكل مجاني و هي Floresta, Sinica, NPS-Chat Indiana, Brown و CESS-ESP. HMM هي من أكثر طرق التعلم المستخدمة في تطبيقات كثيرة لمعالجة اللغات الطبيعية خصوصا الترميز بأقسام الكلام, و أن بعض الباحثين الآخرين نفذوا مرمز HMM على لغات كثيرة حيث كل باحث نفذها على لغته. تنفيذنا للنظام تم من خلال تقسيم كل ذخيرة (البيانات) إلى 99 % للتدريب و 1 % للفحص، هذه العملية تعاد لعشرة مرات من خلال تغيير بيانات التدريب و الفحص، و كانت الدقة (كمعدل لجميع الفحوصات) للغة الإنجليزية (مجموعتي ترميز 40 و 472 رمز) و الإنكليزية (ذخيرة NPS-Chat) و الهندية و التلوكو و البنكالية و الصينية القياسية و البرتغالية (مجموعتي ترميز 32 و 269 رمز) و الإسبانية (مجموعتي ترميز 14 و 289 رمز) هي (95.3 % و 92.39 %)، 87.17 %، 81.3 %، 74.03 %، 72.01 %، 69.56 %، 87.59 %، (84.56 % و 83.95 %) و (94.26 %، 92.08 %) على الترتيب. اللغات المختلفة أخذناها لغرض تسجيل تحديدات مرمز HMM على لغات مختلفة كما سنرى، و هذا يعني تسجيل التحديدات باستخدام طريقة واحدة على عدة لغات. كذلك أخذنا نفس الذخيرة معنونة بمجموعة رموز مختلفة لغرض دراسة تأثير حجم مجموعة الرموز، بالإضافة إلى ذلك أخذنا ذخيرتين مختلفتين لنفس اللغة، فحسب معلوماتنا ليس هناك دراسة معمقة منفذة على مرمز بنفس الحالات المأخوذة في هذا العمل. و فرنا أيضا برنامج تطبيقي لترميز جميع الكلمات لأي جملة من أي من اللغات المستخدمة في عملنا. الكلمات الغير معروفة (غير موجودة في بيانات التدريب) عالجناها بطريقة بسيطة جداً و هي Laplace smoothing. We propose, in this paper, Part-Of-Speech (POS) tagging system is proposed which based on Hidden Markov Model (HMM) for several languages. HMM is implemented using Viterbi algorithm on 8 languages ; English, Hindi, Telugu, Bangla (Bengali), Marathi, Standard Chinese, Portuguese and Spanish. The data for these languages were taken from the freely available corpora : Brown, NPS-Chat, Indiana, Sinica, Floresta and CESS-ESP Corpora. HMM is the most learning method used in many NLP applications, especially POS tagging. HMM tagger was implemented by other researchers for a lot of languages, where each one take his mother tongue language. system testing is done by splitting each corpus to 99 % training and 1% testing. This test is repeated for 10 times by changing the training and test data. The accuracies (average for all 10 tests) for English (using two tagse
ISSN:1681-6900
2412-0758
2412-0758
DOI:10.30684/etj.33.2B.17