Clasificación de textos en lenguaje natural usando la Wikipedia
Automatic Text Classifiers are needed in environments where the amount of data to handle is so high that human classification would be ineffective. In our study, the proposed classifier takes advantage of the Wikipedia to generate the corpus defining each category. The text is then analyzed syntacti...
Gespeichert in:
Veröffentlicht in: | RISTI : Revista Ibérica de Sistemas e Tecnologias de Informação 2011-12 (8), p.39 |
---|---|
Hauptverfasser: | , , , , |
Format: | Artikel |
Sprache: | eng |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Automatic Text Classifiers are needed in environments where the amount of data to handle is so high that human classification would be ineffective. In our study, the proposed classifier takes advantage of the Wikipedia to generate the corpus defining each category. The text is then analyzed syntactically using Natural Language Processing software. The proposed classifier is highly accurate and outperforms Machine Learning trained classifiers. Keywords: Text Categorization; Wikipedia; tf-idf; Machine Learning; Natural Language Processing. La clasificacion de textos, en entornos en los que el volumen de datos a clasificar es tan elevado que resulta muy costosa la realizacion de esta tarea por parte de humanos, requiere la utilizacion de clasificadores de textos en lenguaje natural automaticos. El clasificador propuesto en el presente estudio toma como base la Wikipedia para la creacion del corpus que define una categoria mediante tecnicas de Procesado de Lenguaje Natural (PLN) que analizan sintacticamente los textos a clasificar. El resultado final del sistema propuesto presenta un alto porcentaje de acierto, incluso cuando se compara con los resultados obtenidos con tecnicas alternativas de Aprendizaje Automatico. Palabras clave: Categorizacion de textos; Wikipedia; tf-idf; Aprendizaje Automatico; Procesado de Lenguaje Natural. |
---|---|
ISSN: | 1646-9895 |
DOI: | 10.4304/risti.8.39-52 |