Etiquetado de partes del discurso sobre un corpus en castellano basado en metaheurísticas
The Part of Speech Tagging is one of the most important tasks in the natural language preprocessing and it has uses in sentiment analysis, text translation, voice recognition and information retrieval, among others. Keywords: metaheuristic algorithms; memetic algorithm; corpus tagged IULA; part of s...
Gespeichert in:
Veröffentlicht in: | RISTI : Revista Ibérica de Sistemas e Tecnologias de Informação 2020-08 (E32), p.215-228 |
---|---|
Hauptverfasser: | , , , |
Format: | Artikel |
Sprache: | spa |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The Part of Speech Tagging is one of the most important tasks in the natural language preprocessing and it has uses in sentiment analysis, text translation, voice recognition and information retrieval, among others. Keywords: metaheuristic algorithms; memetic algorithm; corpus tagged IULA; part of speech tagging; global-best harmony search. (ProQuest: ... denotes formulae omitted.) 1.Introducción El etiquetado de partes del discurso (Part-of-Speech tagging, POST) es un área del procesamiento de lenguaje natural (PLN) que se encarga de asignar a cada palabra de una oración sus posibles categorías léxicas, de acuerdo a su contexto (Güngör, 2011), y se constituye como una tarea importante en el preprocesamiento de la mayoría de las aplicaciones de PLN. En 2016, (Alonso & Zeman, 2016) presentan el corpus UD Spanish Ancora, que contiene 17.680 oraciones y 547.682 tokens, además hacen la conversión del conjunto de etiquetas a dependencias universales (Universal Dependencies, 2014) y consta de 17 etiquetas. |
---|---|
ISSN: | 1646-9895 |