Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos
[ES] : La tendencia actual a trabajar con documentos cortos (blogs, mensajes de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas características. En este contexto, el "cluste- ring" (agrupamiento) de textos cortos es un...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Artikel |
Sprache: | spa |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | [ES] : La tendencia actual a trabajar con documentos cortos (blogs, mensajes
de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento
automáticas de documentos con estas características. En este contexto, el "cluste-
ring" (agrupamiento) de textos cortos es un tarea muy importante de investigación,
que puede jugar un rol fundamental en organizar estos grandes volúmenes de textos
cortos, en un número pequeño de grupos signicativos. Recientemente, el uso de
métodos de clustering bio-inspirados iterativos, ha producido resultados muy interesantes utilizando representaciones de vector de términos clásicas. En este trabajo,
extendemos este enfoque utilizando representaciones de documentos enriquecidas
con información semántica (conceptos) obtenida con métodos de desambiguación
basados en conocimiento. Los resultados experimentales, permiten concluir que el
enfoque de clustering iterativo utilizado puede verse beneficiado significativamente
con la incorporación de información semántica en la representación de documentos,
mostrando un desempeño superior al exhibido por varios de los métodos de clustering más difundidos en el área, en la mayoría de las instancias experimentales.
[EN] The current trend to work with short documents (e.g. blogs, text mes-
saging and others), has produced an increasing interest in automatic processing
techniques of documents with these features. In this context, short-text clustering
is a very important research area, which can play a fundamental role in organizing
these large volumes of short texts in a small number of meaningful groups. Recently,
the use of bio-inspired, iterative clustering methods has produced very interesting
results with standard term-vector representations. In this work, we extend this ap-
proach by using representations of documents that also include semantic information
(concepts) obtained with knowledge-based WSD methods. The experimental results
allow to conclude that our iterative clustering approach can be signi-cantly improved
with the addition of this semantic information in the representation of documents,
showing a better performance than several well-known methods in this area, in most
of the considered experimental instances.
Ingaramo, DA.; Rosas, MV.; Errecalde, ML.; Rosso, P. (2011). Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos. PROCESAMIENTO DEL LENGUAJE NATURAL. 46:19-26. http://hdl.handle.net/10251/28832 |
---|