EVOLUTION OF TOPICS IN A MESSAGING SYSTEM
Systems and methods for determining how topics evolve in a messaging system extract at least one N-gram from data content (e.g., caption of messages) in the messaging system and detect anomalous behavior in N-gram frequencies over time. The anomalous behavior is used to select candidate N-grams for...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Systems and methods for determining how topics evolve in a messaging system extract at least one N-gram from data content (e.g., caption of messages) in the messaging system and detect anomalous behavior in N-gram frequencies over time. The anomalous behavior is used to select candidate N-grams for a determination of whether a topic of a candidate N-gram is evolving or fading. The candidate N-grams are clustered into cluster groups that are used to train at least one time series forecasting model to predict N-gram frequencies in a future time window. A time series of the N-gram frequency is divided into old and recent partitions and pattern recognition is applied to the predicted N-gram frequencies to identify an evolving or fading topic when the difference between a frequency of each anomaly and an average rolling median for each partition is greater for the most recent partition.
L'invention concerne des systèmes et des procédés, destinés à déterminer comment des sujets évoluent dans un système de messagerie, qui extraient au moins un N-gramme d'un contenu de données (p. ex. une légende de messages) dans le système de messagerie et détectent un comportement anormal dans les fréquences de N-grammes au fil du temps. Le comportement anormal est utilisé pour sélectionne des N-grammes candidats en vue de déterminer si un sujet d'un N-gramme candidat évolue ou s'estompe. Les N-grammes candidats sont regroupés en groupes de grappes qui sont utilisés pour entraîner au moins un modèle de prévision de séries chronologiques afin de prédire des fréquences de N-grammes dans une fenêtre temporelle future. Une série chronologique de la fréquence de N-grammes est divisée en partitions anciennes et récentes, et une reconnaissance de formes est appliquée aux fréquences de N-grammes prédites pour identifier un sujet qui évolue ou s'estompe lorsque la différence entre une fréquence de chaque anomalie et une médiane glissante moyenne pour chaque partition est plus grande pour la partition la plus récente. |
---|