METHOD FOR STABLE SET SIMILARITY JOINS

Provided is a method for the set similarity join, wherein each set represents a process and each token represents a process step. The process comprises a series of process steps executed in at least one source computer system. Hence, similar sets represent similar processes within a collection of pr...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MANN, Willi, SCHMITT, Daniel, MILLER, Alexander, KOCHER, Daniel, AUGSTEN, Nikolaus
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Provided is a method for the set similarity join, wherein each set represents a process and each token represents a process step. The process comprises a series of process steps executed in at least one source computer system. Hence, similar sets represent similar processes within a collection of processes. The method is based on a two-level signature scheme. Having indexed the sets using a first signature into inverted lists, selected lists, in particular long lists, are reindexed using a second signature. As a result, the number of candidates and thus the number of required distance calculations can be effectively reduced. Its experimental evaluation has shown that the method consistently outperforms state-of-the-art algorithms on datasets with diverging characteristics, suggesting a stable solution for a wide range of applications. L'invention concerne un procédé permettant la liaison de similarités définie, chaque ensemble représentant un processus et chaque jeton représentant une étape de traitement. Le procédé comprend une série d'étapes de traitement exécutées dans au moins un système informatique source. Par conséquent, des ensembles similaires représentent des processus similaires dans une collection de processus. Le procédé est basé sur un schéma de signature à deux niveaux. Ayant indexé les ensembles à l'aide d'une première signature dans des listes inversées, des listes sélectionnées, en particulier des listes longues, sont indexées de nouveau à l'aide d'une seconde signature. Par conséquent, le nombre de candidats et ainsi le nombre de calculs de distance requis peuvent être efficacement réduits. Son évaluation expérimentale a montré que le procédé surpasse de manière constante des algorithmes d'état de la technique sur des ensembles de données ayant des caractéristiques divergentes, suggérant une solution stable pour une large gamme d'applications.