Verfahren, Einheit und Computerprogramm zum Identifizieren von Elementen mit einer hohen Auftrittshäufigkeit bei Elementen, die in einem Textdatenstrom enthalten sind

Die vorliegende Erfindung bezieht sich auf ein Verfahren, eine Einheit und ein Computerprogramm für das effiziente Identifizieren von Elementen mit einer hohen Auftrittshäufigkeit innerhalb von Elementen, die in einem umfangreichen Textdatenstrom enthalten sind.Identifizierungsdaten zum Identifizier...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Rudy, Raymond Harry, Koyanagi, Teruo, Osogami, Takayuki
Format: Patent
Sprache:ger
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Die vorliegende Erfindung bezieht sich auf ein Verfahren, eine Einheit und ein Computerprogramm für das effiziente Identifizieren von Elementen mit einer hohen Auftrittshäufigkeit innerhalb von Elementen, die in einem umfangreichen Textdatenstrom enthalten sind.Identifizierungsdaten zum Identifizieren eines Elements und eines Zählwerts von Elementen werden in einer höheren Speicherebene gespeichert, und lediglich Identifizierungsdaten werden in einer tieferen Speicherebene unterhalb der höheren Speicherebene gespeichert. Eine Textdatenstrom-Eingabe wird empfangen, das Inkrement des Zählwerts eines Elements wird als Reaktion auf das Speichern von Identifizierungsdaten für ein Element, das in einem Intervall enthalten ist, der von der empfangenen Textdatenstrom-Eingabe getrennt ist, in dem Speicher einer höheren Ebene erhöht, die Identifizierungsdaten für das Element werden gemeinsam mit dem anfänglichen Zählwert als Reaktion auf das Speichern in der tieferen Speicherebene in die höhere Speicherebene übertragen, und die Identifizierungsdaten für das Element werden gemeinsam mit dem anfänglichen Zählwert als Reaktion darauf, dass sie in keiner Ebene gespeichert sind, in der höheren Speicherebene neu gespeichert. A method, device and computer program for efficiently identifying items having a high frequency of occurrence among items included in a large-volume text data stream. Identification information for identifying an item and a count of items are stored in a higher level of memory and only identification information is stored in a lower level. Text data stream input is received, the increment of the count of an item is increased in response to storage in the higher level memory of identification information for an item included in a bucket divided from the received text data stream input, identification information for the item is transferred with the initial count to the higher level of memory in response to storage in the lower level and the identification information for the item is newly stored with the initial count in the higher level in response to not being stored on any level.