METHOD OF FINDING MAXIMUM REPEATING SECTIONS OF SEQUENCE OF CHARACTERS OF FINITE ALPHABET AND METHOD OF CALCULATING AUXILIARY ARRAY

FIELD: information technology.SUBSTANCE: to find maximum sections in a finite sequence of characters x[i] (0?i?N) of a finite alphabet, which are repetitions of previously encountered sections, two bit arrays beg[i] and end[i] are created in computer memory. All elements of said bit arrays are popul...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: IVANOV ANATOLIJ VITAL'EVICH, ALCHINOV ALEKSANDR IVANOVICH, GRUZMAN VLADIMIR ARONOVICH
Format: Patent
Sprache:eng ; rus
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:FIELD: information technology.SUBSTANCE: to find maximum sections in a finite sequence of characters x[i] (0?i?N) of a finite alphabet, which are repetitions of previously encountered sections, two bit arrays beg[i] and end[i] are created in computer memory. All elements of said bit arrays are populated with zeros. The sequence s1[i] is calculated for all N values of indices i, where s1[i] is the maximum length of the linear section of said data sequence. All said maximum sections are defined as all intervals x[m,n] for which the initial index m satisfies the condition s1[m]>sl[m-1]-1, and the final index n is equal to m+sl[m]-1, for which, for each value i, the fulfillment of the condition s1[i]>sl[i-1]-1 is checked, and if the condition is met, values beg[i]=1 and end[i+s1[i]]=1 are set in the bit arrays beg[i] and end[i]. The set of all said maximum sections is recovered on the two bit arrays beg[i] and end[i].EFFECT: reduced amount of memory required to display all maximum repeating sections.3 cl, 2 dwg Изобретение относится к компьютерной обработке цифровых данных, точнее к способам сжатия массивов цифровой информации путем нахождения совпадающих фрагментов последовательности данных. Техническим результатом является уменьшение количества памяти, требующейся для представления всех максимальных повторяющихся участков. Для нахождения максимальных участков в конечной последовательности символов x[i] (0≤isl[m-1]-1, а конечный индекс n равен m+sl[m]-1, для чего для каждого значения i проверяют выполнение условия sl[i]>sl[i-1]-1, и в случае выполнения этого условия устанавливают в битовых массивах beg[i] и end[i] значения beg[i]=1 и end[i+sl[i]]=1. Совокупность всех указанных максимальных участков восстанавливают по двум битовым массивам beg[i] и end[i]. 2 н. и 1 з.п. ф-лы, 2 ил.