Анализ корпусов текстов террористической и антиправовой направленности

The purpose of the study in the development of a technique of creation and automatic analysis of special corpora for their subsequent application as the training datasets and detecting the differentiating characters in problems of text classification. The method is to use the analysis tools provided...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Voprosy kiberbezopasnosti 2019 (4 (32)), p.54-60
Hauptverfasser: Lavrentiev, Alexei, Smirnov, Ivan, Suvorova, Margarita, Solovyev, Fedor, Fokina, Alina, Chepovskiy, Andrey
Format: Artikel
Sprache:rus
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The purpose of the study in the development of a technique of creation and automatic analysis of special corpora for their subsequent application as the training datasets and detecting the differentiating characters in problems of text classification. The method is to use the analysis tools provided by the TXM platform expanded with new procedures of calculation of additional characteristics of texts, such as combinations of letters, pseudo-stems, noun phrases and verb phrases. As a results, it is shown that the developed extenders of the case TXM platform allow to solve effectively problems of the analysis of texts of special subject, the created corpus of extremist subject can be used as the training selection for problems of classification of texts, the conclusion about use of combinations of letters as the universal differentiating characters along with classical linguistic characteristics of texts is drawn. Цель исследования состоит в разработке методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов. В качестве метода применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы. В результате показано, что разработанные средства расширения корпусной платформы TXM позволяют эффективно решать задачи анализа текстов специальной тематики, созданный корпус текстов экстремистской тематики может использоваться в качестве обучающей выборки для задач классификации текстов, делается вывод об использовании буквосочетаний как универсальных дифференцирующих признаков наряду с классическими лингвистическими характеристиками текстов.
ISSN:2311-3456
DOI:10.21681/2311-3456-2019-4-54-60