METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT

The invention relates to the field of computer technology for processing natural language, artificial language and any semiotic systems. The present computer-implemented method is carried out with the aid of a processor and comprises the steps of: generating a cluster-based m-skip-n-gram location mo...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: VYSHEGORODTSEV, Kirill Evgenievich, BALASHOV, Aleksandr Viktorovich, RYUPICHEV, Dmitriy Yurievich, DAVIDOV, Dmitriy Georgievich
Format: Patent
Sprache:eng ; fre ; rus
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator VYSHEGORODTSEV, Kirill Evgenievich
BALASHOV, Aleksandr Viktorovich
RYUPICHEV, Dmitriy Yurievich
DAVIDOV, Dmitriy Georgievich
description The invention relates to the field of computer technology for processing natural language, artificial language and any semiotic systems. The present computer-implemented method is carried out with the aid of a processor and comprises the steps of: generating a cluster-based m-skip-n-gram location model, where an m-skip-n-gram is an individual word and the following is done during the generation of said model: a list of m-skip-n-grams to be used is determined; each m-skip-n-gram in the list is converted into a vector representation; and the m-skip-n-grams are clustered according to their vector representations; and processing a text document with the aid of the resulting m-skip-n-gram location model, during which the following is done: the occurrence of m-skip-n-grams in the text document is counted; clusters are identified in the text document on the basis of the occurrence of m-skip-n-grams; the number of occurrences of m-skip-n-grams in each cluster is totalled; and a vector representation of the text document is generated on the basis of an ordered sequence of the m-skip-n-gram totals. The technical result consists in providing more accurate representation of text data in a vector format by using vector representations of word m-skip-n-grams and by using same for the subsequent clusterization of a text document in order to convert the document into a vector form. L'invention se rapporte au domaine des techniques informatiques afin de traiter un langage naturel, un langage artificiel et de quelconques systèmes sémiotiques. Ce procédé mis en oeuvre par ordinateur est exécuté à l'aide d'un processeur, et le procédé comprend les étapes suivantes: générer un modèle de disposition de m-skip-n-grammes en fonction de groupes, dans lequel un m-skip-n-gramme consiste en un mot distinct; effectuer lors de la génération dudit modèle: une détermination de la liste des m-skip-n-grammes à utiliser; convertir chaque m-skip-n-gramme de la liste en une représentation vectorielle; regrouper les m-skip-n-grammes en fonction de leurs représentations vectorielles; effectuer un traitement du document texte à l'aide du modèle obtenu de disposition des m-skip-n-grammes au cours duquel: on effectue: un décompte d'occurrence des m-skip-n-grammes dans le document texte; on détermine les groupes de document texte sur la base de l'occurrence de m-skip-n-grammes; on additionne le nombre d'occurrences de m-skip-n-grammes à partir de chaque groupe; on génère une représentation vectorie
format Patent
fullrecord <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_WO2022255902A1</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>WO2022255902A1</sourcerecordid><originalsourceid>FETCH-epo_espacenet_WO2022255902A13</originalsourceid><addsrcrecordid>eNrjZAj0dQ3x8HdRcPRzUQiODA5x9VVw8w9S8HcKcfT08_RzV3BUCHN1DgEKBbkGBLkGu_qFOIZ4-vsp-LsB9Si4-gAlg_z9PJ0VXPydQ32B0jwMrGmJOcWpvFCam0HZzTXE2UM3tSA_PrW4IDE5NS-1JD7c38jAyMjI1NTSwMjR0Jg4VQBVNzAv</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT</title><source>esp@cenet</source><creator>VYSHEGORODTSEV, Kirill Evgenievich ; BALASHOV, Aleksandr Viktorovich ; RYUPICHEV, Dmitriy Yurievich ; DAVIDOV, Dmitriy Georgievich</creator><creatorcontrib>VYSHEGORODTSEV, Kirill Evgenievich ; BALASHOV, Aleksandr Viktorovich ; RYUPICHEV, Dmitriy Yurievich ; DAVIDOV, Dmitriy Georgievich</creatorcontrib><description>The invention relates to the field of computer technology for processing natural language, artificial language and any semiotic systems. The present computer-implemented method is carried out with the aid of a processor and comprises the steps of: generating a cluster-based m-skip-n-gram location model, where an m-skip-n-gram is an individual word and the following is done during the generation of said model: a list of m-skip-n-grams to be used is determined; each m-skip-n-gram in the list is converted into a vector representation; and the m-skip-n-grams are clustered according to their vector representations; and processing a text document with the aid of the resulting m-skip-n-gram location model, during which the following is done: the occurrence of m-skip-n-grams in the text document is counted; clusters are identified in the text document on the basis of the occurrence of m-skip-n-grams; the number of occurrences of m-skip-n-grams in each cluster is totalled; and a vector representation of the text document is generated on the basis of an ordered sequence of the m-skip-n-gram totals. The technical result consists in providing more accurate representation of text data in a vector format by using vector representations of word m-skip-n-grams and by using same for the subsequent clusterization of a text document in order to convert the document into a vector form. L'invention se rapporte au domaine des techniques informatiques afin de traiter un langage naturel, un langage artificiel et de quelconques systèmes sémiotiques. Ce procédé mis en oeuvre par ordinateur est exécuté à l'aide d'un processeur, et le procédé comprend les étapes suivantes: générer un modèle de disposition de m-skip-n-grammes en fonction de groupes, dans lequel un m-skip-n-gramme consiste en un mot distinct; effectuer lors de la génération dudit modèle: une détermination de la liste des m-skip-n-grammes à utiliser; convertir chaque m-skip-n-gramme de la liste en une représentation vectorielle; regrouper les m-skip-n-grammes en fonction de leurs représentations vectorielles; effectuer un traitement du document texte à l'aide du modèle obtenu de disposition des m-skip-n-grammes au cours duquel: on effectue: un décompte d'occurrence des m-skip-n-grammes dans le document texte; on détermine les groupes de document texte sur la base de l'occurrence de m-skip-n-grammes; on additionne le nombre d'occurrences de m-skip-n-grammes à partir de chaque groupe; on génère une représentation vectorielle du document exte sur la base d'une séquence ordonnée des sommes de m-skip-n-grammes. Le résultat technique consiste en une augmentation de la précision de représentation de données texte dans un format vectoriel du fait de l'utilisation de représentations vectorielles de m-skip-n-grammes de mots et de leur utilisation pour le regroupement ultérieur du document texte afin de le convertir en forme vectorielle. Изобретение относится к области вычислительной техники для обработки естественного языка, искусственного языка, любых знаковых систем. Компьютерно-реализуемый способ выполняют с помощью процессора, при этом способ содержит этапы, на которых: формируют модель размещения m-skip-n-грамм по кластерам, при этом m-skip-n-грамма представляет отдельное слово, при формировании упомянутой модели осуществляют: определение списка используемых m-skip-n-грамм; преобразование в векторное представление каждой m-skip-n- граммы из списка; кластеризацию m-skip-n-грамм по их векторным представлениям; выполняют обработку текстового документа с помощью полученной модели размещения m-skip-n-грамм, в ходе которой: осуществляют подсчет встречаемости m-skip-n-грамм в текстовом документе; определяют кластеры текстового документа на основании встречаемости m-skip-n-грамм; суммируют количество встречаемости m-skip-n-грамм из каждого кластера; формируют векторное представление текстового документа на основании упорядоченной последовательности сумм ш- skip-n-грамм. Технический результат заключается в повышении точности представления текстовых данных в векторном формате, за счет применения векторных представлений m-skip-n-грамм слов и их применения для последующей кластеризации текстового документа для преобразования его в векторный вид.</description><language>eng ; fre ; rus</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2022</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20221208&amp;DB=EPODOC&amp;CC=WO&amp;NR=2022255902A1$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,780,885,25564,76547</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&amp;date=20221208&amp;DB=EPODOC&amp;CC=WO&amp;NR=2022255902A1$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>VYSHEGORODTSEV, Kirill Evgenievich</creatorcontrib><creatorcontrib>BALASHOV, Aleksandr Viktorovich</creatorcontrib><creatorcontrib>RYUPICHEV, Dmitriy Yurievich</creatorcontrib><creatorcontrib>DAVIDOV, Dmitriy Georgievich</creatorcontrib><title>METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT</title><description>The invention relates to the field of computer technology for processing natural language, artificial language and any semiotic systems. The present computer-implemented method is carried out with the aid of a processor and comprises the steps of: generating a cluster-based m-skip-n-gram location model, where an m-skip-n-gram is an individual word and the following is done during the generation of said model: a list of m-skip-n-grams to be used is determined; each m-skip-n-gram in the list is converted into a vector representation; and the m-skip-n-grams are clustered according to their vector representations; and processing a text document with the aid of the resulting m-skip-n-gram location model, during which the following is done: the occurrence of m-skip-n-grams in the text document is counted; clusters are identified in the text document on the basis of the occurrence of m-skip-n-grams; the number of occurrences of m-skip-n-grams in each cluster is totalled; and a vector representation of the text document is generated on the basis of an ordered sequence of the m-skip-n-gram totals. The technical result consists in providing more accurate representation of text data in a vector format by using vector representations of word m-skip-n-grams and by using same for the subsequent clusterization of a text document in order to convert the document into a vector form. L'invention se rapporte au domaine des techniques informatiques afin de traiter un langage naturel, un langage artificiel et de quelconques systèmes sémiotiques. Ce procédé mis en oeuvre par ordinateur est exécuté à l'aide d'un processeur, et le procédé comprend les étapes suivantes: générer un modèle de disposition de m-skip-n-grammes en fonction de groupes, dans lequel un m-skip-n-gramme consiste en un mot distinct; effectuer lors de la génération dudit modèle: une détermination de la liste des m-skip-n-grammes à utiliser; convertir chaque m-skip-n-gramme de la liste en une représentation vectorielle; regrouper les m-skip-n-grammes en fonction de leurs représentations vectorielles; effectuer un traitement du document texte à l'aide du modèle obtenu de disposition des m-skip-n-grammes au cours duquel: on effectue: un décompte d'occurrence des m-skip-n-grammes dans le document texte; on détermine les groupes de document texte sur la base de l'occurrence de m-skip-n-grammes; on additionne le nombre d'occurrences de m-skip-n-grammes à partir de chaque groupe; on génère une représentation vectorielle du document exte sur la base d'une séquence ordonnée des sommes de m-skip-n-grammes. Le résultat technique consiste en une augmentation de la précision de représentation de données texte dans un format vectoriel du fait de l'utilisation de représentations vectorielles de m-skip-n-grammes de mots et de leur utilisation pour le regroupement ultérieur du document texte afin de le convertir en forme vectorielle. Изобретение относится к области вычислительной техники для обработки естественного языка, искусственного языка, любых знаковых систем. Компьютерно-реализуемый способ выполняют с помощью процессора, при этом способ содержит этапы, на которых: формируют модель размещения m-skip-n-грамм по кластерам, при этом m-skip-n-грамма представляет отдельное слово, при формировании упомянутой модели осуществляют: определение списка используемых m-skip-n-грамм; преобразование в векторное представление каждой m-skip-n- граммы из списка; кластеризацию m-skip-n-грамм по их векторным представлениям; выполняют обработку текстового документа с помощью полученной модели размещения m-skip-n-грамм, в ходе которой: осуществляют подсчет встречаемости m-skip-n-грамм в текстовом документе; определяют кластеры текстового документа на основании встречаемости m-skip-n-грамм; суммируют количество встречаемости m-skip-n-грамм из каждого кластера; формируют векторное представление текстового документа на основании упорядоченной последовательности сумм ш- skip-n-грамм. Технический результат заключается в повышении точности представления текстовых данных в векторном формате, за счет применения векторных представлений m-skip-n-грамм слов и их применения для последующей кластеризации текстового документа для преобразования его в векторный вид.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2022</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZAj0dQ3x8HdRcPRzUQiODA5x9VVw8w9S8HcKcfT08_RzV3BUCHN1DgEKBbkGBLkGu_qFOIZ4-vsp-LsB9Si4-gAlg_z9PJ0VXPydQ32B0jwMrGmJOcWpvFCam0HZzTXE2UM3tSA_PrW4IDE5NS-1JD7c38jAyMjI1NTSwMjR0Jg4VQBVNzAv</recordid><startdate>20221208</startdate><enddate>20221208</enddate><creator>VYSHEGORODTSEV, Kirill Evgenievich</creator><creator>BALASHOV, Aleksandr Viktorovich</creator><creator>RYUPICHEV, Dmitriy Yurievich</creator><creator>DAVIDOV, Dmitriy Georgievich</creator><scope>EVB</scope></search><sort><creationdate>20221208</creationdate><title>METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT</title><author>VYSHEGORODTSEV, Kirill Evgenievich ; BALASHOV, Aleksandr Viktorovich ; RYUPICHEV, Dmitriy Yurievich ; DAVIDOV, Dmitriy Georgievich</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_WO2022255902A13</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre ; rus</language><creationdate>2022</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>VYSHEGORODTSEV, Kirill Evgenievich</creatorcontrib><creatorcontrib>BALASHOV, Aleksandr Viktorovich</creatorcontrib><creatorcontrib>RYUPICHEV, Dmitriy Yurievich</creatorcontrib><creatorcontrib>DAVIDOV, Dmitriy Georgievich</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>VYSHEGORODTSEV, Kirill Evgenievich</au><au>BALASHOV, Aleksandr Viktorovich</au><au>RYUPICHEV, Dmitriy Yurievich</au><au>DAVIDOV, Dmitriy Georgievich</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT</title><date>2022-12-08</date><risdate>2022</risdate><abstract>The invention relates to the field of computer technology for processing natural language, artificial language and any semiotic systems. The present computer-implemented method is carried out with the aid of a processor and comprises the steps of: generating a cluster-based m-skip-n-gram location model, where an m-skip-n-gram is an individual word and the following is done during the generation of said model: a list of m-skip-n-grams to be used is determined; each m-skip-n-gram in the list is converted into a vector representation; and the m-skip-n-grams are clustered according to their vector representations; and processing a text document with the aid of the resulting m-skip-n-gram location model, during which the following is done: the occurrence of m-skip-n-grams in the text document is counted; clusters are identified in the text document on the basis of the occurrence of m-skip-n-grams; the number of occurrences of m-skip-n-grams in each cluster is totalled; and a vector representation of the text document is generated on the basis of an ordered sequence of the m-skip-n-gram totals. The technical result consists in providing more accurate representation of text data in a vector format by using vector representations of word m-skip-n-grams and by using same for the subsequent clusterization of a text document in order to convert the document into a vector form. L'invention se rapporte au domaine des techniques informatiques afin de traiter un langage naturel, un langage artificiel et de quelconques systèmes sémiotiques. Ce procédé mis en oeuvre par ordinateur est exécuté à l'aide d'un processeur, et le procédé comprend les étapes suivantes: générer un modèle de disposition de m-skip-n-grammes en fonction de groupes, dans lequel un m-skip-n-gramme consiste en un mot distinct; effectuer lors de la génération dudit modèle: une détermination de la liste des m-skip-n-grammes à utiliser; convertir chaque m-skip-n-gramme de la liste en une représentation vectorielle; regrouper les m-skip-n-grammes en fonction de leurs représentations vectorielles; effectuer un traitement du document texte à l'aide du modèle obtenu de disposition des m-skip-n-grammes au cours duquel: on effectue: un décompte d'occurrence des m-skip-n-grammes dans le document texte; on détermine les groupes de document texte sur la base de l'occurrence de m-skip-n-grammes; on additionne le nombre d'occurrences de m-skip-n-grammes à partir de chaque groupe; on génère une représentation vectorielle du document exte sur la base d'une séquence ordonnée des sommes de m-skip-n-grammes. Le résultat technique consiste en une augmentation de la précision de représentation de données texte dans un format vectoriel du fait de l'utilisation de représentations vectorielles de m-skip-n-grammes de mots et de leur utilisation pour le regroupement ultérieur du document texte afin de le convertir en forme vectorielle. Изобретение относится к области вычислительной техники для обработки естественного языка, искусственного языка, любых знаковых систем. Компьютерно-реализуемый способ выполняют с помощью процессора, при этом способ содержит этапы, на которых: формируют модель размещения m-skip-n-грамм по кластерам, при этом m-skip-n-грамма представляет отдельное слово, при формировании упомянутой модели осуществляют: определение списка используемых m-skip-n-грамм; преобразование в векторное представление каждой m-skip-n- граммы из списка; кластеризацию m-skip-n-грамм по их векторным представлениям; выполняют обработку текстового документа с помощью полученной модели размещения m-skip-n-грамм, в ходе которой: осуществляют подсчет встречаемости m-skip-n-грамм в текстовом документе; определяют кластеры текстового документа на основании встречаемости m-skip-n-грамм; суммируют количество встречаемости m-skip-n-грамм из каждого кластера; формируют векторное представление текстового документа на основании упорядоченной последовательности сумм ш- skip-n-грамм. Технический результат заключается в повышении точности представления текстовых данных в векторном формате, за счет применения векторных представлений m-skip-n-грамм слов и их применения для последующей кластеризации текстового документа для преобразования его в векторный вид.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng ; fre ; rus
recordid cdi_epo_espacenet_WO2022255902A1
source esp@cenet
subjects CALCULATING
COMPUTING
COUNTING
ELECTRIC DIGITAL DATA PROCESSING
PHYSICS
title METHOD AND SYSTEM FOR OBTAINING A VECTOR REPRESENTATION OF AN ELECTRONIC DOCUMENT
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-05T03%3A01%3A57IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=VYSHEGORODTSEV,%20Kirill%20Evgenievich&rft.date=2022-12-08&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EWO2022255902A1%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true