THEME DETECTION WITHIN A CORPUS OF INFORMATION
Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phr...
Gespeichert in:
Hauptverfasser: | , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
container_end_page | |
---|---|
container_issue | |
container_start_page | |
container_title | |
container_volume | |
creator | KAPOOR, Ankit CHIDAMBARAM, Senthil C SHAPIRA, Sharon BHATTACHARJEE, Kasturi NG, Tony Chun Tung GANGADHARAIAH, Rashmi NADIG, Deepak Seetharam |
description | Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phrases may then be extracted from the documents and used to generate document embeddings and candidate phrase embeddings, which may be ranked, such as with a diversity-based ranking approach. Certain candidates may be selected from the ranking. Each of the documents forming the representative set may then be concatenated and a query embedding may be generated and ranked against the candidate phrases. In this manner, a collection of phrases associated with both the general underlying theme of the cluster, along with granular topics associated with that theme, may be identified.
La présente invention concerne des systèmes et des procédés qui sont utilisés pour détecter des thèmes sous-jacents à partir d'une collection de documents à un niveau agrégé. Un ensemble représentatif de documents peut être sélectionné à partir d'un groupe de documents, l'ensemble représentatif de documents correspondant à un thème général du groupe. Des expressions thématiques candidates peuvent ensuite être extraites des documents et utilisées pour générer des emboîtements de documents et des emboîtements d'expressions candidates, qui peuvent être classés, par exemple, à l'aide d'une approche de classement basée sur la diversité. Certains candidats peuvent être sélectionnés à partir du classement. Chacun des documents formant l'ensemble représentatif peut ensuite être concaténé et un emboîtement d'interrogation peut être généré et classé par rapport aux expressions candidates. De cette manière, une collection d'expressions associées à la fois au thème sous-jacent général du groupe et à des sujets granulaires associés à ce thème, peut être identifiée. |
format | Patent |
fullrecord | <record><control><sourceid>epo_EVB</sourceid><recordid>TN_cdi_epo_espacenet_WO2024107460A1</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>WO2024107460A1</sourcerecordid><originalsourceid>FETCH-epo_espacenet_WO2024107460A13</originalsourceid><addsrcrecordid>eNrjZNAL8XD1dVVwcQ1xdQ7x9PdTCPcM8fD0U3BUcPYPCggNVvB3U_D0c_MP8nUESfMwsKYl5hSn8kJpbgZlN9cQZw_d1IL8-NTigsTk1LzUkvhwfyMDIxNDA3MTMwNHQ2PiVAEAc00mlg</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>patent</recordtype></control><display><type>patent</type><title>THEME DETECTION WITHIN A CORPUS OF INFORMATION</title><source>esp@cenet</source><creator>KAPOOR, Ankit ; CHIDAMBARAM, Senthil C ; SHAPIRA, Sharon ; BHATTACHARJEE, Kasturi ; NG, Tony Chun Tung ; GANGADHARAIAH, Rashmi ; NADIG, Deepak Seetharam</creator><creatorcontrib>KAPOOR, Ankit ; CHIDAMBARAM, Senthil C ; SHAPIRA, Sharon ; BHATTACHARJEE, Kasturi ; NG, Tony Chun Tung ; GANGADHARAIAH, Rashmi ; NADIG, Deepak Seetharam</creatorcontrib><description>Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phrases may then be extracted from the documents and used to generate document embeddings and candidate phrase embeddings, which may be ranked, such as with a diversity-based ranking approach. Certain candidates may be selected from the ranking. Each of the documents forming the representative set may then be concatenated and a query embedding may be generated and ranked against the candidate phrases. In this manner, a collection of phrases associated with both the general underlying theme of the cluster, along with granular topics associated with that theme, may be identified.
La présente invention concerne des systèmes et des procédés qui sont utilisés pour détecter des thèmes sous-jacents à partir d'une collection de documents à un niveau agrégé. Un ensemble représentatif de documents peut être sélectionné à partir d'un groupe de documents, l'ensemble représentatif de documents correspondant à un thème général du groupe. Des expressions thématiques candidates peuvent ensuite être extraites des documents et utilisées pour générer des emboîtements de documents et des emboîtements d'expressions candidates, qui peuvent être classés, par exemple, à l'aide d'une approche de classement basée sur la diversité. Certains candidats peuvent être sélectionnés à partir du classement. Chacun des documents formant l'ensemble représentatif peut ensuite être concaténé et un emboîtement d'interrogation peut être généré et classé par rapport aux expressions candidates. De cette manière, une collection d'expressions associées à la fois au thème sous-jacent général du groupe et à des sujets granulaires associés à ce thème, peut être identifiée.</description><language>eng ; fre</language><subject>CALCULATING ; COMPUTING ; COUNTING ; ELECTRIC DIGITAL DATA PROCESSING ; PHYSICS</subject><creationdate>2024</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><linktohtml>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240523&DB=EPODOC&CC=WO&NR=2024107460A1$$EHTML$$P50$$Gepo$$Hfree_for_read</linktohtml><link.rule.ids>230,308,780,885,25563,76318</link.rule.ids><linktorsrc>$$Uhttps://worldwide.espacenet.com/publicationDetails/biblio?FT=D&date=20240523&DB=EPODOC&CC=WO&NR=2024107460A1$$EView_record_in_European_Patent_Office$$FView_record_in_$$GEuropean_Patent_Office$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>KAPOOR, Ankit</creatorcontrib><creatorcontrib>CHIDAMBARAM, Senthil C</creatorcontrib><creatorcontrib>SHAPIRA, Sharon</creatorcontrib><creatorcontrib>BHATTACHARJEE, Kasturi</creatorcontrib><creatorcontrib>NG, Tony Chun Tung</creatorcontrib><creatorcontrib>GANGADHARAIAH, Rashmi</creatorcontrib><creatorcontrib>NADIG, Deepak Seetharam</creatorcontrib><title>THEME DETECTION WITHIN A CORPUS OF INFORMATION</title><description>Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phrases may then be extracted from the documents and used to generate document embeddings and candidate phrase embeddings, which may be ranked, such as with a diversity-based ranking approach. Certain candidates may be selected from the ranking. Each of the documents forming the representative set may then be concatenated and a query embedding may be generated and ranked against the candidate phrases. In this manner, a collection of phrases associated with both the general underlying theme of the cluster, along with granular topics associated with that theme, may be identified.
La présente invention concerne des systèmes et des procédés qui sont utilisés pour détecter des thèmes sous-jacents à partir d'une collection de documents à un niveau agrégé. Un ensemble représentatif de documents peut être sélectionné à partir d'un groupe de documents, l'ensemble représentatif de documents correspondant à un thème général du groupe. Des expressions thématiques candidates peuvent ensuite être extraites des documents et utilisées pour générer des emboîtements de documents et des emboîtements d'expressions candidates, qui peuvent être classés, par exemple, à l'aide d'une approche de classement basée sur la diversité. Certains candidats peuvent être sélectionnés à partir du classement. Chacun des documents formant l'ensemble représentatif peut ensuite être concaténé et un emboîtement d'interrogation peut être généré et classé par rapport aux expressions candidates. De cette manière, une collection d'expressions associées à la fois au thème sous-jacent général du groupe et à des sujets granulaires associés à ce thème, peut être identifiée.</description><subject>CALCULATING</subject><subject>COMPUTING</subject><subject>COUNTING</subject><subject>ELECTRIC DIGITAL DATA PROCESSING</subject><subject>PHYSICS</subject><fulltext>true</fulltext><rsrctype>patent</rsrctype><creationdate>2024</creationdate><recordtype>patent</recordtype><sourceid>EVB</sourceid><recordid>eNrjZNAL8XD1dVVwcQ1xdQ7x9PdTCPcM8fD0U3BUcPYPCggNVvB3U_D0c_MP8nUESfMwsKYl5hSn8kJpbgZlN9cQZw_d1IL8-NTigsTk1LzUkvhwfyMDIxNDA3MTMwNHQ2PiVAEAc00mlg</recordid><startdate>20240523</startdate><enddate>20240523</enddate><creator>KAPOOR, Ankit</creator><creator>CHIDAMBARAM, Senthil C</creator><creator>SHAPIRA, Sharon</creator><creator>BHATTACHARJEE, Kasturi</creator><creator>NG, Tony Chun Tung</creator><creator>GANGADHARAIAH, Rashmi</creator><creator>NADIG, Deepak Seetharam</creator><scope>EVB</scope></search><sort><creationdate>20240523</creationdate><title>THEME DETECTION WITHIN A CORPUS OF INFORMATION</title><author>KAPOOR, Ankit ; CHIDAMBARAM, Senthil C ; SHAPIRA, Sharon ; BHATTACHARJEE, Kasturi ; NG, Tony Chun Tung ; GANGADHARAIAH, Rashmi ; NADIG, Deepak Seetharam</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-epo_espacenet_WO2024107460A13</frbrgroupid><rsrctype>patents</rsrctype><prefilter>patents</prefilter><language>eng ; fre</language><creationdate>2024</creationdate><topic>CALCULATING</topic><topic>COMPUTING</topic><topic>COUNTING</topic><topic>ELECTRIC DIGITAL DATA PROCESSING</topic><topic>PHYSICS</topic><toplevel>online_resources</toplevel><creatorcontrib>KAPOOR, Ankit</creatorcontrib><creatorcontrib>CHIDAMBARAM, Senthil C</creatorcontrib><creatorcontrib>SHAPIRA, Sharon</creatorcontrib><creatorcontrib>BHATTACHARJEE, Kasturi</creatorcontrib><creatorcontrib>NG, Tony Chun Tung</creatorcontrib><creatorcontrib>GANGADHARAIAH, Rashmi</creatorcontrib><creatorcontrib>NADIG, Deepak Seetharam</creatorcontrib><collection>esp@cenet</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>KAPOOR, Ankit</au><au>CHIDAMBARAM, Senthil C</au><au>SHAPIRA, Sharon</au><au>BHATTACHARJEE, Kasturi</au><au>NG, Tony Chun Tung</au><au>GANGADHARAIAH, Rashmi</au><au>NADIG, Deepak Seetharam</au><format>patent</format><genre>patent</genre><ristype>GEN</ristype><title>THEME DETECTION WITHIN A CORPUS OF INFORMATION</title><date>2024-05-23</date><risdate>2024</risdate><abstract>Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phrases may then be extracted from the documents and used to generate document embeddings and candidate phrase embeddings, which may be ranked, such as with a diversity-based ranking approach. Certain candidates may be selected from the ranking. Each of the documents forming the representative set may then be concatenated and a query embedding may be generated and ranked against the candidate phrases. In this manner, a collection of phrases associated with both the general underlying theme of the cluster, along with granular topics associated with that theme, may be identified.
La présente invention concerne des systèmes et des procédés qui sont utilisés pour détecter des thèmes sous-jacents à partir d'une collection de documents à un niveau agrégé. Un ensemble représentatif de documents peut être sélectionné à partir d'un groupe de documents, l'ensemble représentatif de documents correspondant à un thème général du groupe. Des expressions thématiques candidates peuvent ensuite être extraites des documents et utilisées pour générer des emboîtements de documents et des emboîtements d'expressions candidates, qui peuvent être classés, par exemple, à l'aide d'une approche de classement basée sur la diversité. Certains candidats peuvent être sélectionnés à partir du classement. Chacun des documents formant l'ensemble représentatif peut ensuite être concaténé et un emboîtement d'interrogation peut être généré et classé par rapport aux expressions candidates. De cette manière, une collection d'expressions associées à la fois au thème sous-jacent général du groupe et à des sujets granulaires associés à ce thème, peut être identifiée.</abstract><oa>free_for_read</oa></addata></record> |
fulltext | fulltext_linktorsrc |
identifier | |
ispartof | |
issn | |
language | eng ; fre |
recordid | cdi_epo_espacenet_WO2024107460A1 |
source | esp@cenet |
subjects | CALCULATING COMPUTING COUNTING ELECTRIC DIGITAL DATA PROCESSING PHYSICS |
title | THEME DETECTION WITHIN A CORPUS OF INFORMATION |
url | https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-10T21%3A07%3A20IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-epo_EVB&rft_val_fmt=info:ofi/fmt:kev:mtx:patent&rft.genre=patent&rft.au=KAPOOR,%20Ankit&rft.date=2024-05-23&rft_id=info:doi/&rft_dat=%3Cepo_EVB%3EWO2024107460A1%3C/epo_EVB%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true |