THEMENFESTSTELLUNG INNERHALB EINES INFORMATIONSKORPUS
Systeme und Verfahren werden verwendet, um zugrunde liegende Themen aus einer Ansammlung von Dokumenten auf einer aggregierten Ebene festzustellen. Ein repräsentativer Satz von Dokumenten kann aus einem Cluster von Dokumenten ausgewählt werden, wobei der repräsentative Satz von Dokumenten einem allg...
Gespeichert in:
Hauptverfasser: | , , , , , , |
---|---|
Format: | Patent |
Sprache: | ger |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Systeme und Verfahren werden verwendet, um zugrunde liegende Themen aus einer Ansammlung von Dokumenten auf einer aggregierten Ebene festzustellen. Ein repräsentativer Satz von Dokumenten kann aus einem Cluster von Dokumenten ausgewählt werden, wobei der repräsentative Satz von Dokumenten einem allgemeinen Thema des Clusters entspricht. Aus den Dokumenten können dann thematische Phrasen extrahiert werden, die verwendet werden, um Dokumenteinbettungen und Phraseneinbettungen zu erzeugen, die in eine Rangfolge gebracht werden können, wie beispielsweise mit einem diversitätsbasierten Ranking-Ansatz. Bestimmte Kandidaten können aus dem Ranking ausgewählt werden. Jedes der Dokumente, die den repräsentativen Satz bilden, kann dann verkettet werden, und es kann eine Abfrageeinbettung generiert und mit den Kandidatenphrasen verglichen werden. Auf diese Art und Weise kann eine Ansammlung von Phrasen identifiziert werden, die sowohl dem allgemeinen, dem Cluster zugrunde liegenden Thema als auch granularen, diesem Thema zugehörigen Themen zugeordnet sind.
Systems and methods are used to detect underlying themes from a collection of documents at an aggregated level. A representative set of documents may be selected from a cluster of documents, with the representative set of documents corresponding to a general theme of the cluster. Candidate theme phrases may then be extracted from the documents and used to generate document embeddings and candidate phrase embeddings, which may be ranked, such as with a diversity-based ranking approach. Certain candidates may be selected from the ranking. Each of the documents forming the representative set may then be concatenated and a query embedding may be generated and ranked against the candidate phrases. In this manner, a collection of phrases associated with both the general underlying theme of the cluster, along with granular topics associated with that theme, may be identified. |
---|