CHECKING RELEVANCE BETWEEN KEY WORDS AND WEBSITE CONTENT

FIELD: physics; computer engineering. ^ SUBSTANCE: invention relates to data analysis and particularly to checking relevancy between terms and website content. Site content is found from the URL statement. Extended term(s), which is (are) semantically and/or contextually associated with term(s) of t...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: TSZEHN KHUA-TSZJUN, CHZHAN BEHN'JUJ, CHEHN' CHZHEHN, LI LI, LI IN, NADZHM TAREK, MA VEHJ-IN
Format: Patent
Sprache:eng ; rus
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:FIELD: physics; computer engineering. ^ SUBSTANCE: invention relates to data analysis and particularly to checking relevancy between terms and website content. Site content is found from the URL statement. Extended term(s), which is (are) semantically and/or contextually associated with term(s) of the statement, is (are) calculated. Measurements of content similarities and extended similarities from corresponding combinations of the term(s) of the statement, content of the site and extended terms are calculated. Measurements of category similarities between the extended terms and site content are determined, taking into account the trained similarity classifier. The trained similarity classifier is trained from the analysed site content associated with catalogue data. A certainty value is calculated, which provides an objective measure of relevancy between the term(s) of the statement and site content, from measured content similarities, extended similarities and category similarities, which evaluate several similarity evaluations taking into account the trained model of the relevancy classifier. ^ EFFECT: invention enables finding key words, more relevant to website content. ^ 41 cl, 4 dwg, 1 tbl Изобретение относится к информационному анализу данных и, в частности, к проверке релевантности между терминами и содержанием веб-сайта. Изобретение позволяет находить ключевые слова, в большей степени релевантные содержанию веб-сайта. Находится содержание сайта из URL предложения. Вычисляется(ются) расширенный(ые) термин(ы), семантически и/или контекстуально связанный(ые) с термином(ами) предложения. Вычисляются измерения подобия содержания и расширенного подобия из соответствующих комбинаций термина(ов) предложения, содержания сайта и расширенных терминов. Определяются измерения подобия категории между расширенными терминами и содержанием сайта с учетом обучаемого классификатора подобия. Обучается обучаемый классификатор подобия из проанализированного содержания сайта, связанного с данными каталога. Определяется значение достоверности, обеспечивающее объективную меру релевантности между термином(ами) предложения и содержанием сайта, из измерений подобия содержания, расширенного подобия и подобия категории, оценивающих множество оценок подобия с учетом обучаемой модели классификатора релевантности. 4 н. и 37 з.п. ф-лы, 4 ил, 1 табл.