RANKING SEARCH RESULTS USING EDIT DISTANCE AND DOCUMENT INFORMATION
FIELD: information technology.SUBSTANCE: edit distance is employed in determining relevance of the document as result ranking by detecting near-matches of a whole query or part of the query. The edit distance evaluates how close the query string is to a given data stream that includes document infor...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; rus |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | FIELD: information technology.SUBSTANCE: edit distance is employed in determining relevance of the document as result ranking by detecting near-matches of a whole query or part of the query. The edit distance evaluates how close the query string is to a given data stream that includes document information such as TAUC (title, anchor text, URL, clicks) information, etc. The architecture includes the index-time splitting of compound terms in the URL to allow the more effective discovery of query terms. Additionally, index-time filtering of anchor text is used to find the top N anchors of one or more of the document results. The TAUC information can be input to a neural network (e.g., 2-layer) to improve relevance metrics for ranking the search results.EFFECT: improved relevance of search results.19 cl, 12 dwg
Изобретение относится к области систем для извлечения информации о документе из документов, принятых в качестве результатов поиска на основании строки запроса, и вычисления расстояния редактирования между строкой данных и строкой запроса. Техническим результатом является улучшение релевантности результатов поиска. Расстояние редактирования применяется при определении релевантности документа в качестве ранжирования результатов посредством обнаружения близких соответствий всего запроса или части запроса. Расстояние редактирования оценивает, насколько близка строка запроса к данному потоку данных, который включает в себя информацию о документе, такую как информация TAUC (о заголовке, тексте привязки, URL, щелчках кнопкой мыши), и т.д. Архитектура включает в себя разбиение во время индексации составных термов в URL для предоставления возможности более эффективного обнаружения термов запроса. Дополнительно, фильтрация во время индексации текста привязки используется для нахождения N самых лучших привязок одного или более документов-результатов. Информация TAUC может вводиться в нейронную сеть (например, 2-уровневую) для улучшения метрик релевантности для ранжирования результатов поиска. 3 н. и 16 з.п. ф-лы, 12 ил. |
---|