IDENTIFYING SOURCE DATASETS THAT FIT TRANSFER LEARNING PROCESS FOR TARGET DOMAIN

A method for quantifying a similarity between a target dataset and multiple source datasets and identifying one or more source datasets that are most similar to the target dataset is provided. The method includes receiving, at a computing system, source datasets relating to a source domain and a tar...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MENAHEM, Eitan, AGMON, Noga, HAIM, Bar, FINKELSHTEIN, Andrey
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:A method for quantifying a similarity between a target dataset and multiple source datasets and identifying one or more source datasets that are most similar to the target dataset is provided. The method includes receiving, at a computing system, source datasets relating to a source domain and a target dataset relating to a target domain of interest. Each dataset is arranged in a tabular format including columns and rows, and the source datasets and the target dataset include a same feature space. The method also includes pre-processing, via a processor of the computing system, each source-target dataset pair to remove non-intersecting columns. The method further includes calculating at least two of a dataset similarity score, a row similarity score, and a column similarity score for each source-target dataset pair, and summarizing the calculated similarity scores to identify one or more source datasets that are most similar to the target dataset. L'invention concerne un procédé permettant de quantifier une similarité entre un ensemble de données cible et de multiples ensembles de données sources et d'identifier un ou plusieurs ensembles de données sources qui sont les plus similaires à l'ensemble de données cible. Le procédé consiste à recevoir, au niveau d'un système informatique, des ensembles de données sources concernant un domaine source et un ensemble de données cible se rapportant à un domaine d'intérêt cible. Chaque ensemble de données est agencé dans un format tabulaire comprenant des colonnes et des rangées, et les ensembles de données sources et l'ensemble de données cible comprennent un même espace de caractéristiques. Le procédé consiste également à pré-traiter, par l'intermédiaire d'un processeur du système informatique, chaque paire d'ensembles de données source-cible pour éliminer des colonnes ne se croisant pas. Le procédé consiste en outre à calculer au moins deux éléments parmi un score de similarité d'ensemble de données, un score de similarité de rangée, et un score de similarité de colonne pour chaque paire d'ensembles de données source-cible, et à résumer les scores de similarité calculés pour identifier un ou plusieurs ensembles de données sources qui sont les plus similaires à l'ensemble de données cible.