SYSTEM AND METHOD FOR GENERATING SYNTHETIC DATASET FROM ORIGINAL DATASET

To provide a system and method for generating a synthetic dataset from an original dataset.SOLUTION: The method includes steps of: encoding a category feature amount of an original dataset; embedding the encoded dataset in a low-dimensional space; selecting a seed record from the embedded dataset af...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: AFRAH SHAFQUAT, JACOB APTEKAR, MANDIS BEIGI, JASON MEZEY
Format: Patent
Sprache:eng ; jpn
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:To provide a system and method for generating a synthetic dataset from an original dataset.SOLUTION: The method includes steps of: encoding a category feature amount of an original dataset; embedding the encoded dataset in a low-dimensional space; selecting a seed record from the embedded dataset after the embedding step; identifying a plurality of nearest neighbor records to the seed record; generating a new record by randomly selecting feature amounts from the plurality of nearest neighbor records; concatenating the new record into the synthetic dataset; and selecting a new seed record. The method repeats each operation of the identification step, generation step, concatenation step, and selection step N-1 times to the seed record of the embedded dataset and generates a synthetic dataset containing N records from the original dataset.SELECTED DRAWING: Figure 1C 【課題】オリジナルデータセットから合成データセットを生成するシステム及び方法を提供する。【解決手段】方法は、オリジナルデータセットのカテゴリ特徴量をエンコードするエンコードステップと、エンコードされたデータセットを低次元空間に埋め込む埋込ステップと、埋込ステップ後の埋込データセットからシードレコードを選択するステップと、シードレコードに最も近い複数の最近傍レコードを特定する特定ステップと、複数の最近傍レコードからランダムに特徴量を選択して、新規レコードを生成する生成ステップと、新規レコードを合成データセットに連結する連結ステップと、新しいシードレコードを選択する選択ステップと、を含み、埋込データセットのシードレコードに対して、特定ステップ、生成ステップ、連結ステップおよび選択ステップの各操作をN-1回繰り返してオリジナルデータセットからN個のレコードを含む合成データセットを生成する。【選択図】図1C