SYSTEM AND METHOD FOR GENERATING SYNTHETIC DATASET FROM ORIGINAL DATASET
To provide a system and method for generating a synthetic dataset from an original dataset.SOLUTION: The method includes steps of: encoding a category feature amount of an original dataset; embedding the encoded dataset in a low-dimensional space; selecting a seed record from the embedded dataset af...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; jpn |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | To provide a system and method for generating a synthetic dataset from an original dataset.SOLUTION: The method includes steps of: encoding a category feature amount of an original dataset; embedding the encoded dataset in a low-dimensional space; selecting a seed record from the embedded dataset after the embedding step; identifying a plurality of nearest neighbor records to the seed record; generating a new record by randomly selecting feature amounts from the plurality of nearest neighbor records; concatenating the new record into the synthetic dataset; and selecting a new seed record. The method repeats each operation of the identification step, generation step, concatenation step, and selection step N-1 times to the seed record of the embedded dataset and generates a synthetic dataset containing N records from the original dataset.SELECTED DRAWING: Figure 1C
【課題】オリジナルデータセットから合成データセットを生成するシステム及び方法を提供する。【解決手段】方法は、オリジナルデータセットのカテゴリ特徴量をエンコードするエンコードステップと、エンコードされたデータセットを低次元空間に埋め込む埋込ステップと、埋込ステップ後の埋込データセットからシードレコードを選択するステップと、シードレコードに最も近い複数の最近傍レコードを特定する特定ステップと、複数の最近傍レコードからランダムに特徴量を選択して、新規レコードを生成する生成ステップと、新規レコードを合成データセットに連結する連結ステップと、新しいシードレコードを選択する選択ステップと、を含み、埋込データセットのシードレコードに対して、特定ステップ、生成ステップ、連結ステップおよび選択ステップの各操作をN-1回繰り返してオリジナルデータセットからN個のレコードを含む合成データセットを生成する。【選択図】図1C |
---|