K- Dataset De-identification Method and Apparatus Using K-anonymity Model
The present invention relates to a dataset deidentification method using a K-anonymity model and a device thereof. According to the present invention, the dataset deidentification method comprises: a step of confirming attribute value distribution for each column corresponding to a quasi-identifier...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; kor |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | The present invention relates to a dataset deidentification method using a K-anonymity model and a device thereof. According to the present invention, the dataset deidentification method comprises: a step of confirming attribute value distribution for each column corresponding to a quasi-identifier attribute with respect to a dataset to be deidentified; a first processing step of considering the attribute value distribution for each column to deidentify each column of the dataset to be deidentified; a step of grouping a record with the identical attribute value into a record group when the number of records with the identical attribute value of one or more columns is K or more in the first-processed dataset to be deidentified; and a step of considering attribute value distribution of the column with a non-identical attribute value in the record group to deidentify the column with the non-identical attribute value so as to satisfy K-anonymity requirements. Accordingly, the present invention provides advantages capable of minimizing data crush while the K-anonymity requirements are satisfied and increasing a deidentification speed.
본 발명은 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치에 관한 것으로, 본 발명에 따른 방법은 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 단계, 컬럼별 속성값 분포를 고려하여 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공 단계, 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 단계, 그리고 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 하는 단계를 포함한다. 본 발명에 의하면 K-익명성 요건은 만족하되 데이터 뭉개짐을 최소화할 수 있으며, 비식별화 처리 속도를 향상하는 장점이 있다. |
---|