DATA FIELD AUTOMATIC CLASSIFICATION SYSTEM FOR DE-IDENTIFICATION PROCESSING OF PERSONAL INFORMATION IN BIG-DATA ENVIRONMENT

The present invention provides an automatic data field classification system for de-identificaiton processing of personal information in big-data environment and a method thereof, wherein the automatic data field classification system automatically classifies an identifier (ID), a quasi-identifier (...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KWAK SANG HUN, JO GYEONG MIN, SHIN SANG WOO, KIM JAE RYONG
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention provides an automatic data field classification system for de-identificaiton processing of personal information in big-data environment and a method thereof, wherein the automatic data field classification system automatically classifies an identifier (ID), a quasi-identifier (QI), and sensitive information (SA) which a pesonal informaiton processor has a difficulty in determining to sugget the automatically classified ID, QI, and SA to the personal information processor. The automatic data field classification system for de-identificaiton processing of personal information in big-data environment comprises: a meta information collector to collect meta information of original data being de-identified target; a meta information analyzing unit for analyzing whether a pre-registered column name is included in the meta information collected from the meta information collector, analyzing whether a predefined column name is included in the collected meta information, and classifying an identification grade with respect to the original data through at least one of analysises using a deep learning algorithm based sentence classification model by using corresponding description as input data when the column attribute information of the meta information includes a description; and an identification grade classification result data storing unit to store result data classifed by the meta information analyzing unit. 본 발명은 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법에 관한 것으로, 해결하고자 하는 과제는 개인정보 처리자가 판단하기 어려운 식별자(ID), 준식별자(QI), 민감정보(SA)를 자동으로 분류하고, 개인정보 처리자에게 제안하는데 있다. 일례로, 비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집부; 상기 메타정보 수집부를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석부; 및 상기 메타정보 분석부를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장부를 포함하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템을 개시한다.