METHOD FOR SELECTING MACHINE LEARNING TRAINING DATA AND APPARATUS THEREFOR

The present disclosure discloses an apparatus for selecting independent training data for a model under a cost constraint, to efficiently perform machine learning, and a method for the same. The method for selecting machine learning data includes: receiving a training data set (D_U) which is unlabel...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: CHULYUN KIM, GYOUNG DON JOO
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present disclosure discloses an apparatus for selecting independent training data for a model under a cost constraint, to efficiently perform machine learning, and a method for the same. The method for selecting machine learning data includes: receiving a training data set (D_U) which is unlabeled; receiving a labeling cost constrict and a selection cost constraint; and selecting final training data from the unlabeled training data set (D_U) based on the labeling cost constraint (^tau alpha) and the selection cost constraint (^tau beta). The labeling cost constraint (^tau alpha) represents the maximum allowable values of the number of labeled training data, and the selection cost constraint (^tau beta) represents the maximum allowable values of the number of training data trained through a prior learning model (pi). 본 개시는 효율적으로 기계 학습을 수행하기 위하여, 비용제한 하에 모델에 독립적인 트레이닝 데이터 선택에 관한 장치 및 그 방법에 대한 발명을 개시한다. 기계 학습(machine learning) 데이터 선택 방법은 태그가 할당되지 않은(unlabeled) 학습 데이터 세트(D)를 수신하는 단계, 레이블링 비용 제약 조건 및 선별 비용 제약 조건을 수신하는 단계, 및 상기 레이블링 비용 제약 조건() 및 상기 선별 비용 제약 조건()에 기초하여, 상기 태그가 할당되지 않은 학습 데이터 세트(D)로부터 최종 학습 데이터를 선택하는 단계를 포함하고, 레이블링 비용 제약 조건()은 태그가 할당되는 학습 데이터 수의 최대 허용값을 나타내고, 상기 선별 비용 제약 조건()은 사전 학습 모델(π)에 의해 학습되는 학습 데이터 수의 최대 허용값을 나타낸다.