효율적인 실측 자료 주석

머신 러닝 애플리케이션을 훈련시키기 위해 주석 달릴 타겟 항목들의 세트를 결정하는 컴퓨터-구현 방법이 제공된다. 상기 방법은 데이터 샘플들의 세트가 있는 훈련 데이터 세트 및 분류기가 있는 오토-인코더를 제공하는 단계를 포함한다. 상기 오토-인코더는 상기 데이터 샘플들의 세트를 압축된 특징 벡터들의 세트에 매핑하는 임베딩 모델을 포함한다. 상기 압축된 특징 벡터들의 세트는 압축된 특징 행렬을 정의한다. 추가로 다음이 제공된다: 상기 압축된 특징 행렬과 관련된 그래프의 정의, 상기 그래프의 노드 클러스터들을 식별하기 위해 클러스터링...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: STAAR PETER, DOLFI MICHELLE, BEKAS KONSTANTINOS, VELIZHEV ALEXANDER, KAESTNER RALF, AUER CHRISTOPH, NOGUER HIDALGO DAL, GEORGOPOULOS LEONIDAS, KUZNETSOVA RITA
Format: Patent
Sprache:kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:머신 러닝 애플리케이션을 훈련시키기 위해 주석 달릴 타겟 항목들의 세트를 결정하는 컴퓨터-구현 방법이 제공된다. 상기 방법은 데이터 샘플들의 세트가 있는 훈련 데이터 세트 및 분류기가 있는 오토-인코더를 제공하는 단계를 포함한다. 상기 오토-인코더는 상기 데이터 샘플들의 세트를 압축된 특징 벡터들의 세트에 매핑하는 임베딩 모델을 포함한다. 상기 압축된 특징 벡터들의 세트는 압축된 특징 행렬을 정의한다. 추가로 다음이 제공된다: 상기 압축된 특징 행렬과 관련된 그래프의 정의, 상기 그래프의 노드 클러스터들을 식별하기 위해 클러스터링 알고리즘을 적용하는 단계 및 상기 노드 클러스터들의 중심 노드들을 식별하기 위해 중심성 알고리즘을 적용하는 단계, 상기 중심 노드들에 대한 노드 라벨들을 주석자로부터 검색하는 단계, 상기 그래프의 다른 노드들에 대해 상기 주석 달린 노드 라벨들을 전파하는 단계 및 상기 주석 달린 그리고 상기 전파된 노드 라벨들로 상기 임베딩 모델 및 상기 분류기의 훈련을 수행하는 단계. A computer-implemented method for determining a set of target items to be annotated for training a machine learning application. The method comprises providing a training data set with a set of data samples and an auto-encoder with a classifier. The auto-encoder comprises an embedding model that maps the set of data samples to a set of compressed feature vectors. The set of compressed feature vectors define a compressed feature matrix. Further provided are: a definition of a graph associated to the compressed feature matrix, applying a clustering-algorithm to identify node clusters of the graph and applying a centrality algorithm to identify central nodes of the node clusters, retrieving from an annotator node labels for the central nodes, propagating the annotated node labels to other nodes of the graph and performing a training of the embedding model and the classifier with the annotated and the propagated node labels.