APPARATUS METHOD AND PROGRAM FOR BIDIRECTIONAL GENERATION BETWEEN IMAGE AND TEXT

The present invention relates to an apparatus, method and program for bidirectional image-text generation, which executes image-to-text or text-to-image conversion with minimal information loss, wherein the apparatus comprises: a memory storing at least one input image and at least one input text; a...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: SIHAENG LEE, TAE HOON KIM, SOONYOUNG LEE, SANGYUN KIM, GWANGMO SONG
Format: Patent
Sprache:eng ; kor
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The present invention relates to an apparatus, method and program for bidirectional image-text generation, which executes image-to-text or text-to-image conversion with minimal information loss, wherein the apparatus comprises: a memory storing at least one input image and at least one input text; and a processor configured to convert the input image to text or convert the input text to an image. The memory comprises: a variational autoencoder which includes a first codebook that is pre-trained to continuously downsize the size of the input image to store image data of different sizes; a text encoder which includes a second codebook that is pre-trained to store text data corresponding to the input text; and a bidirectional auto-regressive transformer which converts the input image into text based on the text data extracted from the second codebook if segment embedding is text conversion for the input image, and convert the input text into an image based on the image data extracted from the first codebook if the segment embedding is image conversion of the input text. 정보 손실을 최소화하여 이미지에서 텍스트로의 변환 또는 텍스트에서 이미지로의 변환을 수행할 수 있는 이미지 텍스트 양방향 생성 장치, 방법 및 프로그램에 관한 것으로, 적어도 하나의 입력 이미지와 적어도 하나의 입력 텍스트를 저장하는 메모리 및 상기 입력 이미지를 텍스트로 변환하거나 또는 상기 입력 텍스트를 이미지로 변환하도록 구성된 프로세서를 포함하고, 상기 메모리는,상기 입력 이미지의 크기를 연속적으로 다운사이징하여 크기가 다른 이미지 데이터를 저장하도록 사전 학습된 제1 코드북을 포함하는 변분 오토인코더(Variational Autoencoder), 상기 입력 텍스트에 상응하는 텍스트 데이터를 저장하도록 사전 학습된 제2 코드북을 포함하는 텍스트 인코더 및 세그먼트 임베딩(segment embedding)이 상기 입력 이미지에 대한 텍스트 변환이면 상기 제2 코드북으로부터 추출한 텍스트 데이터를 기반으로 상기 입력 이미지를 텍스트로 변환하고, 상기 세그먼트 임베딩이 상기 입력 텍스트의 이미지 변환이면 상기 제1 코드북으로부터 추출한 이미지 데이터를 기반으로 상기 입력 텍스트를 이미지로 변환하는 양방향 자동 회귀 변환기(Bidirectional Auto-Regressive Transformer)를 포함한다.