METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES

Using a pre-trained and fixed Vision Transformer (ViT) model as an external semantic prior, a generator is trained given only a single structure/appearance image pair as input. Given two input images, a source structure image and a target appearance image, a new image is generated by the generator i...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: BAR TAL, Omer, TUMANYAN, Narek, BAGON, Shai, DEKEL, Tali
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Using a pre-trained and fixed Vision Transformer (ViT) model as an external semantic prior, a generator is trained given only a single structure/appearance image pair as input. Given two input images, a source structure image and a target appearance image, a new image is generated by the generator in which the structure of the source image is preserved, while the visual appearance of the target image is transferred in a semantically aware manner, so that objects in the structure image are "painted" with the visual appearance of semantically related objects in the appearance image. A self- supervised, pre-trained ViT model, such as a DINO-ViT model, is lerveraged as an external semantic prior, allowing for training of the generator only on a single input image pair, without any additional information (e.g., segmentation/correspondences), and without adversarial training. The method may generate high quality results in high resolution (e.g., HD). À l'aide d'un modèle de transformeur de vision (ViT) pré-entraîné et fixe en tant que sémantique antérieure externe, un générateur est entraîné uniquement avec une seule paire d'images de structure/apparence en tant qu'entrée. Avec deux images d'entrée, une image de structure source et une image d'aspect cible, une nouvelle image est générée par le générateur dans lequel la structure de l'image source est préservée, tandis que l'aspect visuel de l'image cible est transféré de manière sémantique, de telle sorte que des objets dans l'image de structure soient « peints » avec l'aspect visuel d'objets liés de manière sémantique dans l'image d'aspect. Un modèle ViT autosupervisé et pré-entraîné, tel que le modèle DINO-ViT, est géré en tant que sémantique antérieure externe, permettant l'entraînement du générateur uniquement sur une seule paire d'images d'entrée, sans aucune information supplémentaire (par exemple, segmentation/correspondances), et sans entraînement contradictoire. Le procédé peut générer des résultats de haute qualité dans une résolution élevée (par exemple, HD).