RCAT: Retentive CLIP Adapter Tuning for Improved Video Recognition

The advent of Contrastive Language-Image Pre-training (CLIP) models has revolutionized the integration of textual and visual representations, significantly enhancing the interpretation of static images. However, their application to video recognition poses unique challenges due to the inherent dynam...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	Electronics (Basel) 2024-03, Vol.13 (5), p.965
Hauptverfasser:	Xie, Zexun, Xu, Min, Zhang, Shudong, Zhou, Lijuan
Format:	Artikel
Sprache:	eng
Schlagworte:	Adapters Analysis Computational linguistics Costs Datasets Image enhancement Language Language processing Model accuracy Natural language interfaces Natural language processing Tuning Video data
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Schreiben Sie den ersten Kommentar!