Leveraging Scene Text Information for Image Interpretation
Fins fa poc, la majoria dels models de visió per computador seguien sent analfabets, ignorant en gran mesura la informació explícita i semànticament rica continguda com a text d’escena. El progrés recent en la detecció i reconeixement de text d’escena ha permès recentment explorar el seu paper en un...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Fins fa poc, la majoria dels models de visió per computador seguien sent analfabets, ignorant en gran mesura la informació explícita i semànticament rica continguda com a text d’escena. El progrés recent en la detecció i reconeixement de text d’escena ha permès recentment explorar el seu paper en un conjunt divers de problemes oberts de visió per computador, p. classificació d’imatges, recuperació de text d’imatges, subtítols d’imatges i resposta visual a preguntes, per nomenar-ne alguns. La semàntica explícita del text de l’escena requereix un modelatge específic similar al llenguatge. Tot i això, el text de l’escena és un senyal particular que s’ha d’interpretar d’acord amb una perspectiva integral que encapsuli tots els senyals visuals en una imatge. Incorporar aquesta informació és una tasca senzilla per als humans, però si no estem familiaritzats amb un idioma o escriptura, és impossible assolir una comprensió completa del món (per exemple, visitar un país estranger amb un alfabet diferent). Tot i la importància del text de l’escena, modelar-lo requereix considerar les diverses formes en què el text de l’escena interactua amb una imatge, processant i fusionant una modalitat addicional.
En aquesta tesi ens centrem principalment en dues tasques, la classificació d’imatges de granularitat fina basada en text d’escena i la recuperació multimodal. En totes dues tasques estudiades identifiquem les limitacions existents als enfocaments actuals i proposem solucions plausibles. Concretament, a cada capítol: i) Definim una forma compacta de respresentar text d’escena que es generalitza a paraules invisibles en temps d’entrenament mentre es realitza en temps real. ii) Incorporem la representació de text d’escena prèviament apresa per crear un descriptor de nivell d’imatge que supera els errors de reconeixement òptic de caràcters (OCR) que s’adapten bé a la tasca de classificació d’imatges de gra fi. iii) Dissenyem una xarxa de raonament a nivell de regió que aprèn la interacció a través de la semàntica entre regions visuals excel·lents i instàncies de text d’escena. iv) Fem servir informació de text d’escena a la coincidència d’imatge i text i introduïm la tasca stacmr de recuperació Cross-Modal conscient de text d’escena. Recopilem un conjunt de dades que incorpora el text de l’escena i dissenyem un model adequat per a la modalitat estudiada recentment. v) Identifiquem els inconvenients de les mètriques de recuperació actuals a la recuperació multimodal. Es pro |
---|