Exploring the role of Text in Visual Question Answering on Natural Scenes and Documents

Visual Question Answering (VQA) és la tasca on donada una imatge i una pregunta en llenguatge natural, l'objectiu és generar una resposta en llenguatge natural. En la intersecció entre la visió per computador i el processament del llenguatge natural, aquesta tasca es pot veure com una mesura de...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Perez Tito, Ruben
Format: Dissertation
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Visual Question Answering (VQA) és la tasca on donada una imatge i una pregunta en llenguatge natural, l'objectiu és generar una resposta en llenguatge natural. En la intersecció entre la visió per computador i el processament del llenguatge natural, aquesta tasca es pot veure com una mesura de les capacitats de comprensió de les imatges, ja que requereix raonar sobre objectes, accions, colors, posicions, les relacions entre els diferents elements, així com emprar el sentit comú, coneixements globals, habilitats aritmètiques i comprensió del llenguatge natural. No obstant, tot i que el text present a les imatges conté informació semànticament important que és explícita i no disponible de cap altra forma, la majoria dels mètodes VQA són analfabets, ignorant en gran part el text de les imatges malgrat la seva potencial importància. En aquesta tesi, iniciem un viatge per aconseguir aportar capacitats de lectura als models de visió per computador aplicats a la tasca VQA, creant nous conjunts de dades i mètodes que puguin llegir, raonar i integrar el text amb altres indicis visuals en imatges d'escenes naturals i documents. Al Capítol 3, adrecem el problema de com combinar el text en escenes naturals amb la informació visual per entendre completament tots els matisos de les imatges. Per a això, definim una nova subtasca de VQA que requereix llegir el text de la imatge, destacant les limitacions dels mètodes actuals i, en conseqüència, proposem una nova arquitectura que pot raonar sobre ambdues modalitats. Al Capítol 5, canviem el domini de VQA amb capacitats de lectura i l'apliquem en imatges de documents escanejats, proporcionant una perspectiva final d'alt nivell al camp dedicat a intel·ligència sobre documents, els quals s'ha centrat principalment a digitalitzar el contingut d'aquests documents i extreure valors clau sense tenir en compte la finalitat per a la qual s'extreia la informació. Per a això, creem un conjunt de dades que requereix que els mètodes raonin sobre els elements únics que es poden trobar en documents, com ara text, taules, figures o gràfics disposats en complexos dissenys, per a aconseguir proporcionar respostes precises en llenguatge natural. No obstant això, vam observar que les característiques visuals explícites aporten una lleugera contribució al rendiment total, ja que la informació es troba principalment al mateix text i en la seva posició. En conseqüència, al Capítol 6, proposem aplicar VQA sobre imatges infogràfiques, buscant ima