Video understanding with the Youtube-8M dataset
I dette prosjektet ble dyplæringsmodeller trent på Youtube-8M datasettet, som er et stort benchmark for for multi-label videoklassifisering, og evaluert ved hjelp av F1-score. De trente modellene brukte forskjellige metoder for å representere video basert på videoens frames, og det ble gjort en samm...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | I dette prosjektet ble dyplæringsmodeller trent på Youtube-8M datasettet, som er et stort benchmark for for multi-label videoklassifisering, og evaluert ved hjelp av F1-score. De trente modellene brukte forskjellige metoder for å representere video basert på videoens frames, og det ble gjort en sammenligning mellom dem. Metodene som ble brukt i prosjektet var Recurrent Neural Networks, Transformer-baserte nettverk, gjennomsnittling pooling og lærbar pooling som Deep Bag of Frames, Net Vectors of Locally Aggregated Descriptors, and Net Fisher Vectors. Eksperimenter med hyperparameterinnstilling, nettverksarkitektur, regularisering og det å legge til en lærbar ikke-lineær enhet kalt Context Gating ble utført for å forbedre F1-scoren til de enkelte modellene. Resultatene viste at for sekvensielle modeller, Recurrent Neural Networks ble utkonkurrert av Transformerbaserte modeller, som igjen ble utkonkurrert av alle pooling modeller med unntaket av Deep Bag of Frames, hvor modellen med høyest test F1-score var basert på Net Vectors of
Locally Aggregated Descriptors. |
---|