Text-Video Retrieval Using Encoder and Cross Encoder Models
Abstract
I denne oppgaven undersøker vi hvordan dyp læring med enkodermodeller kan brukes til videosøk. Motivasjonen for å bruke nettopp enkodermodeller er den store suksessen de har hatt på flere tekst-bildeoppgaver og deres parallelle behandling av data, som gir rask inferens.
Bilde- og tekstvektorer fra OpenAI sin CLIP-modell brukes som et grunnlag for modellene våre. CLIP ble publisert i 2021 og er en dobbel enkoder som er trent på et stort datasett av bilde-tekst-par for å lage et felles vektorrom for de to datatypene. Tre modellkategorier for videorepresentasjon og videosøk sammenlignes. Stillbilder hentes uniformt fra en video og modellene tar inn CLIP-vektorer av disse stillbildene. Målet er å sammenfatte informasjonen fra disse vektorene over tidsdimensjonen i videoen og generere en ny vektor som er en representasjon på videonivå. For å få et mål på zero-shot-egenskapene til CLIP, tester vi aggregeringsmetoder uten trenbare parametre. Deretter trenes og testes enkodermodeller for sammenfatting over tidsdimensjonen. Med disse modellene kan videoer representeres som vektorer på forhånd, og trenger ikke å sendes gjennom modellen når et søk skal gjøres. Til slutt trenes og testes kryssenkodere for re-rangering av søkeresultater.
Datasettet som brukes er MSR-VTT, og søkeresultater rapporteres på test-1k-delen av datasettet. Resultatene viser at CLIP-modellen er et godt utgangspunkt for å bygge videosøkmodeller, ettersom den gir gode resultater for modeller uten trenbare parametre.
Søkeresultatene blir deretter forbedret ved bruk av enkodermodeller for aggregering av temporal informasjon. MRR@10 forbedres med 20 % fra 0,418 i den beste zero-shot metoden til 0,503 for de beste enkodermodellene. Modellene med få lag gir de beste søkeresultatene.
Forskjellige strategier for å trene kryssenkodere blir testet, men kryssenkoderene i denne rapporten gir ikke like gode rangeringsresultater som enkodermodellene. Valg av tapsfunksjon har stor påvirkning på resultatene og listetap og kontrasttap gir de beste resultatene, og utkonkurrerer punkttap. In this thesis we investigate how encoder based deep learning models can be used for text-video retrieval. The motivation for using encoder based models is their demonstrated success on various text and vision tasks as well as their parallel treatment of input data, allowing for fast inference.
Image and text encoders from the CLIP model by OpenAI are used as a base for our models. CLIP was published in 2021 and is a dual encoder model trained on a large number of image-caption pairs to create a common embedding space for images and text. Three main categories of models for video representation and retrieval are compared. The models take in CLIP features of frames sampled uniformly from a video, and the aim is to aggregate the information in the frame features over the temporal dimension to a video level feature. To create a baseline for zero-shot performance, we test a few aggregation methods without learnable parameters. Then, encoder models for temporal aggregation are tested. These have the advantage of allowing the video corpus to be pre-embedded, instead of embedding videos during search. Finally, cross encoder models for re-ranking are trained and tested.
The dataset used is the MSR-VTT dataset, and results are reported on the test-1k split, which is a common benchmark in recent video retrieval literature. The results show that the CLIP model provides a strong base for the task, with non-learnable methods having good performance.
The encoder models for aggregating temporal information prove successful in improving on the basic aggregations, and MRR@10 is improved by 20 % from 0.418 to 0.503. Encoder models with few layers grant the best retrieval results.
Various cross encoder training strategies are tested, but overall the performance of the cross encoder models in this report do not reach the levels of the ranking with pre-embedded features from encoders. The choice of loss function is found to influence results greatly, with listwise loss and contrastive loss outperforming pointwise loss.