Fine-Tuning BERT for Document Ranking

Steensland, Øyvind

dc.contributor.advisor	Martins, Thiago Guerrera
dc.contributor.author	Steensland, Øyvind
dc.date.accessioned	2021-10-05T17:37:25Z
dc.date.available	2021-10-05T17:37:25Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:67702077:20754310
dc.identifier.uri	https://hdl.handle.net/11250/2787890
dc.description.abstract	Dokumentrangering handler om å rangere en liste dokumenter basert på en søketekst slik at de mest relevante dokumentene kommer øverst på lista. Dette brukes blant annet i søkemotorer eller vitenskapelige databaser. I denne oppgaven utforsker vi om BERT kan brukes til å løse dette problemet. BERT er en maskinlæringsmodell som ble publisert av Google i 2018 og er basert på transformere. BERT har blitt forhåndstrent til å forstå naturlig språk og har raskt blitt ledende inne språkforståelse. For å bruke BERT for dokumentrangering, finjusterte vi modellen på MS MARCO, Microsofts eget dokumentrangeringsdatasett. Den valgte modellen var en binær klassifiseringsmodell som prøver å forutsi hvorvidt et dokument er relevant for søketeksten eller ikke, og dermed lager en poengsum for hvert dokument. For at modellen skal kunne ta inn dokumenter, ble hvert dokument delt opp i overlappende passasjer og gjennomsnittsummen av alle passasjene ble satt som dokumentets poengsum. Etter å ha testet modellen på 200 søketekster fra MS MARCO, viste resultatene våre at BERT utkonkurrerer BM25 og forbedrer ytelsen med over 10%. Ytelsen korrelerer med antall parametere og større modeller kan øke ytelsen ytterliggere. Eksperimentene våre viste også at det å øke antall kandidatdokumenter ikke øker ytelsen. Basert på funnene i denne masteroppgaven, konkluderer vi med at BERT er i stand til å bruke sin språkforståelse til å finne relevans mellom søketekst og dokument, noe som gjør den attraktiv for informasjonsgjenfinningssystemer. For å ta hånd om BERTs lave fart er kunnskapsdestillasjon i stand til å både øke farten og forbedre ytelsen.
dc.description.abstract	Document ranking is the task of ranking a list of documents based on a user query such that the most relevant documents come first. This is used in many applications, for example search engines or scientific databases. In this thesis, we investigate how BERT can be used to solve this problem. BERT is a machine learning model published by Google in 2018, based on the Transformer architecture. It has been pre-trained to understand natural language and has quickly become the state of the art within language understanding. In order to use BERT for document ranking, we fine-tuned it using the MS MARCO document ranking dataset. The chosen model was a binary classifier that tries to predict whether a document is relevant to the query or not, thus creating a relevance score for the document. To take documents as input, each document was split into overlapping passages and the average passage score was used as the document score. After testing the model on 200 queries from MS MARCO, our results show that BERT significantly outperforms the BM25 baseline, improving performance by over 10%. The performance correlates with the number of parameters and bigger models are able to improve performance further. Our experiments also show that increasing the number of candidate documents does not increase ranking performance. Based on the findings in the thesis, we conclude that BERT is able to use its language understanding to find relevance between query and document, making it appealing for information retrieval systems. To deal with BERT's slow speed, the use of knowledge distillation techniques is able to improve performance, while reducing the inference times.
dc.language	eng
dc.publisher	NTNU
dc.title	Fine-Tuning BERT for Document Ranking
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:67702077:20754 ...
Størrelse:: 22.10Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2446]

Vis enkel innførsel