Document ranking for Covid-19 researcher articles using BM25 and BERT as a re-ranker

Olaisen, André Julius Hovd

dc.contributor.advisor	Thiago Guerrera Martins
dc.contributor.author	Olaisen, André Julius Hovd
dc.date.accessioned	2021-10-28T17:22:48Z
dc.date.available	2021-10-28T17:22:48Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:75366163:22976132
dc.identifier.uri	https://hdl.handle.net/11250/2826393
dc.description.abstract	I dette prosjektet skal vi bruke, og sammenligne, term-matching modeller og dype nevrale nettverksmodeller for å rangere COVID-19 forskningsdokumenter. Term-matching modellen som brukes er BM25, og den dype nevrale nettverk modellen kalles BERT. Nylig har det blitt mer og mer populært å bruke dype nevrale nettverk for informasjonsinnhenting. Modeller som BERT har overgått klassiske modeller som BM25. Her prøver vi å oppnå det samme på COVID-19 forskningsartikler. Her vil vi prøve å bruke to forskjellige implementeringer av BERT; bi-encoder og cross-encoder modellen. BERT-modellene ble finjustert på CORD-19 datasettet. Så ble modellene videre trent på tittel-sammendrag par. Perturbasjon Teknikker ble brukt på tittel-sammendrag parene for å etterligne spørsmål dokument par. Bi-encoder brukes på samme måte som BM25, den brukes til full rangering. Testene viste at trening av modellen for CORD-19 datasettet forbedret ytelsen. Ulike pooling-metoder påvirket modellen, med max-pooling som fungerer best. Likevel fungerte bi-encoderen dårligere enn BM25. Coss-encoderen brukes til å rangere de beste $k$ -resultatene som ble hentet fra BM25. Når cross-encoder modellen ble brukt til å omarrangere topp 10-resultatene ble nDCG(10) verdien økt fra 0,658 til 0,713. Selv om dette virker lovende, er forskjellen ikke signifikant når du endrer antall dokumenter som er rangert på nytt. I tillegg er det ikke klart om denne treningsmetoden er enkel å replisere for andre problemer.
dc.description.abstract	AbstractIn this project we will use, and compare, term-matching models and deep-neural network modelsto rank COVID-19 research documents in the CORD-19 dataset (Wang et al. [2020]). The termmatching model used is BM25, and the deep neural network is BERT (Devlin et al. [2018]).Recently it has become more and more popular to apply deep neural networks for informationretrieval. Models like BERT have outperformed classical models like BM25. Here we try toachieve the same on COVID-19 research articles. Here we will try to use two different implementations of BERT; the bi-encoder model and thecross-encoder model. The BERT models were fine-tuned on the CORD-19 dataset. Then themodels were further trained on title-abstract pairs. Perturbation techniques were applied to thetitle-abstract pairs to mimic query-document pairs. The bi-encoder is used in the same way as BM25, it is used for a full-ranking. The results fromtesting the bi-encoder showed that training the model for the CORD-19 dataset improved the per-formance. Different pooling methods affected the model, with max-pooling working best. However,when the bi-encoder was compared with BM25 it performed significantly worse. The bi-encodergot a nDCG(10) = 0.561 and the BM25 got a nDCG(10) = 0.658. The cross-encoder is used for re-ranking the topkresults that was retrieved from BM25. When re-ranking the top 10 results the cross-encoder improved the ranking and got a nDCG(10) = 0.713,without the re-ranker the result was nDCG(10) = 0.658. While this seems promising, whenchanging the number of documents re-ranked the difference is not significant. In addition it is notclear if this training method is easy to replicate for other problems.
dc.language	eng
dc.publisher	NTNU
dc.title	Document ranking for Covid-19 researcher articles using BM25 and BERT as a re-ranker
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:75366163:22976 ...
Størrelse:: 2.598Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:75366163:22976 ...
Størrelse:: 8.085Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2446]

Vis enkel innførsel