Vis enkel innførsel

dc.contributor.advisorThiago Guerrera Martins
dc.contributor.authorOlaisen, André Julius Hovd
dc.date.accessioned2021-10-28T17:22:48Z
dc.date.available2021-10-28T17:22:48Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:75366163:22976132
dc.identifier.urihttps://hdl.handle.net/11250/2826393
dc.description.abstractI dette prosjektet skal vi bruke, og sammenligne, term-matching modeller og dype nevrale nettverksmodeller for å rangere COVID-19 forskningsdokumenter. Term-matching modellen som brukes er BM25, og den dype nevrale nettverk modellen kalles BERT. Nylig har det blitt mer og mer populært å bruke dype nevrale nettverk for informasjonsinnhenting. Modeller som BERT har overgått klassiske modeller som BM25. Her prøver vi å oppnå det samme på COVID-19 forskningsartikler. Her vil vi prøve å bruke to forskjellige implementeringer av BERT; bi-encoder og cross-encoder modellen. BERT-modellene ble finjustert på CORD-19 datasettet. Så ble modellene videre trent på tittel-sammendrag par. Perturbasjon Teknikker ble brukt på tittel-sammendrag parene for å etterligne spørsmål dokument par. Bi-encoder brukes på samme måte som BM25, den brukes til full rangering. Testene viste at trening av modellen for CORD-19 datasettet forbedret ytelsen. Ulike pooling-metoder påvirket modellen, med max-pooling som fungerer best. Likevel fungerte bi-encoderen dårligere enn BM25. Coss-encoderen brukes til å rangere de beste $k$ -resultatene som ble hentet fra BM25. Når cross-encoder modellen ble brukt til å omarrangere topp 10-resultatene ble nDCG(10) verdien økt fra 0,658 til 0,713. Selv om dette virker lovende, er forskjellen ikke signifikant når du endrer antall dokumenter som er rangert på nytt. I tillegg er det ikke klart om denne treningsmetoden er enkel å replisere for andre problemer.
dc.description.abstractAbstractIn this project we will use, and compare, term-matching models and deep-neural network modelsto rank COVID-19 research documents in the CORD-19 dataset (Wang et al. [2020]). The termmatching model used is BM25, and the deep neural network is BERT (Devlin et al. [2018]).Recently it has become more and more popular to apply deep neural networks for informationretrieval. Models like BERT have outperformed classical models like BM25. Here we try toachieve the same on COVID-19 research articles. Here we will try to use two different implementations of BERT; the bi-encoder model and thecross-encoder model. The BERT models were fine-tuned on the CORD-19 dataset. Then themodels were further trained on title-abstract pairs. Perturbation techniques were applied to thetitle-abstract pairs to mimic query-document pairs. The bi-encoder is used in the same way as BM25, it is used for a full-ranking. The results fromtesting the bi-encoder showed that training the model for the CORD-19 dataset improved the per-formance. Different pooling methods affected the model, with max-pooling working best. However,when the bi-encoder was compared with BM25 it performed significantly worse. The bi-encodergot a nDCG(10) = 0.561 and the BM25 got a nDCG(10) = 0.658. The cross-encoder is used for re-ranking the topkresults that was retrieved from BM25. When re-ranking the top 10 results the cross-encoder improved the ranking and got a nDCG(10) = 0.713,without the re-ranker the result was nDCG(10) = 0.658. While this seems promising, whenchanging the number of documents re-ranked the difference is not significant. In addition it is notclear if this training method is easy to replicate for other problems.
dc.languageeng
dc.publisherNTNU
dc.titleDocument ranking for Covid-19 researcher articles using BM25 and BERT as a re-ranker
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel