Combining Lexical and Semantic Search for Blocking
Abstract
B˚ade dyp læring og leksikale søkemetoder har vist stort potensial for˚a løse blokkingi sammenheng med entity matching. Imidlertid er det gjort lite forskning p˚a metodersom kombinerer dyp læring og leksikale teknikker. Med de nylige fremskritteneinnen embeddingmodeller, har vi forsøkt ˚a utnytte deres evne til ˚a fange semantiskinformasjon ved ˚a kombinere semantiske og leksikale søketeknikker. Vi har implementertblockingalgoritmer ved bruk av Lucene tekstindekser og tekstuelle embeddinger.Vi har kjørt eksperimenter p˚a forskjellige datasett med disse implementatsjoneneog sammenlignet deres blockingytelse. Resultatene vi har samlet inn viserikke at en kombinasjon av semantiske og leksikale tilnærminger forbedrer blokkngsytelseni særlig grad sammenlignet med den rent leksikale implemntasjonen. Tiltross for dette, tror vi at noen av implementatsjonene kan vise seg˚a være verdifulleunder de rette omstendighetene og at videre forskning trengs. Both deep learning and lexical search methods have shown great promise for solvingblocking in the context of entity matching. However, little research has beenconducted on methods combining deep learning and lexical techniques. With therecent advancements in embedding models, we have sought to take advantage oftheir ability to capture semantic information by combining semantic and lexical retrievaltechniques. We have implemented blocking implementations using Lucenetext indexes and textual embeddings. We have run experiments on various datasetswith these implementations and compared their blocking performance. Theresults we collected do not show that combining semantic and lexical approachessignificantly improves blocking performance compared to our purely lexical implementation.Despite this, we believe some of the tested implementations could beworthwhile given the right circumstances and that further research is needed.