Identifisering og lenking av entiteter

Balle, Ketil

Balle, Ketil

Master thesis

Åpne

4702_FULLTEXT.pdf (Låst)

4702_COVER.pdf (Låst)

Permanent lenke

http://hdl.handle.net/11250/2615810

Utgivelsesdato

2015

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6819]

Sammendrag

I denne oppgaven skulle det designes et system som kan identifiser eniteter og lenke disse til eksterne kunnskapskilder. Det skulle også benyttes testdata fra New York Times korpuset.

Første del av oppgaven søker å gi en oversikt over problemet, samt å se på en del forskning som er gjort innen de ulike delene av fagfeltet. Oppgaven kan deles inn i fire hoveddeler som også har samsvarende forskning, setningsinndeling, ordinndeling, identifisering av entiteter samt lenking av entiteter.

De første to delene er relativt uproblematiske, og forskningen på området fokuserer dels på å finne nye metoder som ha bedre ytelse, samt å utvikle metoder som fungerer på andre språk eller som er uavhengige av språk. Det ble også oppnådd akseptable resultater på testdata med det utviklede systemet.

Identifisering av entiteter er et større problemområde. Her skulle det fokuseres på tre typer entiteter, personer, organisasjoner og lokasjoner. Det opereres med en rekke andre, men de faller utenfor oppgaven. De aller meste av forskningen benytter ulike typer maskinlæring for å løse problemet, men i denne oppgaven ble en kombinasjon av manuelt utarbeidede regler og oppslag i en rekke lister benyttet. Dette ga akseptable resultater på de gitte testdata, med forbehold om at reglene ble håndlaget med utgangspunkt i de samme data.

Det siste trinnet var å lenke entitetene til eksterne kunnskapsbaser, og her ble Wikipedia valgt som den primære nettsiden. Det fungerte godt for kjente personer, organisasjoner og lokasjoner, men ga ingen resultater for de aller fleste personer som er "vanlige mennesker" eller lokale bedrifter. De sekundære kildene FaceBook og YellowPages fungerte dårlig, men Google Maps har potensiale.

Utgiver

NTNU