• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Identifisering og lenking av entiteter

Balle, Ketil
Master thesis
View/Open
4702_FULLTEXT.pdf (Locked)
4702_COVER.pdf (Locked)
URI
http://hdl.handle.net/11250/2615810
Date
2015
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [7357]
Abstract
I denne oppgaven skulle det designes et system som kan identifiser eniteter og lenke disse til eksterne kunnskapskilder. Det skulle også benyttes testdata fra New York Times korpuset.

Første del av oppgaven søker å gi en oversikt over problemet, samt å se på en del forskning som er gjort innen de ulike delene av fagfeltet. Oppgaven kan deles inn i fire hoveddeler som også har samsvarende forskning, setningsinndeling, ordinndeling, identifisering av entiteter samt lenking av entiteter.

De første to delene er relativt uproblematiske, og forskningen på området fokuserer dels på å finne nye metoder som ha bedre ytelse, samt å utvikle metoder som fungerer på andre språk eller som er uavhengige av språk. Det ble også oppnådd akseptable resultater på testdata med det utviklede systemet.

Identifisering av entiteter er et større problemområde. Her skulle det fokuseres på tre typer entiteter, personer, organisasjoner og lokasjoner. Det opereres med en rekke andre, men de faller utenfor oppgaven. De aller meste av forskningen benytter ulike typer maskinlæring for å løse problemet, men i denne oppgaven ble en kombinasjon av manuelt utarbeidede regler og oppslag i en rekke lister benyttet. Dette ga akseptable resultater på de gitte testdata, med forbehold om at reglene ble håndlaget med utgangspunkt i de samme data.

Det siste trinnet var å lenke entitetene til eksterne kunnskapsbaser, og her ble Wikipedia valgt som den primære nettsiden. Det fungerte godt for kjente personer, organisasjoner og lokasjoner, men ga ingen resultater for de aller fleste personer som er "vanlige mennesker" eller lokale bedrifter. De sekundære kildene FaceBook og YellowPages fungerte dårlig, men Google Maps har potensiale.
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit