Generering av en navnedatabase for kinesiske tegn i japanske navn med utgangspunkt i Wikipedia
Abstract
Å finne den korrekte måten å uttale et japansk navn skrevet med kinesiske tegn er en utfordring for både de som studerer japansk såvel som de som har japansk som morsspråk. I japanske navn kan kinesiske tegn uttalles på flere måter, og nye varianter utvikles kontinuerlig.Selv om det allerede finnes oppslagsverk med informasjon om uttalen til slike tegn fokuserer denne oppgaven på å lage en database med kinesiske tegn brukt i japanske navn med utgangspunkt i japansk Wikipedia. Databasen kan potensielt brukes av navne- og språkforskere som spesifikt studerer japanske navn, og oppgaven fungerer også som et proof-of-concept for å bruke ukonvensjonelle datakilder for å automatisk generere store oppslagsverk for navn.I tesen beskrives stegene som er nødvendige for å utvikle dette systemet. Store deler av teksten fokuserer derfor på språkprosesseringsmetoder for å hente informasjon fra japansk Wikipedia.Systemet lykkes i skape to SQLite-databaser med informasjon om personer og navn i japansk Wikipedia. Den første databasen inneholder informasjon om samtlige personer databasen klarte å finne i japansk Wikipedia, mens den andre inneholder kun informasjon om kinesiske tegn og uttale.