Location prediction using neural networks
Abstract
For å kunne studere brukeres bevegelser og handlinger er det viktig å identifisere lokasjonen en tweet er skrevet fra eller omhandler. Denne typen informasjon kan brukes i en rekke applikasjoner som avhenger av geografisk informasjon, som for eksempel event deteksjon og lokasjons-basert rekommendering.På Twitter rapporteres det at geografisk informasjon bare er tilgjengelig på 1-3 % av alle tweets. Dette har gjort at predikering av lokasjon på tweets uten geografisk merking har blitt et aktivt forskningsområde innen geografisk informasjonsgjenfinning.I dette prosjektet utforsker vi bruken av deep learning for å løse dette problemet, og presenterer en metode som baserer seg på bruk av nevrale nettverk.Metoden som presenteres predikerer lokasjonen basert på innholdet i en enkelt tweet, hvor vi ser på modeller som kun baserer seg på tekst, og modeller som benytter tekst i kombinasjon med annen kontekstuell metadata. I dette arbeidet deles det geografiske området inn i celler, der et nevralt nettverk benyttes for å finne den cellen med høyest sannsynlighet for å inneholde en gitt tweet. For å finne optimal inndeling av det aktuelle geografiske området utforsker vi, og sammenligner både uniforme og adaptive celler. Evalueringen som er foretatt på tre forskjellige datasett indikerer at den presenterte metoden gir en signifikant forbedring sammenlignet med moderne tilnærminger for samme problem. Når det gjelder utnyttelse av metadata viser evalueringen at bruk av ekstra data som opprettingstidspunkt, brukerens språk og brukerens profilbeskrivelse gir mer presise predikeringer. Identifying the tweet location is crucial in order to utilize the content in studies of regional user behavior. Such information can be used in numerous applications depending on geographical information such as event detection and location-based recommendation.In terms of Twitter, such geographical information is reported to be present in just 1-3 % of all tweets.Thus, the inference of location on non-geotagged tweets is an active research area in geographical information retrieval. In this project we explore the use of deep learning to issue the geolocation problem, and propose a method using recurrent neural networks.The proposed method predicts tweet locations based on information given in a single tweet, where we explore both models based solely on tweet text and models exploiting additional contextual metadata.In this work the geographical area of interest is divided into grid cells, where a neural network is trained to predict the grid cell with highest probability of containing a given tweet. A comparison of uniform and adaptive grid cells is conducted with ambiguous results in terms of the preferable approach for geographical modelling.The evaluation on three different datasets indicates that the proposed method yields a significant improvement compared to state of the art approaches. In terms of exploiting contextual metadata features in combination with text the evaluation yields significantly better accuracy than utilizing text only.