Vis enkel innførsel

dc.contributor.advisorNørvåg, Kjetil
dc.contributor.authorHove, Lise Presterud
dc.date.accessioned2022-02-01T18:27:23Z
dc.date.available2022-02-01T18:27:23Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:32949849
dc.identifier.urihttps://hdl.handle.net/11250/2976465
dc.description.abstractDenne oppgaven utforsker anvendelser innenfor datagruvedrift av en ny type data, rom-temporal tekstdata, generert fra sosiale medier. Vi definerer et nytt mønster fra slik data som vi kaller periodisk emnebanemønster, på engelsk Periodic Topic Trajectory Pattern (PTTP). Mønsteret beskriver et tekstlig tema som gjentar seg periodisk med samme geografiske bevegelse. Da dette er et hittil udefinert mønster, forsker vi innledende på temaet for å utvikle algoritmer for å identifisere PTTP-er i geotagget data fra sosiale medier. Vi presenterer liknende arbeider av lavere dimensjoner og undersøker om og hvordan vi kan utvide disse til å finne PTTP-er presist og effektivt. Til slutt implementerer vi disse algoritmene og sammenlikner dem basert på resultater og kjøretider. Våre funn indikerer at rom-temporal periodisk mønsterutvinning utvidet med en toppmoderne temautvinningsalgoritme er den beste tilnærmingen for å finne PTTP-er, da den skalerer godt og gir nøyaktige resultater. Derimot, å utvide temautvinningsalgoritmer viser seg å være problematisk, da slike modeller er utfordrende å implementere effektivt, og skalerer dårlig. Vi er de første som definerer et periodisk emnebanemønster og utforsker hvordan vi finner slike mønstre. Det geografiske aspektet er utfordrende å jobbe med, noe som resulterer i at tilnærmingen som håndterer dette spesifikt yter best resultater. Vi anbefaler videre forskning i denne retningen og å innlemme word embeddings for mer nøyaktig tekstanalyse.
dc.description.abstractThis thesis explores use-cases in data mining of the newly emerged spatiotemporal textual data type from social media. We define a new kind of pattern in this data that we call a Periodic Topic Trajectory Pattern (PTTP). The pattern describes a textual topic that occurs periodically in the same geographical trajectory. As this is a previously undefined pattern, preliminary research is conducted to develop algorithms to identify PTTPs in geotagged social media data. We present similar works that mine lower-dimensional patterns and investigate how we can expand these works to find PTTPs accurately and efficiently. Finally, we implement the expanded algorithms and compare their results and runtimes. Our findings indicate that spatiotemporal periodic pattern mining extended with a state-of-the-art topic model is the best approach in finding PTTPs, as it scales well and returns accurate results. On the other hand, direct topic modeling approaches are concluded to be problematic as they are challenging to implement efficiently and scales poorly. We are the first to define a Periodic Topic Trajectory Pattern and explore how to find such patterns. The geographical aspect is challenging to work with, resulting in the approach that handles the locations specifically performing better. We recommend further research in this direction and incorporating word embeddings for more accurate text analysis.
dc.languageeng
dc.publisherNTNU
dc.titleMining Periodic Topic Trajectory Patterns in Spatiotemporal Textual Data
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel