Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.authorAndersen, Frikk Hald
dc.contributor.authorDahlen, Eirik
dc.date.accessioned2022-02-22T18:19:36Z
dc.date.available2022-02-22T18:19:36Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:27021433
dc.identifier.urihttps://hdl.handle.net/11250/2980859
dc.description.abstractSosiale medier har gjort det lettere å finne innhold og skape nettsamfunn med likesinnede individer. Ett av disse nettsamfunnene kalles pro-eating disorder (forkortet pro-ED), som kjennetegnes ved at de har en positiv holdning til det å ha en spiseforstyrrelse, til tross for at det er den mentale lidelsen med høyest dødsrate. Disse nettsamfunnene fremmer spiseforstyrrelser som et livsstilsvalg heller enn en dødelig mental lidelse, ved å oppfordre til skadelig oppførsel og ved å motivere hverandre til å opprettholde sykdommen sin. Selv om enkelte sosiale medieplattformer har tatt grep for å begrense spredning av pro-ED-innhold er disse nettsamfunnene fortsatt aktive i dag. Tidligere studier har vist at pro-ED-brukere kan bli klassifisert på Twitter ved bruk av standard maskinlæringsmodeller og språkbehandlingsteknikker. Dette er ikke nødvendigvis den mest effektive tilnærmingen til problemstillingen, ettersom brukere av sosiale medier ofte publiserer innhold om mer enn ett tema. En mer naturlig tilnærming vil derfor være å se på selve postene i stedet. De siste årene har det kommet mange nye dyp lærings-modeller basert på Attention-mekanismen og Transformer-arkitekturen. Disse attention-baserte modellene har gitt state-of-the-art resultater på mange spårkbehandlingsoppgaver, men har enda ikke blitt anvendt til å klassifisere pro-ED-poster. Denne masteroppgaven fokuserer på å implementere flere attention-baserte modeller basert på den kjente modellen Bidirectional Encoder Representations from Transformers (BERT), og hvordan disse kan bli anvendt på oppgaven å klassifisere pro-ED-poster på flere sosiale medieplattformer. For å gjennomføre dette ble tre nye pro-ED-datasett fra Twitter og Reddit samlet inn, prosessert og annotert. Det ble definert en mengde annoteringskriterier for å klassifisere innlegg som enten pro-ED, pro-recovery eller unrelated basert på innholdet i innlegget. Et av hovedbidragene fra denne oppgaven er et manuelt annotert datasett fra Twitter, bestående av 16 389 tweeter. I tillegg har et testdatasett med 376 manuelt annoterte innlegg fra Reddit og et semiautomatisk annotert dataset bestående av 136 846 innlegg fra Twitter blitt annotert. Disse datasettene ble brukt i tre eksperimenter som undersøkte hvordan attention-baserte modeller presterte på problemet å klassifisere pro-ED-poster fra sosiale medier. Modellene ble testet og evaluert både individuelt, og i forskjellige ensemble-arktitekturer. Resultatene viser at attention-baserte modeller utkonkurrerer standard maskinlæringsmodeller på oppgaven. Systemene som ga best resultater var basert på en stablet ensemble-arkitektur, med en vektet markrogjennomsnittlig F1-verdi på 0.939, når den er trent og testet på data fra Twitter, og en verdi på 0.816 når den er testet på data fra Reddit. Ser man på de individuelle modellene, er BERTweet den beste på å klassifisere tweeter, mens ERNIE 2.0 er best når det gjelder kryssplatformsoppgaver. Disse resultatene viser at attention-baserte modeller kan bli kombinert i ensemble-arkitekturer for å gi state-of-the-art systemer på oppgaven å automatisk klassifisere pro-ED-poster på sosiale medier.
dc.description.abstractSocial media has made it easier for people to access content and create online communities with like-minded individuals. One such online community is called pro-eating disorder (abbreviated pro-ED), which has a positive attitude towards eating disorders, despite it being the mental illness with the highest mortality rate. These communities promote eating disorders as a lifestyle choice rather than acknowledging it as a deadly mental disease and encourage each other to maintain dangerous behavior. Although some social media platforms have taken measures to restrict the publication of pro-ED content, these communities are still active today. Recent studies show that pro-ED users can successfully be classified on Twitter using standard machine learning algorithms and natural language processing techniques. However, a more natural approach would be to look at pro-ED posts, as social media users often write about more than one topic in their posts. In recent years, new deep learning language models based on the Attention mechanism and Transformer architecture have been proposed. Although these attention-based models provide state-of-the-art results for a large number of natural language processing tasks, applying them to classify pro-ED posts is still untested. This Thesis focuses on the implementation and fine-tuning of several attention-based models originating from the renowned model Bidirectional Encoder Representations from Transformers (BERT) and how they can be applied to the task of classifying pro-ED posts from several social media platforms. In order to do so, three new pro-ED datasets were collected, processed, and annotated from the Twitter and Reddit platforms. A set of annotation criteria was constructed to label a post as either pro-ED, pro-recovery, or unrelated based on its content. The main dataset contribution is a manually annotated Twitter dataset consisting of 16 389 posts, while a test dataset of 376 manually annotated Reddit posts and a semi-automatically annotated Twitter dataset of 136 846 posts were also collected. These datasets were used in three experiments to investigate how the attention-based models performed on the task of classifying pro-ED posts. The models were tested and evaluated both individually and in several ensemble architectures. The results show that the attention-based models outperform standard machine learning algorithms on the task of classifying pro-ED posts in social medias. The best-performing systems were all based on a stacked ensemble architecture, achieving a weighted average macro F1-score of 0.939 when fine-tuned and tested on Twitter data and 0.816 when tested on Reddit data. Individually, BERTweet was the best model for classifying tweets, while ERNIE 2.0 proved the most robust model when evaluated on cross-platform tasks. These results show that attention-based models can be combined to create state-of-the-art systems for the automatic classification of pro-ED posts.
dc.languageeng
dc.publisherNTNU
dc.titleSesame Street Pays Attention to Pro-Eating Disorder
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel