Using Author Profiling to Determine the Age Group of an Author
Abstract
Denne masteroppgaven utforsker hvordan fastslå aldersgruppen til en forfatter. I hovedsak om forfatteren er et barn, som vil si under 18 år, eller voksen, 25 år og oppover. Videre er målet å undersøke hvilke tekstlige trekk som best korrelerer med alderen til en forfatter, over flere genrer. Til slutt, vil vi utforske om det vil være tilstrekkelig å kun bruke en felles modell for å predikere alderen over flere domener, eller om hver enkelt genre trenger en individuell modell. For å få svar på disse spørsmålene, har datasett fra tidligere forsking innenfor feltet forfatterprofilering, blitt samlet inn. Disse datasettene inneholder bloggdata, sosial mediatekster og Twitterdata. Videre har flere eksperimenter blitt utført på disse datasettene, der vi brukte maskinlærings algoritmer ofte brukt til klassifisering, samt ofte brukte språkgjenkjennelsesmetoder. Eksperimentene som ble utført ble gjort på individuelle datasett, i tillegg til kombinerte datasett.
Resultatene viser at det er mulig å fastslå aldersgruppen til forfattere basert på hvordan de skriver, med relativ høy treffsikkerhet. Videre viser også resultatene fra eksperimentene at lineær kernel SVM (Support Vector Machine) produserte de beste resultatene, med tanke på treffsikkerhet, presisjon og recall score, og den kombinerte $F_1$ verdien. Det erflere tekstlige trekk som ernyttige til å skille tekstene fra de forskjellige aldersgruppene og genere fra hverandre. Noen av disse er TF-IDF (Term Frequency - Inverse Document Frequency), LIWC (Linguistic Inquiry and Word Count), n-grams, PoS (Part of Speech) tagging og frekvensen stilistiske språklige trekk. Til slutt, viser resultatene at modellene som er trent på kombinerte sett med genre, gjorde det betraktelig dårligere enn modeller som bare var trent på individuelle domener. This thesis investigates how to determine the age group of an author, mainly if the author is a child, below the age of 18, or an adult, above the age of 25. Furthermore, the goal is to explore which textual features across different genres best correlate with the age of an author. Lastly, we want to investigate if a single model would be sufficient to predict age across various genres, or if the different domains need an individual model. To answer these questions, several data sets, previously used in author profiling research, have been collected. The data sets gathered contain blog texts, social media data and Twitter data. Furthermore, numerous experiments are implemented using commonly used machine learning classification algorithms and language recognition methods. The experiments are performed on individual genre data sets, as well as combined domains.
The results showed that it is possible to determine the age group of authors with relative accuracy, based on how they write. Results also reveal that the linear kernel SVM (Support Vector Machine) produces the best results throughout the experiments, in regards to overall prediction accuracy, precision and recall score, and the combined $F_1$ measure. Moreover, some of the textual features that are effective in distinguishing text written by the different age groups across the genres are TF-IDF (Term Frequency - Inverse Document Frequency), LIWC (Linguistic Inquiry and Word Count), n-grams, PoS (Part of Speech) tagging and stylistic language frequencies. Additionally, the results show that the models that are trained on a combined set of genres underperformed compared to models that trained only on a single domain.