Determining the age and gender of an individual based on text classification - Comparing two binary classifications with one 4-class classification

Kløvvik, Emiil

dc.contributor.advisor	Bours, Patrick
dc.contributor.advisor	Fauzi, Muhammad Ali
dc.contributor.author	Kløvvik, Emiil
dc.date.accessioned	2022-03-10T18:19:21Z
dc.date.available	2022-03-10T18:19:21Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:95563131:52817830
dc.identifier.uri	https://hdl.handle.net/11250/2984394
dc.description.abstract	Alder og kjønndeteksjon er en av verktøyene som kan brukes for å sørge for en form for sikkerhet i chatterom. Ved å finne riktig aldersgruppe på en bruker ved hjelp av teksten den har skrevet, kan denne studien beskytte unge barn, både fra å utgi seg som unge voksne på nettet, og fra overgripere som utgir seg for å være barn. Denne studien vil forsøke å forbedre deteksjon av alder og kjønn ved tekstklassifisering ved å finne forkjeller mellom å se på alder og kjønnklassifisering som to separate binære problemer, og et 4-klasse klassifiseringsproblem. Ved å bruke seks forskjellige algoritmer, tre forskjellige måter å hente attributter på, og implementering av to forskjellige måter å behandle resultatene, for både binær og 4-klasse-klassifisering, sørger studien for et solid grunnlag for sammenligning. Beregningene som er valgt til å brukes i sammenligningen er accuracy, precision, recall, databehandlingstid, i tillegg til F_0.5 og F_1 score. Fokuset vil ligge på precision og F_0.5 score, ettersom det er et potensiale for å bruke dette til å detektere overgripere, vil det være mer relevant å detektere voksne som utgir seg for å være barn. Dette er basert på at klassifiseringen for de binære metodene klassifiserer barn som 1 og voksne som 0. Resultatene fra 4-klasse-klassifisering blir også kombinert til to deler, en for alder og en for kjønn, slik at resultatene blir sammenlignbare. Mellomliggende resultater viser at hard voting har en større påvirkning på resultatene enn soft voting. Dette gjelder både for binær- og kombinert 4-klasse-klassifiseringer, men mest for 4-klasse-klassifiseringer. Resultatene viser at databehandlingstiden til 4-klasse-klassifisering er markant raskere enn for to binære klassifiseringer, ettersom de må kjøres to ganger. Forskjellene vedrørende de andre beregningene varierer mellom de forskjellige metodene, fra omtrent ingen forskjell til 60%, hvor de største forskjellene skjer ved de metodene som samlet har dårligst resultater, på kjønnklassifisering med hard voting. Forskjellene i gjennomsnittlig precision og F_0.5 score er 1.6% og 4% henholdsvis, til fordel for kombinert data 4-klasse-klassifisering. Ved å se på spesifikke brukere, og om klassifiseringen med binære og kombinert data 4-klasse-klassifisering er forskjellig, så klassifiserer sistnevnte 4.3% flere brukere korrekt. Forskjellene mellom de forskjellige methodene er ikke alltid signifikant, men fra et overordnet standpunkt klassifiserer kombinert data 4-klasse-klassifisering med bedre resultater i 70.8% av metodene brukt i denne studien, med tanke på precision og F_0.5scores. Dette tyder på at denne tilnærmelsen kan være et bedre valg med tanke på alder og kjønnsdeteksjon ved tekstklassifisering i for eksempel chatterom.
dc.description.abstract	Age and gender detection is one of the tools that can be used to provide a form of safety in chatrooms. By finding the correct age group of an author of a chat, or text, this study could protect young children, either from posing as young adults online themselves or from predators seeking them out, pretending to be children. This study seeks to improve the detection of age and gender through text classification by finding the differences between looking at age and gender classification as two separate binary problems, or as one 4-class classification problem. By running six different algorithms, three different feature extraction methods, and implementing soft and hard voting on the results, from both the binary classifications and 4-class classifications, it provides a solid basis for comparison. The metrics chosen as comparative numbers are accuracy, precision, recall, computing time, as well as F_0.5 and F_1 scores. The focus is on precision and the F_0.5 score because, given the potential application in detecting predators, it is more relevant to detect adults posing as children. This is given that the classifications for the binary methods are based on a child being class 1, and an adult being class 0. The results from the 4-class classification are also combined into two parts, one for age and one for gender, in order to have more comparable results. Intermediate results show that hard voting has a more substantial effect on the results than soft voting. It does so for both the binary and the 4-class combined data, but mostly for the 4-class classifications. The results show that the computing time for the 4-class classification is by far the faster choice, as the classification for the binary data must be run twice. The differences with regards to the other metrics vary between the different methods and range from negligible to 60%, where the highest differences occur for the worst performing methods overall, on gender classification and hard voting. The difference in average precision and F_0.5 score is 1.6% and 4% respectively, in favor of the 4-class combined data classification. Looking at specific authors, and if the classification differed between binary and 4-class combined classification, the latter classifies 4.3% more authors correctly. The difference between the different methods is not always significant, but from an overall standpoint, the 4-class combined data classifications perform better in 70.8% of the methods used in this study, with regards to precision and F_0.5 scores. This suggests that this approach could be the better choice in detecting age and gender through text classification in e.g., chatrooms.
dc.language	eng
dc.publisher	NTNU
dc.title	Determining the age and gender of an individual based on text classification - Comparing two binary classifications with one 4-class classification
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:95563131:52817 ...
Størrelse:: 9.597Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2527]

Vis enkel innførsel