Early gender detection using keystroke dynamics and stylometry

Strømme, Reidar Johannessen

dc.contributor.advisor	Bours, Patrick
dc.contributor.author	Strømme, Reidar Johannessen
dc.date.accessioned	2021-09-23T19:14:27Z
dc.date.available	2021-09-23T19:14:27Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:77286691:22080121
dc.identifier.uri	https://hdl.handle.net/11250/2781208
dc.description.abstract	For mange mennesker har Internett blitt en viktig arena for å stifte nye bekjentskap. Dette innebærer ofte at man befinner seg i chatsamtaler der man ikke har noen garantier på at motparten er den som vedkommende utgir seg for å være. Kjønn er et eksempel på noe en samtalepartner kan oppgi falsk informasjon om. Tidligere forskning har oppnådd gode resultater på å oppdage det sanne kjønnet til en chatsamtalepartner basert på hele samtaler. I dette prosjektet forsøker vi å finne ut om det er mulig å oppnå dette på et tidligere tidspunkt i samtalen ved å trene opp ulike maskinlæringsmodeller med data basert på tastefrekvens og stilometri. Vi oppnådde lovende resultater og fant klare tegn på det skal være mulig å oppdage kjønnet til en chatsamtalepartner tidlig i samtalen, uten store tap av treffsikkerhet. Basert på hele samtaler, hvor gjennomsnittlig lengde var 28 sendte meldinger per deltaker, oppnådde vi en treffsikkerhet på opptil 80%. Ved halverte samtalelengder (14 meldinger) oppsto det ingen tap av treffsikkerhet. Ved å redusere antall meldinger til 5 (omtrent 18% av hele samtalelengder) var tapet av treffsikkerhet fortsatt <5 prosentpoeng.
dc.description.abstract	For many people, the Internet has become an important arena for meeting new people. In chat conversation with strangers, one does however not have any guarantees that the conversation partner is the one he/she claims to be. Gender is one example of something a conversation partner can provide false information about. Earlier research has achieved good results regarding gender detection based on complete conversations. In this project we explored the possibilities of detecting the gender earlier in the conversation by using machine learning models trained with keystroke dynamics and stylometry features. We achieved promising results and found clear indications that early gender detection should be possible, without much accuracy loss. Based on complete chat conversations, where the average length is 28 written messages from each participant, we were able to achieve an accuracy of 80%. We experienced no accuracy loss when basing the classification on half conversations (14 messages). When basing the classification on only 5 messages (approximately 18% of the length of complete conversations), the accuracy loss was still <5 percentage points.
dc.language	eng
dc.publisher	NTNU
dc.title	Early gender detection using keystroke dynamics and stylometry
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:77286691:22080 ...
Størrelse:: 15.45Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2522]

Vis enkel innførsel