Early gender detection using keystroke dynamics and stylometry
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2781208Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
For mange mennesker har Internett blitt en viktig arena for å stifte nye bekjentskap. Dette innebærer ofte at man befinner seg i chatsamtaler der man ikke har noen garantier på at motparten er den som vedkommende utgir seg for å være. Kjønn er et eksempel på noe en samtalepartner kan oppgi falsk informasjon om. Tidligere forskning har oppnådd gode resultater på å oppdage det sanne kjønnet til en chatsamtalepartner basert på hele samtaler. I dette prosjektet forsøker vi å finne ut om det er mulig å oppnå dette på et tidligere tidspunkt i samtalen ved å trene opp ulike maskinlæringsmodeller med data basert på tastefrekvens og stilometri.
Vi oppnådde lovende resultater og fant klare tegn på det skal være mulig å oppdage kjønnet til en chatsamtalepartner tidlig i samtalen, uten store tap av treffsikkerhet. Basert på hele samtaler, hvor gjennomsnittlig lengde var 28 sendte meldinger per deltaker, oppnådde vi en treffsikkerhet på opptil 80%. Ved halverte samtalelengder (14 meldinger) oppsto det ingen tap av treffsikkerhet. Ved å redusere antall meldinger til 5 (omtrent 18% av hele samtalelengder) var tapet av treffsikkerhet fortsatt <5 prosentpoeng. For many people, the Internet has become an important arena for meeting new people. In chat conversation with strangers, one does however not have any guarantees that the conversation partner is the one he/she claims to be. Gender is one example of something a conversation partner can provide false information about. Earlier research has achieved good results regarding gender detection based on complete conversations. In this project we explored the possibilities of detecting the gender earlier in the conversation by using machine learning models trained with keystroke dynamics and stylometry features.
We achieved promising results and found clear indications that early gender detection should be possible, without much accuracy loss. Based on complete chat conversations, where the average length is 28 written messages from each participant, we were able to achieve an accuracy of 80%. We experienced no accuracy loss when basing the classification on half conversations (14 messages). When basing the classification on only 5 messages (approximately 18% of the length of complete conversations), the accuracy loss was still <5 percentage points.