Show simple item record

dc.contributor.advisorBours, Patrick
dc.contributor.advisorPleva, Matúš
dc.contributor.authorHeng, Marie Somnea
dc.date.accessioned2023-07-14T17:21:58Z
dc.date.available2023-07-14T17:21:58Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:139587122:98081431
dc.identifier.urihttps://hdl.handle.net/11250/3079079
dc.description.abstractVoksne som utgir seg for å være barn kan utgjøre en trussel mot barn ved å oppgi feil alder på kommunikasjonsplattformer for å henvende seg til barn på nettet. For dette emnet er det utført studier der man undersøker den menneskelige stemmen angående aldersklassifisering. I denne masteroppgaven ble en treningsmodellprototype brukt for å klassifisere stemmer i tre grupper: barn, voksen og overgangsalder. Inkluderingen av en overgangsaldersgruppe i klassifiseringen bidrar til å vurdere de ulike stadiene av individuell stemmeutvikling. Klassifikasjonsmodellprototypen ble trent opp ved hjelp av Samrómur-datasettet. Testingen ble utført ved å bruke et utvalg fra Common Voice-datasettet og datasettet "Children Speech Recording". Den tilgjengelige informasjonen inkluderte ikke detaljer om skillet mellom deres merkede verifiserte og ikke-verifiserte lydfiler. Derfor ble det laget to versjoner av Samrómur-datasettet for opplæring av modellen: en med kun verifiserte datasett og en annen med hele datasettet. Modellen trent med det verifiserte datasettet oppnådde en nøyaktighet på 95,23%, mens modellen trent med det komplette datasettet oppnådde en nøyaktighet på 90,68%. Begge viste tegn på en overmontert modell enten i tapskurven eller i modelltestingen med de andre datasettene. Å opprettholde en høy nøyaktighet er avgjørende for praktisk anvendelighet. En beregning viste at klassifisering av tre stykker med tre sekunders lyd, teoretisk sett gir en nøyaktighet på 99%. Derfor, basert på den trente modellen, kan personens stemme klassifiseres så tidlig som i syv sekunder. Denne beregningen tar i betraktning trimmemetoden, der hver påfølgende trim overlapper ett sekund med det forrige stykket.
dc.description.abstractAdults who pretend to be children can pose a threat to children by providing their wrong age on communication platforms to approach children online. Concerning this topic, studies have been conducted to investigate the human voice regarding age classification. In this master's thesis, a training model prototype was used to classify voices into three groups: child, adult, and transitional age group. The inclusion of a transitional age group in the classification helps to consider the diverse stages of individual voice development. The classification model prototype was trained using the Samrómur dataset. Testing was conducted using a sample from the Common Voice dataset and the "Children speech recording" dataset. The available information did not include details about the distinction between their labelled verified and non-verified audio files. Therefore, two versions of the Samrómur dataset were created for training the model: one with only verified datasets and another with the complete dataset. The model trained with the verified dataset achieved an accuracy of 95.23%, while the model trained with the complete dataset achieved an accuracy of 90.68%. Both showed signs of an overfitted model either in their loss curve or in the model testing with the other datasets. Maintaining a high accuracy is crucial for practical applicability. A calculation demonstrated that classifying three pieces of three-second audio theoretically results in a 99% accuracy. Therefore, based on the trained model, the speaker's voice can be classified as early as seven seconds. This calculation considers the trimming method, where each subsequent trim overlaps one second onto the previous piece.
dc.languageeng
dc.publisherNTNU
dc.titleEarly Soft Biometric Voice Recognition
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record