Show simple item record

dc.contributor.advisorBours, Patrick
dc.contributor.authorHavstein, Kristian
dc.date.accessioned2024-03-01T18:19:31Z
dc.date.available2024-03-01T18:19:31Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:155686277:31884961
dc.identifier.urihttps://hdl.handle.net/11250/3120732
dc.descriptionFull text not available
dc.description.abstractDenne masteroppgaven undersøker om store språkmodeller kan benyttes for å forhindre samtaler som leder til overgrep på nettsteder med chattefunksjonalitet. Et datasett som inneholder overgrepssamtaler brukes til å finjustere en av de mest avanserte språkmodellene for chatting. Vi modifiserer ParlAI-rammeverket slik at det støtter dynamisk augmentering av minner fra eksisterende samtaletekst, før språkmodellen genererer offerimitasjoner fra et randomisert utvalg av samtaler fra datasettet. Ekte- og imitasjonssamtaler benyttes deretter i en spørreundersøkelse, hvor vi ber studiedeltakere om å oppdage språkmodellens imitasjoner. Vi måler modellens ytelse ved hjelp av målene for Imitasjonsraten og Imitasjonsforholdet. Resultatene viser at vår modell oppnår et gjennomsnittlig Imitasjonsforhold på $79.6\%$ i de første 16 turskiftene. Utviklingen på forskningsfeltet og den siste tidens økte tilgjengeliggjøring av svært avanserte, store, forhåndstrente språkmodeller kan indikere at fremtidig imitasjonsevnen vil forbedres signifikant. Pågående arbeid for å regulere kunstig intelligens internasjonalt kan ramme vår foreslåtte løsning for å bekjempe nettovergrep.
dc.description.abstractThis thesis examines the feasibility of utilizing Large Language Models to prevent predatory behavior in online chat platforms. We fine-tune a state-of-the-art open-domain chatbot model using a predatory conversation dataset and modify the ParlAI framework to dynamically create memory augmentations from predatory conversation contexts. We randomly select a set of predatory conversations from the dataset and generate victim imitations. These are used in a questionnaire where we ask study participants to detect imitations in genuine and victim imitation conversations. We measure performance using the Imitation Rate and Imitation Ratio. Results indicate that our custom model achieves a mean Imitation Ratio of $79.6\%$ in the first 16 conversation turns. Recent research developments and increased high-performance pretrained model availability suggest that future imitation performance will likely improve significantly. New international AI regulation efforts may, however, preclude our proposed solution to the online grooming problem.
dc.languageeng
dc.publisherNTNU
dc.titleSandboxing Predators Using Open-Domain Conversational Models
dc.typeMaster thesis


Files in this item

FilesSizeFormatView

This item appears in the following Collection(s)

Show simple item record