Sandboxing Predators Using Open-Domain Conversational Models

Havstein, Kristian

dc.contributor.advisor	Bours, Patrick
dc.contributor.author	Havstein, Kristian
dc.date.accessioned	2024-03-01T18:19:31Z
dc.date.available	2024-03-01T18:19:31Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:155686277:31884961
dc.identifier.uri	https://hdl.handle.net/11250/3120732
dc.description	Full text not available
dc.description.abstract	Denne masteroppgaven undersøker om store språkmodeller kan benyttes for å forhindre samtaler som leder til overgrep på nettsteder med chattefunksjonalitet. Et datasett som inneholder overgrepssamtaler brukes til å finjustere en av de mest avanserte språkmodellene for chatting. Vi modifiserer ParlAI-rammeverket slik at det støtter dynamisk augmentering av minner fra eksisterende samtaletekst, før språkmodellen genererer offerimitasjoner fra et randomisert utvalg av samtaler fra datasettet. Ekte- og imitasjonssamtaler benyttes deretter i en spørreundersøkelse, hvor vi ber studiedeltakere om å oppdage språkmodellens imitasjoner. Vi måler modellens ytelse ved hjelp av målene for Imitasjonsraten og Imitasjonsforholdet. Resultatene viser at vår modell oppnår et gjennomsnittlig Imitasjonsforhold på $79.6\%$ i de første 16 turskiftene. Utviklingen på forskningsfeltet og den siste tidens økte tilgjengeliggjøring av svært avanserte, store, forhåndstrente språkmodeller kan indikere at fremtidig imitasjonsevnen vil forbedres signifikant. Pågående arbeid for å regulere kunstig intelligens internasjonalt kan ramme vår foreslåtte løsning for å bekjempe nettovergrep.
dc.description.abstract	This thesis examines the feasibility of utilizing Large Language Models to prevent predatory behavior in online chat platforms. We fine-tune a state-of-the-art open-domain chatbot model using a predatory conversation dataset and modify the ParlAI framework to dynamically create memory augmentations from predatory conversation contexts. We randomly select a set of predatory conversations from the dataset and generate victim imitations. These are used in a questionnaire where we ask study participants to detect imitations in genuine and victim imitation conversations. We measure performance using the Imitation Rate and Imitation Ratio. Results indicate that our custom model achieves a mean Imitation Ratio of $79.6\%$ in the first 16 conversation turns. Recent research developments and increased high-performance pretrained model availability suggest that future imitation performance will likely improve significantly. New international AI regulation efforts may, however, preclude our proposed solution to the online grooming problem.
dc.language	eng
dc.publisher	NTNU
dc.title	Sandboxing Predators Using Open-Domain Conversational Models
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2590]

Vis enkel innførsel