Sandboxing Predators Using Open-Domain Conversational Models
Description
Full text not available
Abstract
Denne masteroppgaven undersøker om store språkmodeller kan benyttes for å forhindre samtaler som leder til overgrep på nettsteder med chattefunksjonalitet. Et datasett som inneholder overgrepssamtaler brukes til å finjustere en av de mest avanserte språkmodellene for chatting. Vi modifiserer ParlAI-rammeverket slik at det støtter dynamisk augmentering av minner fra eksisterende samtaletekst, før språkmodellen genererer offerimitasjoner fra et randomisert utvalg av samtaler fra datasettet. Ekte- og imitasjonssamtaler benyttes deretter i en spørreundersøkelse, hvor vi ber studiedeltakere om å oppdage språkmodellens imitasjoner. Vi måler modellens ytelse ved hjelp av målene for Imitasjonsraten og Imitasjonsforholdet. Resultatene viser at vår modell oppnår et gjennomsnittlig Imitasjonsforhold på $79.6\%$ i de første 16 turskiftene. Utviklingen på forskningsfeltet og den siste tidens økte tilgjengeliggjøring av svært avanserte, store, forhåndstrente språkmodeller kan indikere at fremtidig imitasjonsevnen vil forbedres signifikant. Pågående arbeid for å regulere kunstig intelligens internasjonalt kan ramme vår foreslåtte løsning for å bekjempe nettovergrep. This thesis examines the feasibility of utilizing Large Language Models to prevent predatory behavior in online chat platforms. We fine-tune a state-of-the-art open-domain chatbot model using a predatory conversation dataset and modify the ParlAI framework to dynamically create memory augmentations from predatory conversation contexts. We randomly select a set of predatory conversations from the dataset and generate victim imitations. These are used in a questionnaire where we ask study participants to detect imitations in genuine and victim imitation conversations. We measure performance using the Imitation Rate and Imitation Ratio. Results indicate that our custom model achieves a mean Imitation Ratio of $79.6\%$ in the first 16 conversation turns. Recent research developments and increased high-performance pretrained model availability suggest that future imitation performance will likely improve significantly. New international AI regulation efforts may, however, preclude our proposed solution to the online grooming problem.