Turning Poachers into Gamekeepers: Detecting Machine-Generated Text in Academia Using Large Language Models

Sivesind, Nicolai Thorer; Winje, Andreas Bentzen

dc.contributor.advisor	Eidheim, Ole Christian
dc.contributor.author	Sivesind, Nicolai Thorer
dc.contributor.author	Winje, Andreas Bentzen
dc.date.accessioned	2023-07-11T17:30:32Z
dc.date.available	2023-07-11T17:30:32Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:146721987:149459147
dc.identifier.uri	https://hdl.handle.net/11250/3078096
dc.description.abstract	Introduksjonen av store generative språkmodeller har nylig ført til store endringer i samfunnet. Innen for akademia, blir det gitt uttrykk for bekymringer knyttet til deres potensial for misbruk i akademiske kontekster dermed også trusselen de utgjør mot akademisk integritet. I denne bacheloroppgaven utforsker vi det voksende behovet for det å kunne oppdage maskingenerert tekst i akademia. Vi vektlegger tre underproblemer i hovedproblemstillingen: produksjon av et egnet datasett for trening og evaluering av deteksjonsmodeller, utvikling av to distinkte metoder for å oppdage maskinprodusert tekst i akademisk arbeid og til slutt en diskusjon om de sosiale og etiske aspektene ved å bruke deteksjonsverktøy i akademia. Denne oppgaven viser hvordan et egnet datasett kan produseres ved å bruke menneskeproduserte sammendrag fra forskningsartikler og få GPT-3.5, modellen som brukes i ChatGPT, til å produsere maskingenererte dobbeltgjengere av de menneskeproduserte sammendragene. For å oppdage maskinprodusert tekst i akademia foreslår vi to distinkte metoder, in-context learning og fine-tuned binary sequence classification, som tidligere ikke er dokumentert i anvendelse for problemstillingen. Våre in-context learning metoder viser svake resulter, noe som indikerer at problemet for øyeblikket er for komplekst for nåværende open-source språkmodeller. I motsetning til dette, demonstrerer fine-tuned binary sequence classification metodene våre gode resultater. Våre beste modeller oppnår en nøyaktighet over 98% på in-domain data generert av ChatGPT. Selv om disse resultatene er lovende, viser tester fra out-domain data, som kryss-arkitektur og kryss-korpus data, langt svakere resultater, noe som innebærer at det trengs mer forskning på dette feltet, men som samtidig understreker viktigheten av å trene modeller på in-domain dataset. Oppgaven avsluttes med en diskusjon av de sosiale og etiske aspektene ved bruk av store språkmodeller i akademia. Det er viktig at en diskusjon om hvordan vi tilpasser oss endringene språkmodeller påfører samfunnet, er basert på bakgrunn av metodisk evaluering av de potensielle deteksjonsverktøyene, og de sosiale og etiske implikasjonene av deres utbredte anvendelse. Det er gjennom åpenhet fra begge sider av problemstillingen at vi kan dra nytte av fordelene store språkmodeller tilbyr, samtidig som vi opprettholder standardene våres for akademisk integritet.
dc.description.abstract	Following the introduction of generative large language models in society, concerns have been raised regarding their potential for misuse in academia, and the threat they pose to the standards of academic integrity. In this thesis, we explore the emergent problem domain of detecting machine-generated text in academia. We focus our efforts on three sub-problems of the problem domain: producing suitable data for training and evaluation detection models, the development of two distinct approaches for detecting machine-generated text in academic work using large language models, and finally, a discussion of the social and ethical aspects of applying such detection tools in academia. We produce the dataset using human-produced research abstracts and prompt GPT-3.5, the model used in ChatGPT, to produce machine-generated counterparts. For detecting machine-generated text in academia, we propose two distinct approaches, in-context learning and fine-tuned binary sequence classification which both are novel in scope of the problem domain. Our in-context learning approaches display poor performance indicating that the problem currently is too complex for application using current open-access models. In contrast, our fine-tuned binary sequence classification approaches perform well. The best models achieve an accuracy above 98% on in-domain data generated by ChatGPT. Although these results are promising, testing on out-domain data, such as cross-architecture and cross-corpus data, displays weaker performances, entailing further research to be done in this field. The thesis is concluded with a discussion of the social and ethical aspects of applying large language models in academia. It is important that a discussion of how we adjust to the disruptions of generative large language models is based on a scientific foundation led by performance evaluations of proposed detection tools, and the social and ethical implications of their widespread application. It's through transparency from both sides of the problem that we can reap the benefits of large language models while maintaining academic integrity.
dc.language	eng
dc.publisher	NTNU
dc.title	Turning Poachers into Gamekeepers: Detecting Machine-Generated Text in Academia Using Large Language Models
dc.type	Bachelor thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:146721987:1494 ...
Størrelse:: 8.477Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:146721987:1494 ...
Størrelse:: 800.7Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6766]

Vis enkel innførsel