Vis enkel innførsel

dc.contributor.advisorEidheim, Ole Christian
dc.contributor.authorSivesind, Nicolai Thorer
dc.contributor.authorWinje, Andreas Bentzen
dc.date.accessioned2023-07-11T17:30:32Z
dc.date.available2023-07-11T17:30:32Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:146721987:149459147
dc.identifier.urihttps://hdl.handle.net/11250/3078096
dc.description.abstractIntroduksjonen av store generative språkmodeller har nylig ført til store endringer i samfunnet. Innen for akademia, blir det gitt uttrykk for bekymringer knyttet til deres potensial for misbruk i akademiske kontekster dermed også trusselen de utgjør mot akademisk integritet. I denne bacheloroppgaven utforsker vi det voksende behovet for det å kunne oppdage maskingenerert tekst i akademia. Vi vektlegger tre underproblemer i hovedproblemstillingen: produksjon av et egnet datasett for trening og evaluering av deteksjonsmodeller, utvikling av to distinkte metoder for å oppdage maskinprodusert tekst i akademisk arbeid og til slutt en diskusjon om de sosiale og etiske aspektene ved å bruke deteksjonsverktøy i akademia. Denne oppgaven viser hvordan et egnet datasett kan produseres ved å bruke menneskeproduserte sammendrag fra forskningsartikler og få GPT-3.5, modellen som brukes i ChatGPT, til å produsere maskingenererte dobbeltgjengere av de menneskeproduserte sammendragene. For å oppdage maskinprodusert tekst i akademia foreslår vi to distinkte metoder, in-context learning og fine-tuned binary sequence classification, som tidligere ikke er dokumentert i anvendelse for problemstillingen. Våre in-context learning metoder viser svake resulter, noe som indikerer at problemet for øyeblikket er for komplekst for nåværende open-source språkmodeller. I motsetning til dette, demonstrerer fine-tuned binary sequence classification metodene våre gode resultater. Våre beste modeller oppnår en nøyaktighet over 98% på in-domain data generert av ChatGPT. Selv om disse resultatene er lovende, viser tester fra out-domain data, som kryss-arkitektur og kryss-korpus data, langt svakere resultater, noe som innebærer at det trengs mer forskning på dette feltet, men som samtidig understreker viktigheten av å trene modeller på in-domain dataset. Oppgaven avsluttes med en diskusjon av de sosiale og etiske aspektene ved bruk av store språkmodeller i akademia. Det er viktig at en diskusjon om hvordan vi tilpasser oss endringene språkmodeller påfører samfunnet, er basert på bakgrunn av metodisk evaluering av de potensielle deteksjonsverktøyene, og de sosiale og etiske implikasjonene av deres utbredte anvendelse. Det er gjennom åpenhet fra begge sider av problemstillingen at vi kan dra nytte av fordelene store språkmodeller tilbyr, samtidig som vi opprettholder standardene våres for akademisk integritet.
dc.description.abstractFollowing the introduction of generative large language models in society, concerns have been raised regarding their potential for misuse in academia, and the threat they pose to the standards of academic integrity. In this thesis, we explore the emergent problem domain of detecting machine-generated text in academia. We focus our efforts on three sub-problems of the problem domain: producing suitable data for training and evaluation detection models, the development of two distinct approaches for detecting machine-generated text in academic work using large language models, and finally, a discussion of the social and ethical aspects of applying such detection tools in academia. We produce the dataset using human-produced research abstracts and prompt GPT-3.5, the model used in ChatGPT, to produce machine-generated counterparts. For detecting machine-generated text in academia, we propose two distinct approaches, in-context learning and fine-tuned binary sequence classification which both are novel in scope of the problem domain. Our in-context learning approaches display poor performance indicating that the problem currently is too complex for application using current open-access models. In contrast, our fine-tuned binary sequence classification approaches perform well. The best models achieve an accuracy above 98% on in-domain data generated by ChatGPT. Although these results are promising, testing on out-domain data, such as cross-architecture and cross-corpus data, displays weaker performances, entailing further research to be done in this field. The thesis is concluded with a discussion of the social and ethical aspects of applying large language models in academia. It is important that a discussion of how we adjust to the disruptions of generative large language models is based on a scientific foundation led by performance evaluations of proposed detection tools, and the social and ethical implications of their widespread application. It's through transparency from both sides of the problem that we can reap the benefits of large language models while maintaining academic integrity.
dc.languageeng
dc.publisherNTNU
dc.titleTurning Poachers into Gamekeepers: Detecting Machine-Generated Text in Academia Using Large Language Models
dc.typeBachelor thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel