Composing Tricky Questions:
Finding False Answers Using Generative Trans- formers

Johannessen, Jonathan Sileshe

Johannessen, Jonathan Sileshe

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3107896

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6808]

Beskrivelse

Full text not available

Sammendrag

Denne masteroppgaven bidrar til feltet distraktorgenerering, spesielt i sammenheng med automatisering av opprettelsen av flervalgsoppgaven. Hovedfokuset var å utvikle et system som er i stand til å generere troverdige feil svar, eller "distraktorer". Studien ble utført i samarbeid med Kahoot!, en norsk spillbasert læringsplattform kjent for sine brukergenererte quizer.

Systemarkitekturen er basert på den autoregressive transformermodellen GPT-2, som både genererer og rangerer feil svar gjennom et paradigme for tekstgenerering, kalt Joint Generator Ranker Learning. Det ble skapt et nøye samensatt datasett bestående av 31,323 spørsmål, hvert med tre feil svar per spørsmål fra 10,000 Kahoots.

Denne modellen ble sammenlignet med to alternative modeller: GPT-4 og en modell hentet fra en tidligere masteroppgave. Gjennom tilbakemeldinger fra mennesker ble kvaliteten og relevansen til distraktorene generert av disse tre modellene vurdert. Selv om den foreslåtte systemets oppfattede kvalitet og relevans var lavere sammenlignet med de andre modellene, genererte den dobbelt så mange distraktorer sammenlignet med modellen fra det tidligere arbeidet.

Parameterstørrelse og endringer i datasettmønstre sin innvirkning på evaluerin- gen av genererte distraktorer ble også utforsket, ved bruk av MoverScore-metrikken, et verktøy for å vurdere semantisk likhet mellom to tekster. Funnene antyder at modeller med fler parametere gir høyere MoverScore-vurderinger. I tillegg ble det observert at eliminering av mønstre som overdrevene spørsmålstegn, understrekinger og andre symboler resulterte i høyere MoverScore-verdier for den store modellen. Imidlertid viste MoverScore for den mindre modellen både forbedringer og nedgang. Interessant nok ble det identifisert en sterk korrelasjon mellom MoverScore-metrikken og menneskelige tilbakemeldinger, noe som indikerer at MoverScore-metrikken er effektiv i vurderingen av kvaliteten på distraktorgenerasjon.

Oppsummert bidrar denne masteroppgaven til feltet distraktorgenerasjon ved å utvikle en ny systemarkitektur, skape et omfattende datasett, utføre sammenlignende evalueringer mellom modeller og undersøke innflytelsen av datasettmønstre på modellprestasjonen. I tillegg gjøres det en kritisk gjennomgang av MoverScore-metrikken.

This Master’s Thesis contributes to the field of Distractor Generation, specifically in the context of automating the creation of Multiple-Choice Questionnaires. The focus of the research was to develop a system capable of generating plausible incorrect answers, or "distractors". The study was conducted in collaboration with Kahoot!, a Norwegian game-based learning platform renowned for its user-generated quizzes.

The system architecture is premised on the autoregressive transformer model GPT-2, which serves dual roles as both a generator and ranker through a novel training framework, termed Joint Generator Ranker Learning. To facilitate system training, a curated dataset was assembled, consisting of 31,323 questions, each paired with three label distractors, compiled from 10,000 Kahoots.

Comparative evaluations were conducted with two alternative models: GPT-4 and a model derived from a previous Master’s Thesis. Human evaluators assessed the quality and relevance of the distractors generated by these three models. While the proposed system’s perceived quality and relevance were lower compared to the alternative models, it had the capability to generate double the number of distractors as compared to the model from the previous work.

The impact of parameter size and dataset patterns on the evaluation of gener- ated distractors were also explored, utilizing the MoverScore metric, a tool for assessing semantic similarity. The findings suggest that larger parameter sizes tend to produce models with higher MoverScore ratings. In addition, it was observed that the elimination of patterns such as excessive question marks, underscores, and other symbols resulted in higher MoverScore values for models with larger parameter sizes. However, the MoverScore for the smaller model exhibited a mixed response, showing both improvements and declines. Interestingly, a strong correlation was identified between the MoverScore metric and human evaluations, indicating the effectiveness of this metric in assessing the quality of distractor generation.

In conclusion, this Master’s Thesis contributes to the field of Distractor Genera- tion by developing a new system architecture, assembling a comprehensive dataset, performing comparative evaluations, and examining the influence of dataset patterns on model performance. Additionally, the research undertakes a critical review of the MoverScore metric. These findings collectively offer potential to enhance the quality of distractors in multiple-choice questions, thereby supporting the improvement of educational and assessment methodologies.

Utgiver

NTNU