En analyse av store språkmodellers utførelse av statistikkoppgaver ved hjelp av generaliserte lineære blandede modeller
Abstract
Denne masteroppgaven har som mål å undersøke hvilke faktorer som øker sjansen for at to KI-tjenester (gratisversjonene av ChatGPT og Perplexity) svarer riktig på statistikkoppgaver. Oppgavene er hentet fra det elektroniske øvingsopplegget i NTNU-faget ISTT1001 Statistikk, og det har blitt konstruert et datasett basert på oppgaveinformasjon og samtaletype med språkmodellene. Binære generaliserte lineære blandede modeller (GLMM-er) har blitt tilpasset dette datasettet, med mål om å ta høyde for korrelasjon mellom målingene. En teorigjennomgang av estimering og tolkning av GLMM-er gitt, samt en kort gjennomgang av modellstrukturen til språkmodeller. De fikserte, estimerte parameterverdiene gir at ChatGPT jevnt over har større sjanser for å svare riktig enn det Perplexity har. Videre gir instruksjon om å generere pythonkode en økning i sannsynlighet for riktig svar for begge språkmodellene, dog mest for ChatGPT. Flervalgsoppgaver og regneoppgaver med tabeller håndteres bra av språkmodellene, mens figur-oppgaver og behandling av datasett håndteres dårlig. Vanskelighetsgrad har en negativ effekt på sannsynligheten for å få rett svar, dog mindre enn antatt på forhånd. De estimerte parameterverdiene som gir grunnlag for resultatene over, må tas med noe forbehold på grunn av den tilfeldige effekten. Den mest hensiktsmessige klyngestrukturen for GLMM-ene er etter oppgavenummer, og det estimerte standardavviket var større enn mange av de fikserte parameterne. Dette resulterer i svært varierende estimerte sannsynligheter for å få rett svar i oppgaver med like fikserte effekter. This thesis investigates which factors increase the probability of two AI-services (the free versions of ChatGPT and Perplexity) answering correctly when given statistical tasks. The tasks were retrieved from the electronic exercise set from the course ISTT1001 Statistics at NTNU, and a dataset has been constructed based on the task information and conversational methods employed with the models. Binary generalized linear mixed models (GLMMs) have been fit this dataset, in the hopes of taking account of correlation between samples from the same cluster. A theoretical description of the estimation and interpretation of a GLMM is given, along with a short description of the model structure of language models.The estimated fixed effects imply that ChatGPT has a higher chance of answering correctly on the tasks than Perplexity. Furthermore, instructing the language models to generate Python-code to answer the tasks increases the probability of a correct answer for both models, though the increase is most prominent for ChatGPT. The models handle multiple choice questions and calculations based on tables well, but questions requiring interpretation of figures and datasets are handled poorly. The difficulty of the task has a negative effect on the probability of a correct answer, though the effect is smaller than anticipated.The estimated parameter values that support the results given above must be used with caution, because of the random effect. The structuring of the clusters that best fits the data is by task number, and the estimated standard deviation is larger than many of the fixed parameters. This results in a highly varying estimated probability of correct answers for tasks with equal fixed effects.