Reference Free Multidimensional Evaluation of Customer Service Conversations
Abstract
Siden lanseringen av ChatGPT den 30. november 2022, har det vært et sterkt fokus på å bruke store språkmodeller (LLMs) til å løse reelle problemer. Men i motsetning til tradisjonelle teknikker for språkproduksjon innen naturlig språkbehandling (NLP), er LLM-er ofte svarte bokser. De er også sensitive for små endringer i promptene sine og kan av og til generere feilaktige svar. Dette gjør ekstern evaluering av språkmodeller spesielt viktig. Mye av litteraturen om tekstevaluering benytter referansetekster og legger stor vekt på korrekthet, men tar mindre hensyn til andre viktige dimensjoner som er kritiske i praktiske anvendelser. I denne oppgaven bidrar vi med to ting. Først gjennomfører vi åpne, kvalitative intervjuer med kundeservicemedarbeidere fra to ledende norske selskaper for å identifisere viktige dimensjoner for tekstevaluering. Deretter trener vi et grafnettverk, ved hjelp av en ny pre-treningsmetode basert på speiling, for å evaluere tekst langs disse dimensjonene. Modellen vår viser en korrelasjon med menneskelige vurderinger, men det er usikkert om korrelasjonen skyldes speiling. Since the release of ChatGPT on November 30th, 2022, there has been a strong push to solve real-world problems using large language models (LLMs). However, unlike traditional natural language processing (NLP) techniques for language generation, LLMs are black boxes. In addition, they are sensitive to small changes in their prompt and can hallucinate. These factors combine to make external evaluation of language models especially important. Much of the literature on text evaluation uses reference text and focuses on correctness over equally important, less concrete dimensions critical to real-world use cases. In this thesis, two contributions are made. First, we conduct open-ended qualitative interviews with customer service representatives from two leading Norwegian companies and extract key dimensions for evaluating the text. Then, using a novel pre-training approach based on mirroring, we train a graph network to evaluate text along these dimensions. The model is shown to correlate with human evaluations, however, evidence is weak that the correlation is due to mirroring.