Measuring Summary Quality using Weak Supervision

Olsen, Joakim

dc.contributor.advisor	Næss, Arild Brandrud
dc.contributor.advisor	Eidsvik, Jo
dc.contributor.author	Olsen, Joakim
dc.date.accessioned	2021-09-15T17:28:33Z
dc.date.available	2021-09-15T17:28:33Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:67702077:26415644
dc.identifier.uri	https://hdl.handle.net/11250/2778385
dc.description.abstract	I dette arbeidet analyserer vi tilstandsrapportar for bustad, og deira samandrag. Studiar har antyda at mange kjøparar av bustad ikkje tek seg tid til å lese heile tilstandsrapportar, og berre les samandrag i staden. Dette er problematisk dersom vi tek i betraktning følgjande to fakta: For det første er vi klar over at nokre samandrag ikkje er særleg gode, og for det andre endar så mange som 10 % av bustadsal i konflikt. Vi veit ikkje heilt kor mange samandrag som faktisk har lav kvalitet, men sidan konfliktnivået er så høgt, så ynskjer vi å undersøke omfanget av dette problemet. Målet med denne oppgåva er derfor å utforske metodar for å automatisk måle kvaliteten til samandrag på ein objektiv måte, ved å bruke matematiske og statistiske metodar, samt maskinlæringsmetodar. Målet er vidare å undersøkje den generelle kvaliteten på samandrag, for å avgjere om dårleg kvalitet kan vere ei kjelde til konflikt. Vi utfører vår analyse på eit datasett med 96 534 tilstandsrapportar for bustad. Vi ynskjer å bruke overvaka læring (eng: supervised learning), men datasettet vårt manglar ein "fasit" (informasjon om kvaliteten på ulike samandrag). For å handtere denne utfordringa tek vi i bruk weak supervision. Dermed lagar vi først ein modell for å lage fasit ved hjelp av weak supervision-systemet Snorkel. Frå denne modellen får vi ut eit datasett med fasit for 81 195 tilstandsrapportar. Vi foreslår og implementerer så ulike overvaka modellarkitekturar for å måle kvaliteten på samandrag. Nærare bestemt undersøkjer vi ei tilnærming der vi avbilder teksten i rapportar og samandrag til eit vektorrom for samandragsinnhald. I dette vektorrommet burde vektoriserte rapportar og samandrag berre innehalde nøkkelinformasjon som er relevant for å måle kvalitet. Dermed kan kvaliteten målast som cosinus-likskapen mellom den vektoriserte rapporten og samandraget. Vi lager slike modeller ved å bruke vektoriseringsmetodane LSA, Word2vec og Doc2vec i kombinasjon med djup læringsarkitekturar som feed-forward nevrale nettverk, LSTM og CNN. Desse modellane blir så trena på fasit-datasettet. Fasiten er formulert som binære kvalitetssignal, men vi ynskjer at modellane våre skal returnere ein kontinuerleg kvalitets-verdi. For å oppnå dette konstruerer vi eit passande treningsmål, der vi tek i bruk ein tapsfunksjon som baserer seg på cosinus-likskap, nemleg cosine embedding loss. Prestasjonen til dei ulike modellane blir deretter vurdert på fasiten vi har fått frå weak supervision. Sidan denne fasitan består av binære kvalitetssignal, rapporterer vi resultata i form av klassifiseringsscorar. I tillegg undersøkjer vi fordelinga av kvalitetsmål frå dei ulike modellane for å finne ut om dei oppfører seg slik vi ynskjer. Generelt så observerer vi ei betydeleg auke i prestasjonen for modellane som er trena på fasit-datasettet, når vi samanliknar med uovervaka metodar. Nærare bestemt observerer vi ei maksimal treffsikkerheit på 89,5 % for CNN-baserte modellar, medan den beste uovervaka modellen får ei treffsikkerheit på 72,6 %. Ved å vidare undersøkje fordelinga av kvalitetsmål for dei ulike modellane, observerer vi at modellane basert på lineære feed-forward nevrale nettverk og CNN får dei eigenskapane vi ynskjer at kvalitetsmodellar skal ha. Til slutt bruker vi modellane vi har laga til å måle den generelle kvaliteten på samandrag for det fullstendige datasettet med 96 534 tilstandsrapportar. Resultata indikerer at omtrent 30 % av tilstandsrapportane har eit dårleg samandrag. Tatt i betraktning at mange berre les samandraga, kan vi konkludere med at den store mengda dårlege samandrag sannsynlegvis er ei kjelde til konflikt ved kjøp av bustad.
dc.description.abstract	In this work, we analyse real estate condition reports and their corresponding summaries. Studies have suggested that many real estate buyers do not bother to read the full reports, and only read the summaries instead. This is problematic considering the following two facts: Firstly, we are aware that some of the summaries are not very good, and secondly, as many as 10% of real estate transactions end in conflict. We do not know how many low-quality summaries there are, but since the conflict rate is so high, we wish to investigate the extent of this problem. Hence, the objective of this work is to explore ways to automatically measure summary quality in an objective way, by using mathematical, statistical and machine learning methods. The objective is further to investigate the general summary quality for real estate condition reports, to determine whether poor summary quality can be a source of conflict. We perform our analysis on a dataset of 96 534 real estate condition reports. We would like to make use of supervised learning methods, but the dataset is unlabelled. To remedy this challenge, weak supervision is employed. Thus, we first make a label model by using the weak supervision system Snorkel. From this label model, a labelled dataset of 81 195 real estate condition reports is obtained. We then propose and implement various supervised model architectures for measuring summary quality. In particular, we investigate an approach where we map textual reports and summaries to a conceptual summary content space. In this vector space, the embedded reports and summaries should contain only key parts of the full, semantic content, such that summary quality can be measured by the cosine similarity between the embedded report and summary. We create such models by using the embedding techniques LSA, Word2vec and Doc2vec in combination with deep learning architectures like Feed-Forward Neural Networks, LSTM and CNN. Our models are then trained on the previously obtained weak supervision labels. These labels are formulated as binary signals of quality, but we want our summary quality models to return a continuous quality score. To obtain this property, we construct an appropriate training objective, where we use a variation of the cosine embedding loss function. Model performances are then evaluated on the weak supervision labels. Since the labels are binary signals of quality, we report the results by classification scores. In addition, we investigate the distribution of quality measures from the various models to investigate if they behave as requested. In general, we observe a substantial performance increase for all our weakly supervised models, compared to using unsupervised methods. In particular, we obtain a maximum accuracy of 89.5% for CNN-based models, compared to 72.6% for the best unsupervised model. Furthermore, by inspecting the distribution of quality measures, we find that models based on linear Feed-Forward Neural Networks and CNNs obtain the properties we request for a summary quality model. Finally, we use the obtained models to measure the general summary quality in our complete dataset of 96 534 real estate condition reports. The results indicate that approximately 30% of the reports have a bad summary. Considering the fact that many only read the summaries, we therefore conclude that the high amount of bad summaries is likely a source of conflict in real estate transactions.
dc.language	eng
dc.publisher	NTNU
dc.title	Measuring Summary Quality using Weak Supervision
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:67702077:26415 ...
Size:: 7.817Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for matematiske fag [2359]

Show simple item record