ML-powered tagging engine for journalism

Luick, Andine; Øvsthus, Vebjørn Hansen

dc.contributor.advisor	Morrison, Donn
dc.contributor.author	Luick, Andine
dc.contributor.author	Øvsthus, Vebjørn Hansen
dc.date.accessioned	2020-08-16T16:02:15Z
dc.date.available	2020-08-16T16:02:15Z
dc.date.issued	2020
dc.identifier.uri	https://hdl.handle.net/11250/2672181
dc.description.abstract	Denne oppgaven har som mål å finne ut av potensialet for bruk av maskinlæring til å automatisere tagging av artikler for journalister. Prosjektet består av en kombinasjon av forskning, utvikling av to maskinlæringsmodeller og utrulling. Det ble bestemt at det skal lages en klassifiseringsmodell som bruker spaCy for å foreslå emnekategorier på artiklene, og en LDA modell for å foreslå nøkkelord for artiklene, samt foreslå artikler som omhandler samme tema. Prosessen ble delt opp i flere deler; utvikling av modellene, deployment, utvikling av en web app og dokumentasjon, der utvikling av modellene har hatt høyest prioritet. For å minimere effekten av manglende kompetanse og lange utviklingstider ble det benyttet teknologier som spaCy og LDA, som ble gitt i oppgavebeskrivelsen. Resultatene til modellene indikerte at maskinlæring kan være et veldig godt verktøy for både å bestemme emnekategori og foreslå nøkkelord. I de områdene resultatene ikke var helt tilstrekkelige, antas det at årsaken var at datasettet ikke var godt nok balansert. Videre ble det observert at LDA er en god metode for å finne artikler som ligner, men ikke nødvendigvis så like at de tilhører samme emnekategori. Konklusjonen er at maskinlæring kan være et godt verktøy for automatisering av tagging av artikler, og at det i framtiden kan være til stor hjelp for journalister. Det anbefales å samle større og mer balanserte data før en eventuelt fortsettelse av dette prosjektet.
dc.description.abstract	This thesis aims to find out the potential of using machine learning to automate article tagging in journalism. The project consists of a combination of research, development of two machine learning models and deployment. It was decided that a classification model would be created using spaCy to propose subject categories for the articles, and an LDA model to propose keywords for the articles, as well as suggesting similar articles. Since practicality was a notable focus of this project, technologies reflecting this were chosen to minimize the impact of lacking expertise and lengthy development times. Along with tools in-house professional can apply for efficiently generate data for increasingly performant models. Applying existing data and metadata created by an in-house team at Adresseavisen or generated by their CXENSE solution to model creation produced quite adequate results. Model performance was good, but not great. Due to over- or under-representation of some data groups and, in general, poor data reliability. For using these models in real world applications they're exposed through network requests for consumption. The conclusion is that machine learning can be an excellent tool for automating the tagging of articles, and that in the future it can be of great help to journalists. It is recommended to proceed with gathering larger and more balanced data.	en
dc.publisher	NTNU
dc.title	ML-powered tagging engine for journalism
dc.type	Bachelor thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6560]

Vis enkel innførsel