ML-powered tagging engine for journalism
Abstract
Denne oppgaven har som mål å finne ut av potensialet for bruk av maskinlæring til å automatisere tagging av artikler for journalister. Prosjektet består av en kombinasjon av forskning, utvikling av to maskinlæringsmodeller og utrulling. Det ble bestemt at det skal lages en klassifiseringsmodell som bruker spaCy for å foreslå emnekategorier på artiklene, og en LDA modell for å foreslå nøkkelord for artiklene, samt foreslå artikler som omhandler samme tema.
Prosessen ble delt opp i flere deler; utvikling av modellene, deployment, utvikling av en web app og dokumentasjon, der utvikling av modellene har hatt høyest prioritet. For å minimere effekten av manglende kompetanse og lange utviklingstider ble det benyttet teknologier som spaCy og LDA, som ble gitt i oppgavebeskrivelsen. Resultatene til modellene indikerte at maskinlæring kan være et veldig godt verktøy for både å bestemme emnekategori og foreslå nøkkelord. I de områdene resultatene ikke var helt tilstrekkelige, antas det at årsaken var at datasettet ikke var godt nok balansert. Videre ble det observert at LDA er en god metode for å finne artikler som ligner, men ikke nødvendigvis så like at de tilhører samme emnekategori.
Konklusjonen er at maskinlæring kan være et godt verktøy for automatisering av tagging av artikler, og at det i framtiden kan være til stor hjelp for journalister. Det anbefales å samle større og mer balanserte data før en eventuelt fortsettelse av dette prosjektet. This thesis aims to find out the potential of using machine learning to automate article tagging in journalism. The project consists of a combination of research, development of two machine learning models and deployment. It was decided that a classification model would be created using spaCy to propose subject categories for the articles, and an LDA model to propose keywords for the articles, as well as suggesting similar articles.
Since practicality was a notable focus of this project, technologies reflecting this were chosen to minimize the impact of lacking expertise and lengthy development times. Along with tools in-house professional can apply for efficiently generate data for increasingly performant models. Applying existing data and metadata created by an in-house team at Adresseavisen or generated by their CXENSE solution to model creation produced quite adequate results. Model performance was good, but not great. Due to over- or under-representation of some data groups and, in general, poor data reliability. For using these models in real world applications they're exposed through network requests for consumption.
The conclusion is that machine learning can be an excellent tool for automating the tagging of articles, and that in the future it can be of great help to journalists. It is recommended to proceed with gathering larger and more balanced data.