Automatic Topic Generation for Broadcasters: Usable Metadata from Topic Models on Systematically Preprocessed TV Subtitles

Rushfeldt, Magnus Reier

dc.contributor.advisor	Mengshoel, Ole Jakob
dc.contributor.author	Rushfeldt, Magnus Reier
dc.date.accessioned	2022-11-16T18:19:44Z
dc.date.available	2022-11-16T18:19:44Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:26592069
dc.identifier.uri	https://hdl.handle.net/11250/3032265
dc.description.abstract	Hos Norsk Rikskringkasting (NRK), fører økende digitalisering og endringer i hvordan folk leser nyheter, ser på TV og hører på radio på til nye utfordringer. Skattebetalende innbyggere i Norge (og dermed «kunder» av NRKs tjenester) krever å finne alt multimedieinnhold i form av TV-programmer, nyhetsartikler og radioprogrammer som er relevante for dem på NRKs nettplattformer med minst mulig innsats. Hele tiden sliter journalister, redaktører og utgivere i NRK med å holde oversikt over hvilket innhold de har og hvordan de skal sørge for at det de publiserer er relevant og koblet til alle andre relaterte medieinnslag de publiserer. NRK har stor etterspørsel etter mer strukturerte metadata på innholdet, noe som vil hjelpe i alt dette. Likevel kan de ikke manuelt lage metadata for tusenvis av multimediefiler og trenger en automatisk måte å generere dette fra filene på. Dataene de lager må også være forståelige og nyttige for ansatte. Med utviklingen av kraftig ny Natural Language Processing-teknologi (NLP) de siste årene, kan mange tidligere komplekse språkoppgaver løses effektivt og nøyaktig, selv om det fortsatt er én hake: Det meste av denne teknologien er utviklet for engelsk eller andre store verdensspråk. Selv om det finnes universelle flerspråklige alternativer for noen algoritmer, så er ikke ytelsen på mange av disse like god for mange mindre og ressursbegrensede språk som norsk, som den kan være for engelsk. Men moderne NLP-metoder som er utvidede eller tilpassede for å fungere godt på norsk kan bidra til å løse disse ytelseshullene og gi NRK kraftige metadatagenereringsverktøy. I denne oppgaven vil jeg derfor bidra med en framgangsmåte til å løse deres metadataproblem på: Automatisk generering av metadata fra filer i form av emner, hver representert som en liste over relaterte nøkkelord og et implisitt emne i filen. Denne generasjonen vil bli utført ved hjelp av Topic Modeling, en form for uovervåket læring hvor skjulte emner i tekstdokumenter identifiseres og representeres ved hjelp av ord fra dokumentene. Jeg bruker NRKs nye og skreddersydde datasett av NRKs tekstede TV (NST)-undertekstfiler, og behandler NST med temamodellene Latent Dirichlet Allocation (LDA) og Top2Vec. Jeg undersøker modellenes evne til å lage temaer som er nyttige for NRK-ansatte som jobber med publisering. For å forbedre modellenes ytelser gjennomfører jeg også en systematisk studie av effekten av forbehandlingstrinn på dataene og modellenes resultater ved hjelp av Python preprocessing toolkit textPrep med utvidelser for norsk. Til slutt, for å vurdere om temaene generert av temamodellene er nyttige for personer som jobber i publisering, har jeg gjennomført en brukerundersøkelse om hvor tolkbare de endelige emnene anses å være av NRK-ansatte, inkludert journalister og redaktører. Mine bidrag inkluderer en ny tilnærming til å generere strukturerte metadata som ansatte kan bruke i publisering, en tilpasning av textPrep-verktøysettet for bruk med andre språk enn engelsk, en ny systematisk studie av effekten av preprosesseringstrinn på språkmodellbaserte emnemodeller, og en brukerstudie av tolkbarhet på emner som er skreddersydd for ansatte som jobber med publisering.
dc.description.abstract	At Norsk Rikskringkasting (NRK), Norway's public broadcasting corporation, increasing digitization and changes in how people read news, watch TV and listen to radio lead to new challenges. Tax-paying citizens of Norway (and thus "customers" of NRK's services) demand to find all multimedia content in the form of TV programs, news articles, and radio programs relevant to them at NRK's online platforms with as little effort as possible. All the while, journalists, editors, and publishers at NRK struggle to keep track of what content they have and how to make sure what they publish is relevant and connected to all other related media items they publish. NRK has a high demand for more structured metadata on its content, which would help in all these efforts. Still, they cannot manually create metadata for thousands of multimedia files and need some automatic way of generating this from the files. The data they create must also be understandable and useful for employees. With the development of powerful new Natural Language Processing (NLP) technology in recent years, many previously complex language tasks can be efficiently and accurately solved, although there is a catch. Most of this technology is developed for English or other major world languages. Even though universal multilingual alternatives exist for some algorithms, for many smaller and resource-constrained languages such as Norwegian, the performance is not on the same level as for English. But modern NLP methods that are extended or adapted to work well for Norwegian can help solve these performance gaps and provide NRK with powerful metadata generation tools. In this thesis, I will therefore contribute with an approach to solving their metadata problem: Automatic generation of metadata from files in the form of topics, each represented as a list of related keywords and an implicit topic in the file. This generation will be performed using Topic Modeling, a form of unsupervised learning where hidden topics in text documents are identified and represented using words from the documents. I use NRK's new and tailor-made dataset of NRK's Subtitled TV (NST) subtitle files, and process NST with the topic models Latent Dirichlet Allocation (LDA) and Top2Vec. I investigate the models' ability to create topics that are useful to NRK employees that work with publishing. To improve the models' performances, I also conduct a systematic study of the effects of preprocessing steps on the data and models' results using the Python preprocessing toolkit textPrep with extensions for Norwegian. Finally, to assess whether the topics generated by the topic models are useful for people who work in publishing, I conducted a user study on how interpretable the final topics are considered to be by NRK employees, including journalists and editors. My contributions include a novel approach to generating structured metadata for employees to use in publishing, an adaptation of the textPrep toolkit for use with Other languages than English, a novel systematic study of the effect of preprocessing steps on language model-based topic models, and a user study of topic interpretability tailored for employees who work in publishing.
dc.language	eng
dc.publisher	NTNU
dc.title	Automatic Topic Generation for Broadcasters: Usable Metadata from Topic Models on Systematically Preprocessed TV Subtitles
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:2659 ...
Størrelse:: 5.895Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6768]

Vis enkel innførsel