Automatisk sammendragsgenerering av nyhetsartikler

Hellerud, Helge Thomas

Hellerud, Helge Thomas

Master thesis

Åpne

350832_FULLTEXT01.pdf (Låst)

Permanent lenke

http://hdl.handle.net/11250/251961

Utgivelsesdato

2005

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6822]

Sammendrag

Det er i denne oppgaven testet og evaluert hvorvidt to teknikker med utspring fra informasjonsgjenfinning (eng: Information Retrieval, IR) kan anvendes for ekstraksjon av setninger til nyhetssammendrag. Vektorrommodellen (eng: Vector Space Model) og LSA (Latent Semantic Analysis) med SVD (Singular Value Decomposition) er tilpasset og forsøkt optimalisert for ekstraksjon av det minste settet setninger som best beskriver en nyhetssak. Optimalisering er gjort med bakgrunn i særegenheter funnet i nyhetsartikler, og basert på antagelsene om at egennavn, numeriske verdier og setningslengde er viktige elementer for å beskrive en nyhetssak. For testing og evaluering er det benyttet norske nettavisers omtale av 10 ulike nyhetssaker. Til hver nyhetssak inngår et sett med artikler, og datagrunnlaget for oppgaven er artiklenes overskrifter og ingresser, publisert i RSS-format. Det automatisk genererte nyhets¬sammendraget er evaluert mot et manuelt generert nyhetssammendrag, som er konstruert av en gruppe på fire personer. Det er lagt vekt på at sammendraget skal inneholde de viktigste konseptene for å beskrive innholdet i en nyhetssak, og bestå av så lite redundans som mulig. Automatisk setningsekstraksjon, med beste optimalisering, gir et sammendrag som inneholder 60% manuelt definert gode setninger (presisjon, eng: precision), der over 70% av de ønskede setningene er ekstrahert fra artiklene (funnrate, eng: recall).

Utgiver

Institutt for datateknikk og informasjonsvitenskap