Automatisk sammendragsgenerering av nyhetsartikler
Master thesis
Permanent lenke
http://hdl.handle.net/11250/251961Utgivelsesdato
2005Metadata
Vis full innførselSamlinger
Sammendrag
Det er i denne oppgaven testet og evaluert hvorvidt to teknikker med utspring fra informasjonsgjenfinning (eng: Information Retrieval, IR) kan anvendes for ekstraksjon av setninger til nyhetssammendrag. Vektorrommodellen (eng: Vector Space Model) og LSA (Latent Semantic Analysis) med SVD (Singular Value Decomposition) er tilpasset og forsøkt optimalisert for ekstraksjon av det minste settet setninger som best beskriver en nyhetssak. Optimalisering er gjort med bakgrunn i særegenheter funnet i nyhetsartikler, og basert på antagelsene om at egennavn, numeriske verdier og setningslengde er viktige elementer for å beskrive en nyhetssak. For testing og evaluering er det benyttet norske nettavisers omtale av 10 ulike nyhetssaker. Til hver nyhetssak inngår et sett med artikler, og datagrunnlaget for oppgaven er artiklenes overskrifter og ingresser, publisert i RSS-format. Det automatisk genererte nyhets¬sammendraget er evaluert mot et manuelt generert nyhetssammendrag, som er konstruert av en gruppe på fire personer. Det er lagt vekt på at sammendraget skal inneholde de viktigste konseptene for å beskrive innholdet i en nyhetssak, og bestå av så lite redundans som mulig. Automatisk setningsekstraksjon, med beste optimalisering, gir et sammendrag som inneholder 60% manuelt definert gode setninger (presisjon, eng: precision), der over 70% av de ønskede setningene er ekstrahert fra artiklene (funnrate, eng: recall).