Supporting Explainability in Machine Learning Systems Using Text Summarization
Abstract
Bruksområdene for kunstig intelligens har vokst betraktelig de siste årene, og dette har også hatt stor nytteverdi for det medisinske domenet. Maskinlæring har vist seg å være nyttig for tidlig diagnostisering av cerebral parese, hvor kunstig intelligens brukes til å følge og analysere bevegelsene til et spedbarn. For at klinikere skal få bruk for prediksjonene av høy eller lav risiko for cerebral parese, må systemet være i stand til å belyse bakgrunnen for prediksjonene som gis. Den gitte forklaringen må igjen verifiseres av klinikere før en eventuell diagnose kan stilles. Dette er imidlertid ikke en enkel oppgave, da dagens søkesystemer for medisinske artikler er tungvinte og returnerer en for stor mengde resultater.
Denne masteroppgaven foreslår et nytt søkesystem for medisinske artikler basert på flere sammensatte funksjoner. Dette systemet bistår klinikere i en rask gjennomgang av relevant fagkunnskap ved å hente ut, gruppere og gi et kort sammendrag av den viktigste informasjonen. For å konstruere disse sammendragene foreslår vi en ny metode, som trekker ut relevante setninger ved å identifisere viktige konsepter i dokumentene og å bruke ordfrekvenser til å justere viktigheten av hver enkelt setning. Denne metoden viste seg å være vellykket, og den presterte betydelig bedre enn de grunnleggende metodene. Videre viste eksperimentene at forbedringen var enda større for generelle vitenskapelige artikler, og forskningen er dermed et verdifullt bidrag til sammendragsdomenet. The applications of artificial intelligence have increased significantly in the last years, and its utility has been adopted in the medical domain. Machine learning has shown great potential for early diagnostication of cerebral palsy, where artificial intelligence is used to track and analyze the movements of an infant. For clinicians to use the predictions of high or low risk for cerebral palsy, the system must be able to clarify the reason for the given predictions. This explanation must then be verified by clinicians before determining a diagnosis. However, this is not an easy task, since the currently used medical search engines are cumbersome and returns too many search results.
This master's thesis proposes a search system for medical articles consisting of several composed features. This system assists clinicians in a fast review of relevant domain knowledge by retrieving, clustering and summarizing the most important information. For constructing these summaries, we propose a novel method that extracts relevant sentences by identifying important concepts in the documents and using word frequencies to adjust the importance of each sentence. This method proved to be successful, and it performed significantly better than the baseline methods. Further, our experiments showed that the improvement was even larger for scientific papers in general, and our research is therefore a valuable contribution to the summarization domain.