Deep learning in health systems: An analysis of adversarial attacks on convolutional neural networks

Orvedal, Vegard Andreas

dc.contributor.advisor	Yayilgan, Sule Yildirim
dc.contributor.author	Orvedal, Vegard Andreas
dc.date.accessioned	2022-10-04T17:19:16Z
dc.date.available	2022-10-04T17:19:16Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:107093487:18817088
dc.identifier.uri	https://hdl.handle.net/11250/3023692
dc.description	Full text not available
dc.description.abstract	Det siste tiårets utvikling av kovolusjonelle nevrale nettverk has revolusjonert bildegjenkjenningsfagfeltet innen kunstig intelligens. Innen helse har nye dype nevrale nettverk blitt vist å gjenkjenne diagnoser bedre enn mennesker og bruken som et diagnoseverktøy er økende. Det er mangel på kunnskap når det kommer til forståelsen av dype nevrale nettverk og hvor de ekstraherer og abstraherer inndata for å komme med sine overmenneskelige prognoser. En annen konsekvens av den dårlige forståelsen er sikkerhet og hvordan man kan skape dype nevrale nettverk som er motstandsdyktige mot angrep. Fiendtlige angrep er den mest fremtredende og effektive klassen av angrep på dype nevrale nettverk og forsvaret mot disse har vært begrenset. Vellykkede forsvarsmetoder har blitt utviklet mot enkeltstående angrep, men andre angrep kan lett omgå forsvarsmetoden. Fiendtlige angrep er i likhet med dype nevrale nettverk dårlig forstått og dette har vanskeliggjort utviklingen av en generell forsvarsmetode. I denne avhandlingen har tre fiendtlige angrep blitt analysert for å få en bedre forståelse av deres virkemåte og effekt på et kovolusjonelt nevrale nettverk. De tre angrepene er, på engelsk, «fast gradient sign method», «projected gradient descent» og «universal adversarial perturbation», hver med sine maksimale og iterative parameter. Tre eksperiment har blitt gjennomført for å analysere angrepene på forskjellige måter. Den første visualiserer hvordan angrepene påvirker filtre, den andre sammenligner fiendtlige og nøytrale utdata fra kovolusjonelle lag med en cosinusliket for å oppdage likheter i virkemåte, og den tredje sammenligner fiendtlige og nøytrale inndata ved å måle avstanden mellom aktiveringene. Eksperimentene avslører at fiendtlige angrep kan ha mer til felles enn man visste tidligere. Spesielt for tidlige lag og strukturer på lavt nivå, som filter, er mer påvirkning av fiendtlig inndata og de er lett skillbare fra nøytrale inndata. Det kan også sees fra de eksperimentelle resultatene at cosinusliket er uegnet for å analysere fiendtlige angrep.
dc.description.abstract	The past decade’s development of convolutional neural networks has revolutionised the field of image recognition in the artificial intelligence community. In the health domain the new deep neural networks has been shown to recognise diagnoses better than humans and their application as a diagnostic tool are increasing. There is however a lack of understanding when it comes to knowing how these neural networks are able to extract and abstract the input data such to make their superhuman predictions. Another consequence of poor understanding is security and how these deep neural networks can be made robust against attacks. Adversarial attacks are the most prominent and effective class of attack on deep neural networks and their mitigation has been limited. While individual types of attack has been mitigated, there are attacks that are easily able to bypass the mitigation approach. As with deep neural networks in general, adversarial attacks are poorly understood and the development of generalised defensive techniques has been impeded as a result. In this thesis, three adversarial attacks has been analysed to gain a better understanding of their mechanics and effect on a convolutional neural network. The attacks are the fast gradient sign method, projected gradient descent and universal adversarial perturbation, each with their own maximal and iterative parameters. Three experiments have been carried out to perform different analyses of the attacks. The first visualises the impacts the attacks have on filters, the second compares adversarial and benign layer outputs with cosine similarity to discover likeness between their mechanics, and the third numerically compares the attacks to a benign input with euclidean distance of the activations. The experiments reveal that different adversarial attacks may have similarities that were previously unknown. Especially shallow layers and low level structures, such as filters, have been found to be impacted by adversarial inputs in a way that are easily distinguishable from benign inputs. From the experimental results it is also interpreted that cosine similarity is unfit for analysing adversarial attacks.
dc.language	eng
dc.publisher	NTNU
dc.title	Deep learning in health systems: An analysis of adversarial attacks on convolutional neural networks
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2627]

Vis enkel innførsel