dc.contributor.advisor | Yayilgan, Sule Yildirim | |
dc.contributor.author | Orvedal, Vegard Andreas | |
dc.date.accessioned | 2022-10-04T17:19:16Z | |
dc.date.available | 2022-10-04T17:19:16Z | |
dc.date.issued | 2022 | |
dc.identifier | no.ntnu:inspera:107093487:18817088 | |
dc.identifier.uri | https://hdl.handle.net/11250/3023692 | |
dc.description | Full text not available | |
dc.description.abstract | Det siste tiårets utvikling av kovolusjonelle nevrale nettverk has revolusjonert
bildegjenkjenningsfagfeltet innen kunstig intelligens. Innen
helse har nye dype nevrale nettverk blitt vist å gjenkjenne diagnoser
bedre enn mennesker og bruken som et diagnoseverktøy er økende. Det
er mangel på kunnskap når det kommer til forståelsen av dype nevrale
nettverk og hvor de ekstraherer og abstraherer inndata for å komme med
sine overmenneskelige prognoser. En annen konsekvens av den dårlige
forståelsen er sikkerhet og hvordan man kan skape dype nevrale nettverk
som er motstandsdyktige mot angrep.
Fiendtlige angrep er den mest fremtredende og effektive klassen av
angrep på dype nevrale nettverk og forsvaret mot disse har vært begrenset.
Vellykkede forsvarsmetoder har blitt utviklet mot enkeltstående angrep,
men andre angrep kan lett omgå forsvarsmetoden. Fiendtlige angrep er i
likhet med dype nevrale nettverk dårlig forstått og dette har vanskeliggjort
utviklingen av en generell forsvarsmetode.
I denne avhandlingen har tre fiendtlige angrep blitt analysert for å få
en bedre forståelse av deres virkemåte og effekt på et kovolusjonelt nevrale
nettverk. De tre angrepene er, på engelsk, «fast gradient sign method»,
«projected gradient descent» og «universal adversarial perturbation», hver
med sine maksimale og iterative parameter. Tre eksperiment har blitt
gjennomført for å analysere angrepene på forskjellige måter. Den første
visualiserer hvordan angrepene påvirker filtre, den andre sammenligner
fiendtlige og nøytrale utdata fra kovolusjonelle lag med en cosinusliket
for å oppdage likheter i virkemåte, og den tredje sammenligner fiendtlige
og nøytrale inndata ved å måle avstanden mellom aktiveringene.
Eksperimentene avslører at fiendtlige angrep kan ha mer til felles enn
man visste tidligere. Spesielt for tidlige lag og strukturer på lavt nivå,
som filter, er mer påvirkning av fiendtlig inndata og de er lett skillbare
fra nøytrale inndata. Det kan også sees fra de eksperimentelle resultatene
at cosinusliket er uegnet for å analysere fiendtlige angrep. | |
dc.description.abstract | The past decade’s development of convolutional neural networks has
revolutionised the field of image recognition in the artificial intelligence
community. In the health domain the new deep neural networks has been
shown to recognise diagnoses better than humans and their application as
a diagnostic tool are increasing. There is however a lack of understanding
when it comes to knowing how these neural networks are able to extract
and abstract the input data such to make their superhuman predictions.
Another consequence of poor understanding is security and how these
deep neural networks can be made robust against attacks.
Adversarial attacks are the most prominent and effective class of
attack on deep neural networks and their mitigation has been limited.
While individual types of attack has been mitigated, there are attacks
that are easily able to bypass the mitigation approach. As with deep
neural networks in general, adversarial attacks are poorly understood and
the development of generalised defensive techniques has been impeded as
a result.
In this thesis, three adversarial attacks has been analysed to gain a
better understanding of their mechanics and effect on a convolutional
neural network. The attacks are the fast gradient sign method, projected
gradient descent and universal adversarial perturbation, each with their
own maximal and iterative parameters. Three experiments have been
carried out to perform different analyses of the attacks. The first visualises
the impacts the attacks have on filters, the second compares
adversarial and benign layer outputs with cosine similarity to discover
likeness between their mechanics, and the third numerically compares
the attacks to a benign input with euclidean distance of the activations.
The experiments reveal that different adversarial attacks may have
similarities that were previously unknown. Especially shallow layers and
low level structures, such as filters, have been found to be impacted by
adversarial inputs in a way that are easily distinguishable from benign
inputs. From the experimental results it is also interpreted that cosine
similarity is unfit for analysing adversarial attacks. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Deep learning in health systems: An analysis of adversarial attacks on convolutional neural networks | |
dc.type | Master thesis | |