Deep learning in health systems: An analysis of adversarial attacks on convolutional neural networks

Orvedal, Vegard Andreas

Orvedal, Vegard Andreas

Master thesis

URI

https://hdl.handle.net/11250/3023692

Date

2022

Metadata

Show full item record

Collections

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2525]

Description

Full text not available

Abstract

Det siste tiårets utvikling av kovolusjonelle nevrale nettverk has revolusjonert

bildegjenkjenningsfagfeltet innen kunstig intelligens. Innen

helse har nye dype nevrale nettverk blitt vist å gjenkjenne diagnoser

bedre enn mennesker og bruken som et diagnoseverktøy er økende. Det

er mangel på kunnskap når det kommer til forståelsen av dype nevrale

nettverk og hvor de ekstraherer og abstraherer inndata for å komme med

sine overmenneskelige prognoser. En annen konsekvens av den dårlige

forståelsen er sikkerhet og hvordan man kan skape dype nevrale nettverk

som er motstandsdyktige mot angrep.

Fiendtlige angrep er den mest fremtredende og effektive klassen av

angrep på dype nevrale nettverk og forsvaret mot disse har vært begrenset.

Vellykkede forsvarsmetoder har blitt utviklet mot enkeltstående angrep,

men andre angrep kan lett omgå forsvarsmetoden. Fiendtlige angrep er i

likhet med dype nevrale nettverk dårlig forstått og dette har vanskeliggjort

utviklingen av en generell forsvarsmetode.

I denne avhandlingen har tre fiendtlige angrep blitt analysert for å få

en bedre forståelse av deres virkemåte og effekt på et kovolusjonelt nevrale

nettverk. De tre angrepene er, på engelsk, «fast gradient sign method»,

«projected gradient descent» og «universal adversarial perturbation», hver

med sine maksimale og iterative parameter. Tre eksperiment har blitt

gjennomført for å analysere angrepene på forskjellige måter. Den første

visualiserer hvordan angrepene påvirker filtre, den andre sammenligner

fiendtlige og nøytrale utdata fra kovolusjonelle lag med en cosinusliket

for å oppdage likheter i virkemåte, og den tredje sammenligner fiendtlige

og nøytrale inndata ved å måle avstanden mellom aktiveringene.

Eksperimentene avslører at fiendtlige angrep kan ha mer til felles enn

man visste tidligere. Spesielt for tidlige lag og strukturer på lavt nivå,

som filter, er mer påvirkning av fiendtlig inndata og de er lett skillbare

fra nøytrale inndata. Det kan også sees fra de eksperimentelle resultatene

at cosinusliket er uegnet for å analysere fiendtlige angrep.

The past decade’s development of convolutional neural networks has

revolutionised the field of image recognition in the artificial intelligence

community. In the health domain the new deep neural networks has been

shown to recognise diagnoses better than humans and their application as

a diagnostic tool are increasing. There is however a lack of understanding

when it comes to knowing how these neural networks are able to extract

and abstract the input data such to make their superhuman predictions.

Another consequence of poor understanding is security and how these

deep neural networks can be made robust against attacks.

Adversarial attacks are the most prominent and effective class of

attack on deep neural networks and their mitigation has been limited.

While individual types of attack has been mitigated, there are attacks

that are easily able to bypass the mitigation approach. As with deep

neural networks in general, adversarial attacks are poorly understood and

the development of generalised defensive techniques has been impeded as

a result.

In this thesis, three adversarial attacks has been analysed to gain a

better understanding of their mechanics and effect on a convolutional

neural network. The attacks are the fast gradient sign method, projected

gradient descent and universal adversarial perturbation, each with their

own maximal and iterative parameters. Three experiments have been

carried out to perform different analyses of the attacks. The first visualises

the impacts the attacks have on filters, the second compares

adversarial and benign layer outputs with cosine similarity to discover

likeness between their mechanics, and the third numerically compares

the attacks to a benign input with euclidean distance of the activations.

The experiments reveal that different adversarial attacks may have

similarities that were previously unknown. Especially shallow layers and

low level structures, such as filters, have been found to be impacted by

adversarial inputs in a way that are easily distinguishable from benign

inputs. From the experimental results it is also interpreted that cosine

similarity is unfit for analysing adversarial attacks.

Publisher

NTNU