Deep learning in health systems: An analysis of adversarial attacks on convolutional neural networks
Description
Full text not available
Abstract
Det siste tiårets utvikling av kovolusjonelle nevrale nettverk has revolusjonertbildegjenkjenningsfagfeltet innen kunstig intelligens. Innenhelse har nye dype nevrale nettverk blitt vist å gjenkjenne diagnoserbedre enn mennesker og bruken som et diagnoseverktøy er økende. Deter mangel på kunnskap når det kommer til forståelsen av dype nevralenettverk og hvor de ekstraherer og abstraherer inndata for å komme medsine overmenneskelige prognoser. En annen konsekvens av den dårligeforståelsen er sikkerhet og hvordan man kan skape dype nevrale nettverksom er motstandsdyktige mot angrep.
Fiendtlige angrep er den mest fremtredende og effektive klassen avangrep på dype nevrale nettverk og forsvaret mot disse har vært begrenset.Vellykkede forsvarsmetoder har blitt utviklet mot enkeltstående angrep,men andre angrep kan lett omgå forsvarsmetoden. Fiendtlige angrep er ilikhet med dype nevrale nettverk dårlig forstått og dette har vanskeliggjortutviklingen av en generell forsvarsmetode.
I denne avhandlingen har tre fiendtlige angrep blitt analysert for å fåen bedre forståelse av deres virkemåte og effekt på et kovolusjonelt nevralenettverk. De tre angrepene er, på engelsk, «fast gradient sign method»,«projected gradient descent» og «universal adversarial perturbation», hvermed sine maksimale og iterative parameter. Tre eksperiment har blittgjennomført for å analysere angrepene på forskjellige måter. Den førstevisualiserer hvordan angrepene påvirker filtre, den andre sammenlignerfiendtlige og nøytrale utdata fra kovolusjonelle lag med en cosinusliketfor å oppdage likheter i virkemåte, og den tredje sammenligner fiendtligeog nøytrale inndata ved å måle avstanden mellom aktiveringene.
Eksperimentene avslører at fiendtlige angrep kan ha mer til felles ennman visste tidligere. Spesielt for tidlige lag og strukturer på lavt nivå,som filter, er mer påvirkning av fiendtlig inndata og de er lett skillbarefra nøytrale inndata. Det kan også sees fra de eksperimentelle resultateneat cosinusliket er uegnet for å analysere fiendtlige angrep. The past decade’s development of convolutional neural networks hasrevolutionised the field of image recognition in the artificial intelligencecommunity. In the health domain the new deep neural networks has beenshown to recognise diagnoses better than humans and their application asa diagnostic tool are increasing. There is however a lack of understandingwhen it comes to knowing how these neural networks are able to extractand abstract the input data such to make their superhuman predictions.Another consequence of poor understanding is security and how thesedeep neural networks can be made robust against attacks.
Adversarial attacks are the most prominent and effective class ofattack on deep neural networks and their mitigation has been limited.While individual types of attack has been mitigated, there are attacksthat are easily able to bypass the mitigation approach. As with deepneural networks in general, adversarial attacks are poorly understood andthe development of generalised defensive techniques has been impeded asa result.
In this thesis, three adversarial attacks has been analysed to gain abetter understanding of their mechanics and effect on a convolutionalneural network. The attacks are the fast gradient sign method, projectedgradient descent and universal adversarial perturbation, each with theirown maximal and iterative parameters. Three experiments have beencarried out to perform different analyses of the attacks. The first visualisesthe impacts the attacks have on filters, the second compares
adversarial and benign layer outputs with cosine similarity to discoverlikeness between their mechanics, and the third numerically comparesthe attacks to a benign input with euclidean distance of the activations.The experiments reveal that different adversarial attacks may havesimilarities that were previously unknown. Especially shallow layers andlow level structures, such as filters, have been found to be impacted byadversarial inputs in a way that are easily distinguishable from benigninputs. From the experimental results it is also interpreted that cosinesimilarity is unfit for analysing adversarial attacks.